Die normale Suche dieser Webseite, die über WordPress bereitgestellt wird, wurde um eine unscharfe und eine semantische Suche (KI) ergänzt. Im WordPress-Standard werden nämlich keine Treffer gefunden, wenn ein Suchbegriff nicht auf der Webseite vorkommt. Schreibfehler oder nicht verwendete Synonyme führen so zu erfolglosen Suchen.
Deswegen wurden dem Dr. DSGVO-Blog zwei Suchmechanismen hinzugefügt:
- Unscharfe Suche: Kann Schreibfehler in einem Suchbegriff ausgleichen
- Semantische Suche: Berücksichtigt Synonyme und die Bedeutung von Fragen
Beide Sucharten sind noch in der Entwicklungs- und Erprobungsphase. Die durchsuchten Dokumente werden momentan nicht aktuell gehalten. Auch findet momentan keine Eingrenzung auf Wissensartikel statt. Somit werden auch Dokumente durchsucht, die eigentlich nicht durchsucht werden sollten. Das Ganze funktioniert dennoch und ist als praktische Demonstration der technischen Möglichkeiten gedacht.
Unscharfe Suche
Die unscharfe Suche greift nur dann, wenn ein Suchbegriff eingegeben wurde und dafür nur wenige Treffer existieren. Oft liegt dann nämlich ein Schreibfehler vor. Beispiel: Datnschutz statt Datenschutz.
Wenn ein Schreibfehler festgestellt wurde, wird dies angezeigt und der wahrscheinlich gemeinte Suchbegriff vorgeschlagen: Meinten Sie Datenschutz? Ein Klick auf den vorgeschlagenen Begriff startet eine neue Suche. Außerdem wird der Vorschlag im Suchfeld vorbelegt und überschreibt so den vorher wahrscheinlich falsch eingegebenen Begriff.
Zum Erkennen von Schreibfehlern müssen natürlich die als korrekt angesehenen Begriffe bekannt sein. Dafür habe ich wieder einen KI-basierten Algorithmus verwendet, um aus allen Beiträgen auf Dr. DSGVO alle Begriffe zu extrahieren. Das klingt leichter als es ist. Zunächst müssen nämlich die einzelnen Sätze extrahiert werden. Abkürzungen, die einen Punkt (normalerweise ein Satzendezeichen) enthalten, müssen erkannt werden. Technische Beschreibungen wie URLs oder beispielhaft angegebene Cookie-Werte sollten hingegen nicht im KI-Suchindex landen. Auch technische Tabellen oder HTML-Tags sollten ignoriert werden. Danach kommt das Problem, dass sogenannte Entitäten erkannt werden sollten (NER = Named Entity Recognition). Beispielsweise kann der Begriff „Spiegel Online-Website“ idealerweise als zusammengehöriges Wort erkannt werden, aber auch als zwei oder drei Worte, die im Suchindex dann unabhängig voneinander auftauchen würden. Bitte rufen Sie die eben genannte Webseite am besten nicht auf. Als ich die Seite zuletzt untersuchte, waren dort zahlreiche Datenschutzprobleme feststellbar.
Semantische Suche
Die semantische Suche hilft beim Finden von Dokumenten, die eine bestimme Frage beantworten. Beispiel: „Sind Cokies personenbezogene Daten?“. Bitte beachten Sie den absichtlichen Schreibfehler in dieser Frage zur Demonstration („Cokies“ statt „Cookies“). Klicken Sie auf die Frage in diesem Absatz, um das Suchergebnis zu sehen.
Das KI-Sprachmodell von Dr. DSGVO kann diese Frage direkt aus dem Bestand der Blog-Artikel dieser Webseite beantworten, und zwar mit eigenen Worten (abstraktiv).
Allerdings kostet ein KI-Server, der ein großes Sprachmodell (LLM) betreiben kann, etwas Miete. Es ist nicht viel, aber mehr als ein paar Euro. Zudem wird bereits ein Server für Entwicklungs- und Testzwecke gemietet. Daher wird ein zusätzlicher, sehr kleiner und sehr günstiger Server für die semantische Suche verwendet.
Konsequenzen
Die Folge ist, dass nur der erste von zwei Suchschritten hier live zu sehen ist. Die beiden Suchschritte sind:
- Ermitteln der am besten zur gestellten Frage passenden Beiträge
- Formulieren und Ausgeben einer Antwort aus den Dokumenten, die im ersten Schritt gefunden wurden.
Für den ersten Schritt wird ein Server eines deutschen Anbieters verwendet, der ein paar Euro pro Monat kostet und 8 GB RAM, aber keine Grafikkarte hat. Große KI-Modelle benötigen eine Grafikkarte, um performant genutzt zu werden. Außerdem können auf dem Server aufgrund seiner spärlichen Ausstattung und Software-Basis moderne KI-Bibliotheken nicht so genutzt werden, wie ich es gerne hätte. Weiterhin ist ein Neuindizieren des KI-Modells quasi nicht möglich, weil es Stunden dauern würde.
Wie der Dr. DSGVO Frage-Antwort-Assistent hingegen auf einem recht kleinen, aber eben doch leistungsstarken KI-Server mit Grafikkarte funktioniert und welche erstaunlichen Ergebnisse Sie erwarten dürfen, ist in einem KI-Beitrag zum Frage-Antwort-System illustriert. Mit diesem KI-Server dauert die Indizierung des Dr. DSGVO Blogs, also das Aufnehmen des Wissens in ein KI-Modell nur wenige Sekunden (statt Stunden wie beim oben genannten Mini-Server ohne Grafikkarte).
Ausblick: Die im Vergleich zur KI einfache Suchmaschine ist zwar in WordPress eingebaut. Sie läuft allerdings in einem eigenen Prozess. Technisch ist es erstmal nicht sinnvoll, diesen Prozess aufzubohren. Die WordPress-Suche funktioniert nämlich mit meiner aktuellen Architektur auch dann, wenn mein Nicht-KI-Server nicht erreichbar ist. Immerhin nutze ich ihn auch für Entwicklungszwecke. Zudem gibt es Anwendungen, die nicht auf WordPress basieren. Ein weiterer Schritt ist also das Implementieren einer Suchmaschine, die von den oben genannten KI-Suchen ergänzt wird. Dies realisiere ich gerade und nutze dafür fertige Module. Das Schöne: Alle Suchen können jeweils auf eigenen Servern laufen, sich so die Last teilen und resistenter gegen technische Störungen werden.
Kommen Sie gerne auf mich (Klaus Meffert) zu, wenn Ihre Firma oder Organisation ein eigenes KI-System haben möchte, ohne Daten an Dritte weiterzugeben.
Kernaussagen
Der Blog Dr. DSGVO verwendet zwei Arten der Suche: eine unscharfe Suche, die Schreibfehler korrigiert, und eine semantische KI-Suche, die Fragen versteht.
Beide Sucharten basieren auf KI-Algorithmen und werden ständig weiterentwickelt.
Die KI-Suche gewährleistet eine hohe Datensicherheit und ist unabhängig von Cloud-Diensten.
KI-Beratung, KI-Lösungen
Leistungsangebot:
- Erstberatung inkl. Machbarkeitsaussagen
- Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
- KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

gekennzeichnet.

Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die 