Dank KI kann viel besser nach Informationen und Wissen gesucht werden als bisher. Finden statt Suchen, ist nun die Lösung, die zudem höchste Datensicherheit bietet. Anstatt simpler Vergleiche wird die Bedeutung von Suchbegriffen und von Firmendokumenten herangezogen. Das geht nicht nur sehr gut, sondern auch sehr schnell.
Einleitung
Eine intelligente Suchmaschine für Firmendokumente, mit KI und voller Datenkontrolle. Microsoft und OpenAI bekommen Ihre Daten nicht.
Suchmaschinen beherrschen seit längerem die unscharfe Suche nach Text. Die Suche basiert dabei immer auf folgendem Grundmechanismus:
- Eine Anzahl gegebener Dokumente (Texte) wird eingelesen. Daraus wird ein sogenannter Suchindex gebildet. Der Suchindex ist eine Datenbank und hat nichts mit einem „Index“ im Sinne eines Verbots zu tun.
- Ein Nutzer gibt einen Suchbegriff oder mehrere ein.
- Die Suchmaschine vergleicht nun jedes Dokument im Suchindex mit dem Suchbegriff.
- Die Dokumente, die beim Vergleich am besten abgeschnitten haben, werden zuerst als Treffer ausgegeben.
Oft vertippen sich Nutzer bei der Eingabe von Suchbegriffen. Viele Suchanfragen verwenden zudem andere Begriffe als sie in den Dokumenten im Suchindex vorkommen (Synonyme).
Manchmal gibt ein Nutzer auch eine kurze Frage oder eine Aussage ein, die als Frage gemeint ist. Beispiele: „Was höchster Berg“ oder „höchster berg“. Zu erahnen ist hier bereits, dass oft die Groß-/Kleinschreibung nicht passt.
Höchste Datensicherheit mit einem optimierten KI-System.
Das freut Sie und Ihren DSB, aber nicht Microsoft und amerikanische Geheimdienst.
Diesen Herausforderungen begegnen Suchmaschinen seit längerem mit ausgeklügelten Mechanismen. Insbesondere die Suche nach n-Grammen ist erfolgreich. Ein n-Gramm ist ein Wortbestandteil der Länge n. Die Variable n kann hier beliebige Werte annehmen und beginnt sinnvollerweise bei 2.
Damit können nicht nur Rechtschreibfehler, sondern auch Wortvarianten mit leicht anderer Schreibweise ausgeglichen werden. Ein Synonym-Wörterbuch sorgt für das korrekte Erkennen von Begriffen mit gleicher Bedeutung.
Fragen, die der Nutzer stellt, können meistens einfach zusammengestrichen werden. Die Eingabe „Was ist der höchste Berg“ kann so zu „höchste Berg“ umgewandelt werden. Hierfür wird dann die Antwort gefunden.
Allerdings scheitern solche Verfahren, so ausgeklügelt sie auch sein mögen, an Suchen nach Wissen.
Hier ein Beispiel:
Vier Texte, die unterschiedlich ähnlich sind:
1) Hallo Welt
2) Hallo Mutter
3) Hallo Mutter Natur
4) Hallo Sophie
Idealerweise liefert ein Ähnlichkeitsvergleich dieser vier Texte folgende Paare als am ähnlichsten:
- Paar mit ähnlicher Bedeutung: Hallo Welt und Hallo Mutter Natur
- Paar mit ähnlicher Bedeutung: Hallo Mutter und Hallo Sophie
Diese Paar-Ähnlichkeit ist hier als Goldstandard definiert. Weiter unten wird beschrieben, wie ein anderer Standard definiert werden kann.
Ein zeichen- oder wortweiser Vergleich hätte „Hallo Mutter“ und „Hallo Mutter Natur“ als am ähnlichsten erkannt. Aus semantischer Sicht ist das gemäß des definierten Standards falsch (der Standard kann von jeder KI-Betreiberin sebst definiert werden). Richtig ist, dass „Welt“ und „Mutter Natur“ eine viel ähnlichere Bedeutung haben als „Mutter“ und „Mutter Natur“.
Semantische Suche mit KI
Genau hier setzt die sogenannte semantische Suche an, die seit Entdeckung des Transformers im Jahr 2017 und dem Aufkommen leistungsfähiger Hardware möglich ist.
Das Prinzip der semantischen Suche ist völlig anders als das bisheriger Suchmaschinen. Um Texte zu einer Suchanfrage zu finden, wird kein Vergleich von Zeichen durchgeführt, sondern ein Vergleich von Bedeutung!
Doch wie geht das? Wie kann Bedeutung verglichen werden? Das konnte doch nur der Mensch. Richtig, aber spätestens seit dem Jahr 2017 ist die Intelligenzfunktion des Menschen entschlüsselt (siehe Definition von Intelligenz und Künstlicher Intelligenz). Viele sehen es anders, können aber nicht begründen, warum das so sein soll. Siehe hierzu auch die häufigen Missverständnisse zu KI.
Die Frage, wie Bedeutung verglichen werden kann, kann auf folgende Frage reduziert werden:
Wie kann die Bedeutung einer gegebenen Information (Text) in Zahlen ausgedrückt werden?
Das ist schon mal einfacher als die Ursprungsfrage, aber immer noch keine konkrete Lösung.
Die konkrete Lösung lautet: Eine KI lernt, welche Informationen (Texte) sehr ähnlich, etwas ähnlich oder wenig bis gar nicht ähnlich sind. Das passiert – Überraschung – genau wie beim Menschen, nämlich durch Erziehung. Erziehung basiert auf vorbildlichem Handeln, auf Information und auf Korrektur.
Auf KI bezogen heißt das, es werden Beispiele vorgegeben. Diese Beispiele enthalten sowohl Fälle von Informationen, die sehr ähnlich sind als auch Fälle, die weniger oder gar nicht ähnlich sind. Zu jedem Fall ist angegeben, wie groß oder gering die Ähnlichkeit ist. Diese Angabe kann rein qualitativ erfolgen, wie beim Elternteil, das sein Kind erzieht: „Das war sehr gut!“, oder „Nein, dafür wirst Du bestraft!“.
Dieser Belohnungs- und Bestrafungsmechanismus (bei der Erziehung von Kindern durch ihre Eltern) ist auch beim KI-Training wiederzufinden. Das KI-Modell entsteht, indem eine sogenannte Verlustfunktion (Loss Function) verwendet wird. Der Verlust ist der Teil, der zur Perfektion fehlt.
Aus Informationen werden Zahlen
Nach einigen Millionen oder Milliarden Beispielen, die im Internet zu finden sind, entsteht ein KI-Modell für die semantische Suche. Dieses Modell erzeugt sogenannte Einbettungen für Informationen. Eine Einbettung ist eine Reihe von Zahlen.
Hier ein Beispiel für die Zahlen, die das KI-Modell aus der Eingabe „Hallo Mutter Natur“ macht:
[0.05151367 -0.03955078 0.08984375 … 0.02124023 -0.03076172 0.0100708],
…
[0.06396484 -0.04321289 0.09472656 … 0.02441406 -0.028442380.01434326]
Die eckigen Klammern deuten hier auf Gruppen von Zahlen hin. Jede Gruppe besteht aus mehreren Zahlen. Das wird auch als Vektor bezeichnet. Die drei Punkte zwischen den Zahlen deuten an, dass hier einige Zahlen und Gruppen ausgelassen wurden, weil es zu viele sind. Insgesamt besteht ein Vektor also aus sehr vielen Gruppen und Zahlen.
Warum gibt es mehrere Gruppen von Zahlen und nicht nur eine? Ganz einfach: Weil es sinnvoll ist. Ein Satz kann ja auch aus mehreren Worten bestehen und nicht nur aus einem Wort. Die semantische Suche soll ja Worte und deren Bedeutungen vergleichen.
In einer Gruppe gibt es mehrere Zahlen, weil damit mehr Informationen abgebildet werden können. Bildlich gesprochen, kann man sich das so vorstellen: Würde man nur eine Zahl für das Wort „Mutter“ verwenden, könnten man die kontextabhängige Bedeutung des Wortes „Mutter“ in der Phrase „Mutter Natur“ nicht gut abbilden.
Zurück zur Frage, wie Wissen in Firmendokumenten oder im Internet gefunden werden kann.
Die Antwort lautet: Wissen wird gefunden, indem die Bedeutung der Suchanfrage in eine lange Zahlenreihe überführt wird und das ebenso für alle zu durchsuchenden Wissensdokumente gemacht wird. Dann wird die Zahlenreihe der Suchanfrage mit allen Zahlenreihen aller Wissensdokumente verglichen. Damit das schnell geht, wurden Vektorsuchmaschinen eingeführt. Das sind Datenbanken, die Vektoren für Wissensdokumente vorberechnen und dann sehr schnell mit einem anderen Vektor (für die Suchanfrage) verglichen können.
Wie werden Vektoren verglichen?
Hierfür gibt es mehrere Möglichkeiten. Die Cosinus-Ähnlichkeit ist eine davon. Ein Vektor kann als gerichtete Linie im Raum angesehen werden. Die Ähnlichkeit zweier Vektoren bestimmt sich aus dem Abstand im Raum. Der Raum ist hier nicht dreidimensional, sondern vieldimensional. Was im wirklichen Leben nicht vorstellbar ist, kann die Mathematik leisten.
Vergleicht man die oben genannten vier Beispieltexte miteinander (jeder Text wird mit jedem Text verglichen, auch mit sich selbst), entsteht folgende Ähnlichkeitsmatrix:
Hallo Welt Hallo Mutter Hallo Mutter Natur Hallo Hans
Hallo Welt 1.00 0.59 0.73 0.61
Hallo Mutter 0.59 1.00 0.63 0.47
Hallo Mutter Natur 0.73 0.63 1.00 0.46
Hallo Hans 0.61 0.47 0.46 1.00
Hierzu eine Anmerkung, die zeigt, dass ein neues IT-Zeitalter angebrochen ist (nur nicht in Deutschland):
Diese Matrix wurde in Python mit folgendem Befehl generiert:
print(embeddings @ embeddings.T)Sieht kompliziert aus, ist aber nur eine Zeile Code. Damit soll ansatzweise gezeigt werden, dass KI-Projekte sehr effizient realisiert werden können. Was früher Jahre dauerte, geht jetzt in Wochen.
Der höchste Ähnlichkeitswert ist 1.0 = Gleichheit. Dieser Wert ist zu sehen für den Vergleich eines Textes mit sich selbst. Der Vergleich von „Hallo Mutter“ mit „Hallo Mutter Natur“ ergibt den Ähnlichkeitswert von 0.63. Hingegen ist die Ähnlichkeit zwischen „Hallo Welt“ und „Hallo Mutter Natur“ gleich 0.73, also höher als 0.63.
Die höhere Bedeutungsähnlichkeit zwischen „Welt“ und „Mutter Natur“ versus „Mutter“ und „Mutter Natur“ wurde erkannt. Dieses Beispiel ist nur zur Veranschaulichung gedacht. Denn es kann sein, dass jemand die Ähnlichkeit dieser Beispielpaare anders sieht. In diesem Fall gibt es die Möglichkeit, das KI-Modell zu justieren und ein Feintraining durchzuführen. So lernt das KI-Modell (bei Bedarf), dass die Ähnlichkeit zwischen „Mutter“ und „Mutter Natur“ höher ist als zwischen „Mutter“ und „Welt“.
Merkmale einer KI-Suche
Die Suche nach Wissen mit Hilfe von KI bietet zahlreiche Vorzüge.
Das Problem der Synonyme ist automatisch erledigt. Denn es werden angelernte Bedeutungen verglichen und nicht Worte, Buchstaben oder n-Gramme.
Jeder, der die KI-Suche nutzen möchte, kann auf ein ausgereiftes semantisches KI-Modell zurückgreifen. Das ist so, als wenn Sie in Ihrer Firma einen neuen Mitarbeiter einstellen, der voll ausgebildet ist.
Die Ausführungsgeschwindigkeit einer solchen Suche ist sehr hoch. Millionen von Dokumenten können so fast in Echtzeit durchsucht werden. Dies ist möglich, weil die Dokumente einmalig vektorisiert, also in Zahlen umgewandelt werden. Dieser langwierige Vorgang muss nur einmal ausgeführt werden.
Ein kurzer Test auf einem Laptop zeigt, dass der Aufruf einer Ähnlichkeitssuche über eine selbst programmierte API über das Netzwerk innerhalb eines Sekundenbruchteils erledigt war.
Die Qualität der Ergebnisse ist sehr gut. Firmen und Behörden setzen oft spezielle Vokabeln und Redewendungen ein. Diese können dem KI-Modell in Form von sehr wenigen Beispielen beigebracht werden. Es reichen wirklich sehr wenige Beispiele aus, auch wenn mehr Beispiele besser sind. Wieder mit Hilfe von KI können Ihre Beispiele synthetisch erweitert werden. So werden aus 10 Beispielen schnell 200.
Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks
KI-Beratung, KI-Lösungen
Leistungsangebot:
- Erstberatung inkl. Machbarkeitsaussagen
- Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
- KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

gekennzeichnet.

Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die 