Wie funktioniert die semantische KI-Suche im Vergleich zur herkömmlichen Suche?

Die semantische Suche vergleicht die Bedeutung von Texten, anstatt nur Zeichen. Dabei lernt eine KI, welche Texte ähnlich sind, indem sie anhand von Beispielen trainiert wird, ähnlich wie Menschen durch Erziehung lernen. Dies ermöglicht eine genauere Suche, die auch Synonyme und ähnliche Bedeutungen berücksichtigt.

Welche Rolle spielen Einbettungen bei der semantischen Suche mit KI?

Einbettungen sind Reihungen von Zahlen, die von der KI erzeugt werden, um die Bedeutung von Texten darzustellen. Diese Einbettungen ermöglichen es der KI, die Ähnlichkeit zwischen Texten zu quantifizieren und somit die relevantesten Ergebnisse zu liefern. Sie sind ein zentraler Bestandteil des semantischen Suchprozesses.

Wie funktioniert die semantische Suche mit KI im Detail?

Die semantische Suche wandelt Suchanfragen und Dokumente in Zahlenreihen (Vektoren) um, um die Bedeutung statt nur die Worte zu vergleichen. Diese Vektoren werden dann verglichen, oft mithilfe der Cosinus-Ähnlichkeit, um die semantische Ähnlichkeit zu bestimmen.

Was ist ein Vektor und warum wird er in der KI-Suche verwendet?

Ein Vektor repräsentiert die Bedeutung eines Textes als Zahlenreihe. Dies ermöglicht es der KI, die Beziehungen zwischen Wörtern und Konzepten zu erfassen und somit Texte basierend auf ihrer Bedeutung zu vergleichen, nicht nur auf ihren Wortlaut.

Wie kann die KI-Suche gescannte Dokumente effektiv nutzen?

Die semantische KI-Suche kann auch eingescannten Dokumenten zugute kommen, indem sie Zeichenverfremdungen oder abgeschnittene Bereiche berücksichtigt. Sie ermöglicht die Suche nach Informationen in Bildern und erkennt ähnliche Dokumente, unabhängig von ihrem ursprünglichen Format.

Welchen Vorteil bietet die KI-Suche gegenüber herkömmlichen Suchmethoden?

Die KI-Suche ermöglicht es, Wissen schneller und sicherer zu finden, indem sie den Kontext und die Bedeutung von Texten versteht, anstatt nur nach Schlüsselwörtern zu suchen. Dies führt zu präziseren Ergebnissen und einer effizienteren Informationsbeschaffung.

Wissen in Firmendokumenten finden: Semantische KI-Suche

Kategorien: Datenschutz und Künstliche Intelligenz

Dank KI kann viel besser nach Informationen und Wissen gesucht werden als bisher. Finden statt Suchen, ist nun die Lösung, die zudem höchste Datensicherheit bietet. Anstatt simpler Vergleiche wird die Bedeutung von Suchbegriffen und von Firmendokumenten herangezogen. Das geht nicht nur sehr gut, sondern auch sehr schnell.

Einleitung

Eine intelligente Suchmaschine für Firmendokumente, mit KI und voller Datenkontrolle. Microsoft und OpenAI bekommen Ihre Daten nicht.

Suchmaschinen beherrschen seit längerem die unscharfe Suche nach Text. Die Suche basiert dabei immer auf folgendem Grundmechanismus:

Eine Anzahl gegebener Dokumente (Texte) wird eingelesen. Daraus wird ein sogenannter Suchindex gebildet. Der Suchindex ist eine Datenbank und hat nichts mit einem „Index“ im Sinne eines Verbots zu tun.
Ein Nutzer gibt einen Suchbegriff oder mehrere ein.
Die Suchmaschine vergleicht nun jedes Dokument im Suchindex mit dem Suchbegriff.
Die Dokumente, die beim Vergleich am besten abgeschnitten haben, werden zuerst als Treffer ausgegeben.

Oft vertippen sich Nutzer bei der Eingabe von Suchbegriffen. Viele Suchanfragen verwenden zudem andere Begriffe als sie in den Dokumenten im Suchindex vorkommen (Synonyme).

Manchmal gibt ein Nutzer auch eine kurze Frage oder eine Aussage ein, die als Frage gemeint ist. Beispiele: „Was höchster Berg“ oder „höchster berg“. Zu erahnen ist hier bereits, dass oft die Groß-/Kleinschreibung nicht passt.

Höchste Datensicherheit mit einem optimierten KI-System.

Das freut Sie und Ihren DSB, aber nicht Microsoft und amerikanische Geheimdienst.

Diesen Herausforderungen begegnen Suchmaschinen seit längerem mit ausgeklügelten Mechanismen. Insbesondere die Suche nach n-Grammen ist erfolgreich. Ein n-Gramm ist ein Wortbestandteil der Länge n. Die Variable n kann hier beliebige Werte annehmen und beginnt sinnvollerweise bei 2.

Damit können nicht nur Rechtschreibfehler, sondern auch Wortvarianten mit leicht anderer Schreibweise ausgeglichen werden. Ein Synonym-Wörterbuch sorgt für das korrekte Erkennen von Begriffen mit gleicher Bedeutung.

Fragen, die der Nutzer stellt, können meistens einfach zusammengestrichen werden. Die Eingabe „Was ist der höchste Berg“ kann so zu „höchste Berg“ umgewandelt werden. Hierfür wird dann die Antwort gefunden.

Allerdings scheitern solche Verfahren, so ausgeklügelt sie auch sein mögen, an Suchen nach Wissen.

Hier ein Beispiel:

Vier Texte, die unterschiedlich ähnlich sind:

1) Hallo Welt

2) Hallo Mutter

3) Hallo Mutter Natur

4) Hallo Sophie

Idealerweise liefert ein Ähnlichkeitsvergleich dieser vier Texte folgende Paare als am ähnlichsten:

Paar mit ähnlicher Bedeutung: Hallo Welt und Hallo Mutter Natur

Paar mit ähnlicher Bedeutung: Hallo Mutter und Hallo Sophie

Diese Paar-Ähnlichkeit ist hier als Goldstandard definiert. Weiter unten wird beschrieben, wie ein anderer Standard definiert werden kann.

Ein zeichen- oder wortweiser Vergleich hätte „Hallo Mutter“ und „Hallo Mutter Natur“ als am ähnlichsten erkannt. Aus semantischer Sicht ist das gemäß des definierten Standards falsch (der Standard kann von jeder KI-Betreiberin sebst definiert werden). Richtig ist, dass „Welt“ und „Mutter Natur“ eine viel ähnlichere Bedeutung haben als „Mutter“ und „Mutter Natur“.

Semantische Suche mit KI

Genau hier setzt die sogenannte semantische Suche an, die seit Entdeckung des Transformers im Jahr 2017 und dem Aufkommen leistungsfähiger Hardware möglich ist.

Das Prinzip der semantischen Suche ist völlig anders als das bisheriger Suchmaschinen. Um Texte zu einer Suchanfrage zu finden, wird kein Vergleich von Zeichen durchgeführt, sondern ein Vergleich von Bedeutung!

Doch wie geht das? Wie kann Bedeutung verglichen werden? Das konnte doch nur der Mensch. Richtig, aber spätestens seit dem Jahr 2017 ist die Intelligenzfunktion des Menschen entschlüsselt (siehe Definition von Intelligenz und Künstlicher Intelligenz). Viele sehen es anders, können aber nicht begründen, warum das so sein soll. Siehe hierzu auch die häufigen Missverständnisse zu KI.

Die Frage, wie Bedeutung verglichen werden kann, kann auf folgende Frage reduziert werden:

Wie kann die Bedeutung einer gegebenen Information (Text) in Zahlen ausgedrückt werden?

Das ist schon mal einfacher als die Ursprungsfrage, aber immer noch keine konkrete Lösung.

Die konkrete Lösung lautet: Eine KI lernt, welche Informationen (Texte) sehr ähnlich, etwas ähnlich oder wenig bis gar nicht ähnlich sind. Das passiert – Überraschung – genau wie beim Menschen, nämlich durch Erziehung. Erziehung basiert auf vorbildlichem Handeln, auf Information und auf Korrektur.

Auf KI bezogen heißt das, es werden Beispiele vorgegeben. Diese Beispiele enthalten sowohl Fälle von Informationen, die sehr ähnlich sind als auch Fälle, die weniger oder gar nicht ähnlich sind. Zu jedem Fall ist angegeben, wie groß oder gering die Ähnlichkeit ist. Diese Angabe kann rein qualitativ erfolgen, wie beim Elternteil, das sein Kind erzieht: „Das war sehr gut!“, oder „Nein, dafür wirst Du bestraft!“.

Dieser Belohnungs- und Bestrafungsmechanismus (bei der Erziehung von Kindern durch ihre Eltern) ist auch beim KI-Training wiederzufinden. Das KI-Modell entsteht, indem eine sogenannte Verlustfunktion (Loss Function) verwendet wird. Der Verlust ist der Teil, der zur Perfektion fehlt.

Aus Informationen werden Zahlen

Nach einigen Millionen oder Milliarden Beispielen, die im Internet zu finden sind, entsteht ein KI-Modell für die semantische Suche. Dieses Modell erzeugt sogenannte Einbettungen für Informationen. Eine Einbettung ist eine Reihe von Zahlen.

Hier ein Beispiel für die Zahlen, die das KI-Modell aus der Eingabe „Hallo Mutter Natur“ macht:

[0.05151367 -0.03955078 0.08984375 … 0.02124023 -0.03076172 0.0100708],
…
[0.06396484 -0.04321289 0.09472656 … 0.02441406 -0.028442380.01434326]

Die eckigen Klammern deuten hier auf Gruppen von Zahlen hin. Jede Gruppe besteht aus mehreren Zahlen. Das wird auch als Vektor bezeichnet. Die drei Punkte zwischen den Zahlen deuten an, dass hier einige Zahlen und Gruppen ausgelassen wurden, weil es zu viele sind. Insgesamt besteht ein Vektor also aus sehr vielen Gruppen und Zahlen.

Warum gibt es mehrere Gruppen von Zahlen und nicht nur eine? Ganz einfach: Weil es sinnvoll ist. Ein Satz kann ja auch aus mehreren Worten bestehen und nicht nur aus einem Wort. Die semantische Suche soll ja Worte und deren Bedeutungen vergleichen.

In einer Gruppe gibt es mehrere Zahlen, weil damit mehr Informationen abgebildet werden können. Bildlich gesprochen, kann man sich das so vorstellen: Würde man nur eine Zahl für das Wort „Mutter“ verwenden, könnten man die kontextabhängige Bedeutung des Wortes „Mutter“ in der Phrase „Mutter Natur“ nicht gut abbilden.

Zurück zur Frage, wie Wissen in Firmendokumenten oder im Internet gefunden werden kann.

Die Antwort lautet: Wissen wird gefunden, indem die Bedeutung der Suchanfrage in eine lange Zahlenreihe überführt wird und das ebenso für alle zu durchsuchenden Wissensdokumente gemacht wird. Dann wird die Zahlenreihe der Suchanfrage mit allen Zahlenreihen aller Wissensdokumente verglichen. Damit das schnell geht, wurden Vektorsuchmaschinen eingeführt. Das sind Datenbanken, die Vektoren für Wissensdokumente vorberechnen und dann sehr schnell mit einem anderen Vektor (für die Suchanfrage) verglichen können.

Wie werden Vektoren verglichen?

Hierfür gibt es mehrere Möglichkeiten. Die Cosinus-Ähnlichkeit ist eine davon. Ein Vektor kann als gerichtete Linie im Raum angesehen werden. Die Ähnlichkeit zweier Vektoren bestimmt sich aus dem Abstand im Raum. Der Raum ist hier nicht dreidimensional, sondern vieldimensional. Was im wirklichen Leben nicht vorstellbar ist, kann die Mathematik leisten.

Vergleicht man die oben genannten vier Beispieltexte miteinander (jeder Text wird mit jedem Text verglichen, auch mit sich selbst), entsteht folgende Ähnlichkeitsmatrix:

                   Hallo Welt  Hallo Mutter  Hallo Mutter Natur  Hallo Hans
Hallo Welt         1.00        0.59          0.73                0.61
Hallo Mutter       0.59        1.00          0.63                0.47
Hallo Mutter Natur 0.73        0.63          1.00                0.46
Hallo Hans         0.61        0.47          0.46                1.00

Hierzu eine Anmerkung, die zeigt, dass ein neues IT-Zeitalter angebrochen ist (nur nicht in Deutschland):

Diese Matrix wurde in Python mit folgendem Befehl generiert:
print(embeddings @ embeddings.T)
Sieht kompliziert aus, ist aber nur eine Zeile Code. Damit soll ansatzweise gezeigt werden, dass KI-Projekte sehr effizient realisiert werden können. Was früher Jahre dauerte, geht jetzt in Wochen.

Der höchste Ähnlichkeitswert ist 1.0 = Gleichheit. Dieser Wert ist zu sehen für den Vergleich eines Textes mit sich selbst. Der Vergleich von „Hallo Mutter“ mit „Hallo Mutter Natur“ ergibt den Ähnlichkeitswert von 0.63. Hingegen ist die Ähnlichkeit zwischen „Hallo Welt“ und „Hallo Mutter Natur“ gleich 0.73, also höher als 0.63.

Die höhere Bedeutungsähnlichkeit zwischen „Welt“ und „Mutter Natur“ versus „Mutter“ und „Mutter Natur“ wurde erkannt. Dieses Beispiel ist nur zur Veranschaulichung gedacht. Denn es kann sein, dass jemand die Ähnlichkeit dieser Beispielpaare anders sieht. In diesem Fall gibt es die Möglichkeit, das KI-Modell zu justieren und ein Feintraining durchzuführen. So lernt das KI-Modell (bei Bedarf), dass die Ähnlichkeit zwischen „Mutter“ und „Mutter Natur“ höher ist als zwischen „Mutter“ und „Welt“.

Merkmale einer KI-Suche

Die Suche nach Wissen mit Hilfe von KI bietet zahlreiche Vorzüge.

Das Problem der Synonyme ist automatisch erledigt. Denn es werden angelernte Bedeutungen verglichen und nicht Worte, Buchstaben oder n-Gramme.

Jeder, der die KI-Suche nutzen möchte, kann auf ein ausgereiftes semantisches KI-Modell zurückgreifen. Das ist so, als wenn Sie in Ihrer Firma einen neuen Mitarbeiter einstellen, der voll ausgebildet ist.

Die Ausführungsgeschwindigkeit einer solchen Suche ist sehr hoch. Millionen von Dokumenten können so fast in Echtzeit durchsucht werden. Dies ist möglich, weil die Dokumente einmalig vektorisiert, also in Zahlen umgewandelt werden. Dieser langwierige Vorgang muss nur einmal ausgeführt werden.

Ein kurzer Test auf einem Laptop zeigt, dass der Aufruf einer Ähnlichkeitssuche über eine selbst programmierte API über das Netzwerk innerhalb eines Sekundenbruchteils erledigt war.

Die Qualität der Ergebnisse ist sehr gut. Firmen und Behörden setzen oft spezielle Vokabeln und Redewendungen ein. Diese können dem KI-Modell in Form von sehr wenigen Beispielen beigebracht werden. Es reichen wirklich sehr wenige Beispiele aus, auch wenn mehr Beispiele besser sind. Wieder mit Hilfe von KI können Ihre Beispiele synthetisch erweitert werden. So werden aus 10 Beispielen schnell 200.

Das Feintraining eines semantischen KI-Modells kann bereits auf dem Laptop stattfinden, auf dem gerade dieser Text geschrieben wird.

Die semantische Suche kann lokal auf eigenen Firmen-Servern betrieben werden, oder auch auf einem günstigen Miet-Server eines deutschen Anbieters mit deutschem Rechenzentrum und deutschem AV-Vertrag.

Anwendungsfälle

Die KI-Suche eröffnet viele Möglichkeiten. Beispielsweise:

Bessere Online-Suche für Webseiten (wird vom Autor gerade für einen Datenschutz-Verlag fertiggestellt).
Firmenwissen durchsuchen und vor allem finden!
Doubletten erkennen. Sehr spannend auch für eingescannte Dokumente, weil ein Scan potentiell Zeichen verfremdet oder manche Scans abgeschnitten sind.
Auch für Bilder möglich! Welche Bilder sind sehr ähnlich dem aktuellen Bild?
Klassifikator für Nutzereingaben oder Dokument: Handelt es sich um eine Frage nach dem Wetter oder nach Firmenwissen? Ist ein Dokument ein Bauplan oder ist es ein Fachkonzept oder eine juristische Abhandlung oder ein Vertrag?

Die Möglichkeiten sind endlos. Die KI-Suche kann mit weiteren Möglichkeiten kombiniert werden, die KI bietet. Oben erwähnt wurde die synthetische Generierung von Beispielen.

Fazit

In diesem Beitrag wurde gezeigt, wie leitungsfähig KI-Suche ist. Die Vorteile sind enorm. KI eröffnet ungeahnte Möglichkeiten.

Wissen finden statt suchen, das ist jetzt möglich. Nicht als Prototyp, sondern als ausgereifte Technologie.

Auch für weitergehende Anwendungsfälle wie die Doublettenerkennung von eingescannten oder digital vorliegenden Dokumente ist die semantische Suche ein Heilsbringer.

Kernaussagen dieses Beitrags

Eine optimierte KI hilft dabei, Informationen schneller und sicherer in Firmendokumenten zu finden, ohne dass Daten an Microsoft oder OpenAI gehen.

KI lernt, ähnliche Texte zu finden, indem sie viele Beispiele sieht und herausfindet, welche Informationen zusammengehören. Sie verwendet dabei Zahlen (Einbettungen) statt Wörtern, um die Bedeutung von Texten zu verstehen und zu vergleichen.

Die KI-Suchmaschine vergleicht Texte mithilfe von Vektoren, also Zahlenreihen, um Ähnlichkeiten zu erkennen.

Über diese Kernaussagen

KI-Beratung, KI-Lösungen

Umfassende Beratung (fachlich, rechtlich, technisch):

Leistungsangebot:

Erstberatung inkl. Machbarkeitsaussagen
Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

Ihre Anfrage

Oder Mail an ki@dr-dsgvo.de