Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen
Externe Links sind mit dem Symbol Externer Link Symbol gekennzeichnet. Datenschutzinfo

Wissen in Firmendokumenten finden: Semantische KI-Suche

0
Dr. DSGVO Newsletter erkannt: Erweiterte Funktionen verfügbar
Artikel als PDF · Mehr Inhalte & kompakte Kernaussagen · Webseiten-Checks · Offline-KI Live
Standardansicht: Dr. DSGVO Newsletter nicht erkannt. Erweiterte Funktionen nur für Abonnenten:
Artikel als PDF · Mehr Inhalte & kompakte Kernaussagen · Webseiten-Checks · Offline-KI Live
📄 Artikel als PDF (nur für Newsletter-Abonnenten)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Dank KI kann viel besser nach Informationen und Wissen gesucht werden als bisher. Finden statt Suchen, ist nun die Lösung, die zudem höchste Datensicherheit bietet. Anstatt simpler Vergleiche wird die Bedeutung von Suchbegriffen und von Firmendokumenten herangezogen. Das geht nicht nur sehr gut, sondern auch sehr schnell.

Einleitung

Eine intelligente Suchmaschine für Firmendokumente, mit KI und voller Datenkontrolle. Microsoft und OpenAI bekommen Ihre Daten nicht.

Suchmaschinen beherrschen seit längerem die unscharfe Suche nach Text. Die Suche basiert dabei immer auf folgendem Grundmechanismus:

  1. Eine Anzahl gegebener Dokumente (Texte) wird eingelesen. Daraus wird ein sogenannter Suchindex gebildet. Der Suchindex ist eine Datenbank und hat nichts mit einem „Index“ im Sinne eines Verbots zu tun.
  2. Ein Nutzer gibt einen Suchbegriff oder mehrere ein.
  3. Die Suchmaschine vergleicht nun jedes Dokument im Suchindex mit dem Suchbegriff.
  4. Die Dokumente, die beim Vergleich am besten abgeschnitten haben, werden zuerst als Treffer ausgegeben.

Oft vertippen sich Nutzer bei der Eingabe von Suchbegriffen. Viele Suchanfragen verwenden zudem andere Begriffe als sie in den Dokumenten im Suchindex vorkommen (Synonyme).

Manchmal gibt ein Nutzer auch eine kurze Frage oder eine Aussage ein, die als Frage gemeint ist. Beispiele: „Was höchster Berg“ oder „höchster berg“. Zu erahnen ist hier bereits, dass oft die Groß-/Kleinschreibung nicht passt.

Höchste Datensicherheit mit einem optimierten KI-System.

Das freut Sie und Ihren DSB, aber nicht Microsoft und amerikanische Geheimdienst.

Diesen Herausforderungen begegnen Suchmaschinen seit längerem mit ausgeklügelten Mechanismen. Insbesondere die Suche nach n-Grammen ist erfolgreich. Ein n-Gramm ist ein Wortbestandteil der Länge n. Die Variable n kann hier beliebige Werte annehmen und beginnt sinnvollerweise bei 2.

Damit können nicht nur Rechtschreibfehler, sondern auch Wortvarianten mit leicht anderer Schreibweise ausgeglichen werden. Ein Synonym-Wörterbuch sorgt für das korrekte Erkennen von Begriffen mit gleicher Bedeutung.

Fragen, die der Nutzer stellt, können meistens einfach zusammengestrichen werden. Die Eingabe „Was ist der höchste Berg“ kann so zu „höchste Berg“ umgewandelt werden. Hierfür wird dann die Antwort gefunden.

Allerdings scheitern solche Verfahren, so ausgeklügelt sie auch sein mögen, an Suchen nach Wissen.

Hier ein Beispiel:

Vier Texte, die unterschiedlich ähnlich sind:

1) Hallo Welt

2) Hallo Mutter

3) Hallo Mutter Natur

4) Hallo Sophie

Idealerweise liefert ein Ähnlichkeitsvergleich dieser vier Texte folgende Paare als am ähnlichsten:

  1. Paar mit ähnlicher Bedeutung: Hallo Welt und Hallo Mutter Natur
  2. Paar mit ähnlicher Bedeutung: Hallo Mutter und Hallo Sophie

Diese Paar-Ähnlichkeit ist hier als Goldstandard definiert. Weiter unten wird beschrieben, wie ein anderer Standard definiert werden kann.

Ein zeichen- oder wortweiser Vergleich hätte „Hallo Mutter“ und „Hallo Mutter Natur“ als am ähnlichsten erkannt. Aus semantischer Sicht ist das gemäß des definierten Standards falsch (der Standard kann von jeder KI-Betreiberin sebst definiert werden). Richtig ist, dass „Welt“ und „Mutter Natur“ eine viel ähnlichere Bedeutung haben als „Mutter“ und „Mutter Natur“.

Semantische Suche mit KI

Genau hier setzt die sogenannte semantische Suche an, die seit Entdeckung des Transformers im Jahr 2017 und dem Aufkommen leistungsfähiger Hardware möglich ist.

Das Prinzip der semantischen Suche ist völlig anders als das bisheriger Suchmaschinen. Um Texte zu einer Suchanfrage zu finden, wird kein Vergleich von Zeichen durchgeführt, sondern ein Vergleich von Bedeutung!

Doch wie geht das? Wie kann Bedeutung verglichen werden? Das konnte doch nur der Mensch. Richtig, aber spätestens seit dem Jahr 2017 ist die Intelligenzfunktion des Menschen entschlüsselt (siehe Definition von Intelligenz und Künstlicher Intelligenz). Viele sehen es anders, können aber nicht begründen, warum das so sein soll. Siehe hierzu auch die häufigen Missverständnisse zu KI.

Die Frage, wie Bedeutung verglichen werden kann, kann auf folgende Frage reduziert werden:

Wie kann die Bedeutung einer gegebenen Information (Text) in Zahlen ausgedrückt werden?

Das ist schon mal einfacher als die Ursprungsfrage, aber immer noch keine konkrete Lösung.

Die konkrete Lösung lautet: Eine KI lernt, welche Informationen (Texte) sehr ähnlich, etwas ähnlich oder wenig bis gar nicht ähnlich sind. Das passiert – Überraschung – genau wie beim Menschen, nämlich durch Erziehung. Erziehung basiert auf vorbildlichem Handeln, auf Information und auf Korrektur.

Auf KI bezogen heißt das, es werden Beispiele vorgegeben. Diese Beispiele enthalten sowohl Fälle von Informationen, die sehr ähnlich sind als auch Fälle, die weniger oder gar nicht ähnlich sind. Zu jedem Fall ist angegeben, wie groß oder gering die Ähnlichkeit ist. Diese Angabe kann rein qualitativ erfolgen, wie beim Elternteil, das sein Kind erzieht: „Das war sehr gut!“, oder „Nein, dafür wirst Du bestraft!“.

Dieser Belohnungs- und Bestrafungsmechanismus (bei der Erziehung von Kindern durch ihre Eltern) ist auch beim KI-Training wiederzufinden. Das KI-Modell entsteht, indem eine sogenannte Verlustfunktion (Loss Function) verwendet wird. Der Verlust ist der Teil, der zur Perfektion fehlt.

Aus Informationen werden Zahlen

Nach einigen Millionen oder Milliarden Beispielen, die im Internet zu finden sind, entsteht ein KI-Modell für die semantische Suche. Dieses Modell erzeugt sogenannte Einbettungen für Informationen. Eine Einbettung ist eine Reihe von Zahlen.

Hier ein Beispiel für die Zahlen, die das KI-Modell aus der Eingabe „Hallo Mutter Natur“ macht:

[0.05151367 -0.03955078 0.08984375 … 0.02124023 -0.03076172 0.0100708],
…
[0.06396484 -0.04321289 0.09472656 … 0.02441406 -0.028442380.01434326]

Die eckigen Klammern deuten hier auf Gruppen von Zahlen hin. Jede Gruppe besteht aus mehreren Zahlen. Das wird auch als Vektor bezeichnet. Die drei Punkte zwischen den Zahlen deuten an, dass hier einige Zahlen und Gruppen ausgelassen wurden, weil es zu viele sind. Insgesamt besteht ein Vektor also aus sehr vielen Gruppen und Zahlen.

Warum gibt es mehrere Gruppen von Zahlen und nicht nur eine? Ganz einfach: Weil es sinnvoll ist. Ein Satz kann ja auch aus mehreren Worten bestehen und nicht nur aus einem Wort. Die semantische Suche soll ja Worte und deren Bedeutungen vergleichen.

In einer Gruppe gibt es mehrere Zahlen, weil damit mehr Informationen abgebildet werden können. Bildlich gesprochen, kann man sich das so vorstellen: Würde man nur eine Zahl für das Wort „Mutter“ verwenden, könnten man die kontextabhängige Bedeutung des Wortes „Mutter“ in der Phrase „Mutter Natur“ nicht gut abbilden.

Zurück zur Frage, wie Wissen in Firmendokumenten oder im Internet gefunden werden kann.

Die Antwort lautet: Wissen wird gefunden, indem die Bedeutung der Suchanfrage in eine lange Zahlenreihe überführt wird und das ebenso für alle zu durchsuchenden Wissensdokumente gemacht wird. Dann wird die Zahlenreihe der Suchanfrage mit allen Zahlenreihen aller Wissensdokumente verglichen. Damit das schnell geht, wurden Vektorsuchmaschinen eingeführt. Das sind Datenbanken, die Vektoren für Wissensdokumente vorberechnen und dann sehr schnell mit einem anderen Vektor (für die Suchanfrage) verglichen können.

Wie werden Vektoren verglichen?

Hierfür gibt es mehrere Möglichkeiten. Die Cosinus-Ähnlichkeit ist eine davon. Ein Vektor kann als gerichtete Linie im Raum angesehen werden. Die Ähnlichkeit zweier Vektoren bestimmt sich aus dem Abstand im Raum. Der Raum ist hier nicht dreidimensional, sondern vieldimensional. Was im wirklichen Leben nicht vorstellbar ist, kann die Mathematik leisten.

Vergleicht man die oben genannten vier Beispieltexte miteinander (jeder Text wird mit jedem Text verglichen, auch mit sich selbst), entsteht folgende Ähnlichkeitsmatrix:

                   Hallo Welt  Hallo Mutter  Hallo Mutter Natur  Hallo Hans
Hallo Welt 1.00 0.59 0.73 0.61
Hallo Mutter 0.59 1.00 0.63 0.47
Hallo Mutter Natur 0.73 0.63 1.00 0.46
Hallo Hans 0.61 0.47 0.46 1.00

Hierzu eine Anmerkung, die zeigt, dass ein neues IT-Zeitalter angebrochen ist (nur nicht in Deutschland):

Diese Matrix wurde in Python mit folgendem Befehl generiert:

print(embeddings @ embeddings.T)

Sieht kompliziert aus, ist aber nur eine Zeile Code. Damit soll ansatzweise gezeigt werden, dass KI-Projekte sehr effizient realisiert werden können. Was früher Jahre dauerte, geht jetzt in Wochen.

Der höchste Ähnlichkeitswert ist 1.0 = Gleichheit. Dieser Wert ist zu sehen für den Vergleich eines Textes mit sich selbst. Der Vergleich von „Hallo Mutter“ mit „Hallo Mutter Natur“ ergibt den Ähnlichkeitswert von 0.63. Hingegen ist die Ähnlichkeit zwischen „Hallo Welt“ und „Hallo Mutter Natur“ gleich 0.73, also höher als 0.63.

Die höhere Bedeutungsähnlichkeit zwischen „Welt“ und „Mutter Natur“ versus „Mutter“ und „Mutter Natur“ wurde erkannt. Dieses Beispiel ist nur zur Veranschaulichung gedacht. Denn es kann sein, dass jemand die Ähnlichkeit dieser Beispielpaare anders sieht. In diesem Fall gibt es die Möglichkeit, das KI-Modell zu justieren und ein Feintraining durchzuführen. So lernt das KI-Modell (bei Bedarf), dass die Ähnlichkeit zwischen „Mutter“ und „Mutter Natur“ höher ist als zwischen „Mutter“ und „Welt“.

Merkmale einer KI-Suche

Die Suche nach Wissen mit Hilfe von KI bietet zahlreiche Vorzüge.

Das Problem der Synonyme ist automatisch erledigt. Denn es werden angelernte Bedeutungen verglichen und nicht Worte, Buchstaben oder n-Gramme.

Jeder, der die KI-Suche nutzen möchte, kann auf ein ausgereiftes semantisches KI-Modell zurückgreifen. Das ist so, als wenn Sie in Ihrer Firma einen neuen Mitarbeiter einstellen, der voll ausgebildet ist.

Die Ausführungsgeschwindigkeit einer solchen Suche ist sehr hoch. Millionen von Dokumenten können so fast in Echtzeit durchsucht werden. Dies ist möglich, weil die Dokumente einmalig vektorisiert, also in Zahlen umgewandelt werden. Dieser langwierige Vorgang muss nur einmal ausgeführt werden.

Ein kurzer Test auf einem Laptop zeigt, dass der Aufruf einer Ähnlichkeitssuche über eine selbst programmierte API über das Netzwerk innerhalb eines Sekundenbruchteils erledigt war.

Die Qualität der Ergebnisse ist sehr gut. Firmen und Behörden setzen oft spezielle Vokabeln und Redewendungen ein. Diese können dem KI-Modell in Form von sehr wenigen Beispielen beigebracht werden. Es reichen wirklich sehr wenige Beispiele aus, auch wenn mehr Beispiele besser sind. Wieder mit Hilfe von KI können Ihre Beispiele synthetisch erweitert werden. So werden aus 10 Beispielen schnell 200.

Ganzen Artikel jetzt über kostenfreien Dr. DSGVO Newsletter lesen.
Weitere Extras für Abonnenten:
Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks
Schon Abonnent? Link im Newsletter anklicken & diese Seite auffrischen.
Newsletter abonnieren

KI-Beratung, KI-Lösungen

Umfassende Beratung (fachlich, rechtlich, technisch):

Leistungsangebot:

  • Erstberatung inkl. Machbarkeitsaussagen
  • Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
  • KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

Ihre Anfrage

Oder Mail an ki@dr-dsgvo.de

Wer schreibt hier?
Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die IT Logic GmbH, berät Kunden und bietet Webseiten-Checks sowie optimierte & sichere KI-Lösungen an.
Bitte nutzen Sie bei Verwendung meiner Ergebnisse die Quellenangabe oder verlinken Sie gut wahrnehmbar auf diesen Artikel:
Quelle: Klaus Meffert, Dr. DSGVO Blog, Link: https://dr-dsgvo.de/semantische-suche
Einen Kurzlink oder eine Bestätigung für Ihre Quellenangabe erhalten Sie kurzfristig auf Anfrage. Ein Teilen oder Verteilen dieses Beitrags ist natürlich ohne weiteres möglich und gewünscht.

Schreiben Sie einen Kommentar

Ihre Mail-Adresse wird nicht veröffentlicht.

Mit KI gelöst: 18 Jahre altes mathematisches Rätsel entschlüsselt