Warum sind Suchmaschinen oft unzureichend für komplexe Fragen?

Suchmaschinen sind auf die Beantwortung direkter, einfacher Fragen ausgelegt. Sie scheitern, wenn es darum geht, Wissen zu kombinieren oder indirekte Antworten zu finden, da sie auf statischen Wissensbeständen basieren.

Wie funktioniert der Prozess, um mit KI eine komplexe Frage zu beantworten?

Ein KI-System führt eine mehrstufige Analyse durch: Es formuliert die Frage für eine Suchmaschine um, recherchiert im Internet, kombiniert das Wissen und generiert eine konsolidierte Antwort. Dabei werden relevante Wissensquellen priorisiert und durch ein Reranking optimiert.

Welche Vorteile bietet ein eigenes KI-System gegenüber externen Diensten wie ChatGPT?

Eine eigene KI-System ist oft kostengünstiger, sicherer und kann komplexere Fragen besser lösen als externe Dienste wie ChatGPT. Zudem bietet sie volle Datensicherheit und vermeidet die Weitergabe von Unternehmensdaten an Drittanbieter.

Wissen aus dem Internet mit KI finden und Fragen beantworten

Kategorien: Datenschutz und Künstliche Intelligenz

Firmenwissen befindet sich häufig in Dokumenten und kann daher leicht abgerufen werden. Doch was ist, wenn das Wissen erst noch online über eine Suchmaschine besorgt werden muss? Suchmaschinen können komplexere Fragen nicht oder nicht zuverlässig beantworten. Die Lösung ist ein mehrstufiger Prozess, der bei einem Kostenlos- oder Low-Cost-Dienst von Google, Microsoft oder OpenAI nicht angeboten wird.

Einleitung

Eine Suchmaschine sucht in einem statischen Wissensbestand nach Informationen oder Wissen. Das funktioniert für die direkte Suche sehr gut. Eine direkte Suche wäre die Eingabe eines Suchbegriffs oder auch eine Frage, die direkt und ohne Umschweife beantwortet werden kann. Eine solche (einfache) Frage könnte sein: „Was sind Cookies?“.

Suchmaschinen scheitern aber regelmäßig an Fragestellungen, die eine indirekte Beantwortung erfordern. Insbesondere scheitern Suchmaschinen, wenn es um das Kombinieren von Wissen geht. Ein Beispiel für eine solche Frage:

Wie viel Umsatz hat der 2. Weltmarktführer im Bereich KI-Grafikkarten im Jahr 2023 gemacht?
ChatGPT-4o gab eine gute Antwort mit Verweis auf AMD, beantwortete aber die Frage nach dem Umsatz nicht (Stand: 30.09.2024).

Für die Kombination von Wissen eignen sich KI-Systeme besser als herkömmliche Suchmaschinen.

Woher kommt das Wissen? Je nach Anwendung in Ihrem Unternehmen kommt das Wissen aus Firmendokumenten, aber auch aus dem Internet, aus frei verfügbaren Quellen oder bezahlten Zugängen.

Das KI-System soll nun

die Anfrage verstehen,
bei Bedarf Wissen suchen (je nach Anwendung auch im Internet),
das Wissen kombinieren und
die Antwort für die Anfrage ermitteln und ausgeben.

Dies alles geht mit einem firmeneigenen KI-System auf Basis von Open-Source KI-Modellen, wie nachfolgend dargestellt wird. Sehr zu empfehlen ist es, den Schritt „Bei Bedarf Wissen suchen“ so zu gestalten, dass immer Wissen gesucht wird, das zum Prompt (Frage an die KI) passt. Denn nur so können Halluzinationen kontrolliert und ausgeschlossen werden. Andernfalls würde nämlich das KI-Modell aus einem Gedächtnis antworten, das zahlreiche Fehlinformationen enthält.

Wissen finden und ausbeuten

Das Vorgehen ist:

Ein Nutzer stellt eine Wissensfrage.
Der KI-Wissensassistent formuliert die Frage für eine Suchmaschine um.
Der KI-Wissensassistent recherchiert im Internet nach möglichen Wissensquellen.
Der KI-Agent sortiert das gefundene Wissen (Suchergebnis) nach Relevanz.
Nur die relevantesten Wissensquellen werden vollständig abgerufen.
Der KI-Agent befragt jede Wissensquelle mit der Nutzerfrage aus Schritt 1 und findet eine Antwort oder sagt „Antwort in Wissensquelle nicht gefunden“.
Aus allen gefundenen Antworten wird von der KI eine konsolidierte Antwort gebildet.

Hier ein Beispiel für eine Wissensfrage, die ein Nutzer an die KI stellen könnte:

Frage an die KI:
Welche Ausbildung hat Klaus Meffert aus Idstein?

Diese Frage ist nicht optimal für eine Suchmaschine strukturiert. Daher wird sie vom KI-System umformuliert.

Umformulierte Frage (durch LLM):
Klaus Meffert Idstein Ausbildung
Quelle: Eigene KI mit Open-Source LLM

Diese umformulierte Frage wurde per API an eine Suchmaschine geschickt. Übrigens macht ChatGPT das auch so. ChatGPT findet als umformulierte Frage zufällig dieselbe wie oben genannt (in anderen Fällen ist es anders gewesen).

Die Suchmaschine lieferte für die Frage 50 Treffer. Hier ein Auszug der Treffer, die die Suchmaschine zurückliefert:

Ergebnis der Suchmaschine, abgespeichert in interner Datenbank.

Ein Treffer besteht aus folgenden Datenwerten:

Titel, etwa Starte jetzt deine Ausbildung bei der Meffert AG Farbwerke!
URL, etwa https://www.meffert.com/karriere/schueler/ausbildung
Textauszug, etwa Starte jetzt deine Ausbildung bei der Meffert AG Farbwerke! Deine Zukunft. in Farbe! Die Meffert AG ist ein leistungsstarker, konzernunabhängiger Hersteller von Bautenlacken und -farben mit Hauptfirmensitz in Bad Kreuznach und hat Produktions- und Vertriebsstandorte im In- und Ausland mit weltweit ca. 1500 Mitarbeiter.

Wie zu sehen ist, sind die Volltexte für die Treffer nicht bekannt. Die Suchmaschine liefert pro Treffer nur einen Textauszug zurück. Alle 50 Treffer im Detail abzurufen, wäre zeitaufwändig und zudem unnötig.

Man könnte nun der Reihenfolge der Treffer vertrauen, die die Suchmaschine zurückliefert. Vielversprechender ist aber ein sogenanntes Reranking. Beim Reranking wird mittels eines KI-Modells eine neue Reihenfolge anhand der Relevanz der Treffer ermittelt. Die Relevanz beurteilt die KI anhand der Angaben pro Treffer (s.o.) und der Ausgangsfrage („Welche Ausbildung hat Klaus Meffert aus Idstein?“).

Das Reranking ergab, dass nicht Treffer 1, sondern Treffer 2 am relevantesten sei. Ebenfalls wurden die Treffer 6 und dann 5 als nächste relevante Treffer identifiziert. Die Treffer 3 und 4 sind somit untergeordnet.

Ergebnis nach dem Reranking (Auszug). Die Webseiten-Indizes sind hier teils mehrfach vertreten, weil die KI jeweils Blöcke á 6 Treffer präsentiert bekommt und dann je eine Zahl (Index) zwischen 1 und 6 liefern soll.

Diese umsortierte Trefferliste kann jetzt weiter betrachtet werden.

Für jeden Treffer in dieser Liste wird die zugehörige Webseite (URL) abgerufen, natürlich automatisch. Das passiert auf konventionelle Weise. Hierfür ist KI nicht nötig, nicht geeignet und auch nicht fähig.

Verfeinerungen

Das beschriebene Vorgehen ist geeignet für atomare Fragen. Atomare Fragen sind Fragen, die im Kern aus genau einer (in sich geschlossenen) Frage bestehen. Das System kann erweitert werden, um Fragen zu beantworten, die in Wirklichkeit aus mehreren Teilfragen bestehen.

Ein Beispiel für eine Frage, die aus mehreren Teilfragen besteht:

Wer ist älter: Klaus Meffert aus Idstein oder Werner Heisenberg (Todesalter)?
Beispiel für eine zusammengesetzte Frage.

Es gilt nun, aus dieser zusammengesetzten Frage alle Teilfragen zu extrahieren. Hierfür kann, oh Wunder (im wahrsten Sinne des Wortes), dasselbe Sprachmodell verwendet werden. In der Praxis wird man ein feintrainiertes Modell verwenden, um die Qualität zu steigern.

Die Antwort des LLM lautet:

1. Wie alt ist Klaus Meffert aus Idstein?
2. Wie alt wurde Werner Heisenberg?
Vom LLM extrahierte Teilfragen aus der zusammengesetzten Frage.

Diese beiden atomaren Fragen können jeweils, eine nach der anderen, in das obige KI-System gegeben werden, welches das nötige Wissen im Internet recherchiert und die Antwort auf die jeweilige Frage extrahiert.

Ein Schlussfolgerungs-System wird dann gebeten, die Antworten auf die Teilfragen in die Gesamtfrage einzusetzen. Die derart aktualisierte Frage wird somit um Wissen angereichert. Die Passage lautet dann:

Klaus Meffert aus Idstein ist 50 Jahre alt.
Werner Heisenberg wurde 74 Jahre alt.
Wer ist älter: Klaus Meffert aus Idstein oder Werner Heisenberg (Todesalter)?
Ursprungsfrage, die um Wissen aus dem Internet angereichert wurde.

Diese Frage kann unsere KI dann leicht beantworten:

Werner Heisenberg war älter. Er starb mit 74 Jahren, während Klaus Meffert 50 Jahre alt ist.
KI-generierte perfekte Antwort, bezogen auf den gegebenen Kontext.

Die Antwort ist super. Sie zu formulieren, war nach der Wissenssuche und dem Einsetzen der Fakten die leichteste Übung. Wenn ein Sprachmodell konkrete Fakten präsentiert bekommt, die eine Frage erschöpfend beantworten helfen, sind Halluzinationen eliminierbar.

Übrigens scheitert ChatGPT an dieser Frage, wie folgender Dialog beweist:

Frage an ChatGPT und dessen Antwort (Free-Account, Stand: 27.09.2024)

Der Grund ist wahrscheinlich, dass ChatGPT nur eine Online-Suche pro Prompt ausführt. Hier wären aber zwei Suchanfragen nötig gewesen. Warum die Antwort nicht richtig ist, interessiert den Nutzer allerdings wenig.

Ein kleineres KI-Sprachmodell benötigt eine Optimierung, um „etwas einfachere“ Fragen genauso gut wie ChatGPT beantworten zu können. Komplexere Fragen kann das kleinere Modell dann aber (wesentlich) besser als ChatGPT beantworten!

Auch für komplexere Frage eignet sich das beschriebene Vorgehen mit einer eigenen KI. Es gibt Fragen, die mehr als zwei Teilfragen enthalten. Bestimmte Teilfragen erfordern einen Taschenrechner statt eines KI-Sprachmodells. Auch LLMs können rechnen, aber nicht sehr gut. Anderes Beispiel: Manche Fragen erfordern die Kenntnis des aktuellen Datums. Auch das kann eine KI nicht per se wissen. Hier muss ein Hilfsmechanismus einspringen; er muss einmal vorgedacht werden und funktioniert zuverlässig.

Fazit

Ein Wissensassistent mit Internet-Zugang kann perfekt mit Firmenwissen kombiniert werden. Für Firmenwissen können nämlich potentiell sehr zuverlässige Antworten vom eigenen Chatbot gegeben werden. Dieser zuverlässige Chatbot wurde hier bereits beschrieben.

Bei etwas anspruchsvolleren Fragestellungen zeigt sich, dass ChatGPT dafür ungeeignet ist.

Die Kosten, die bei OpenAI entstehen würden, wären schlicht zu hoch, um Ihnen für einen „Appel und ein Ei“ diesen Gefallen zu tun (dafür, dass Sie Ihre Daten abliefern).

Wie man sich leicht vorstellen kann, erfordert eine komplexere Denkarbeit mehrere Aufrufe des KI-Sprachmodells. Würde jeder Aufruf Geld kosten, so wie bei der ChatGPT API, dann wären die Kosten unkalkulierbar und oft auch zu hoch.

Ein eigenes KI-System („Offline-KI“) kann viele Anwendungsfälle nicht nur besser lösen als ChatGPT, sondern ist auch günstiger und bietet volle Datensicherheit. Wissen, das nicht offline verfügbar ist, etwa in Ihren Firmendokumenten, kann bei Bedarf im Internet abgerufen werden. Die Offline-KI kann also online gehen, aber nur, wenn Sie das so wollen. Solch ein KI-System ist des Datenschutzbeauftragten bester Freund. Und auch die beste Freundin jedes Firmenlenkers, der seine Geschäftsgeheimnisse lieber bei sich behält als sie an OpenAI, Microsoft, Google und amerikanische Sicherheitsbehörden frei Haus auszuliefern.

Mit einem solchen KI-Assistenten für Wissen können sogar hochkomplexe Fragestellungen beantwortet werden. So gelang es Dr. DSGVO, ein 18 Jahre altes Rätsel mit Hilfe eigener KI zu lösen. Im Kern dient KI als sehr guter Unterstützer, sowohl bei der Lösungsfindung als auch (wenn für den Anwendungsfall sinnvoll) beim Umformulieren des Problems. Dieses Umformulieren fand oben ja auch statt: Die Frage eines Nutzers wurde in eine Form umgewandelt, die Suchmaschinen besser verstehen können.

Ganzen Artikel jetzt über kostenfreien Dr. DSGVO Newsletter lesen.

Weitere Extras für Abonnenten:
Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks

Schon Abonnent? Link im Newsletter anklicken & diese Seite auffrischen.

↓

Newsletter abonnieren

KI-Beratung, KI-Lösungen

Umfassende Beratung (fachlich, rechtlich, technisch):

Leistungsangebot:

Erstberatung inkl. Machbarkeitsaussagen
Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

Ihre Anfrage

Oder Mail an ki@dr-dsgvo.de

Kommentare von Lesern

Die Kommentare drücken die Meinungen der jeweiligen Kommentargeber aus

Andreas Steinbach

Hallo Herr Meffert,
seit über einem Jahr habe ich Ihren Newsletter abonniert und freue mich jedes Mal, wenn er in meiner Inbox landet. Die Art und Weise wie Sie schreiben, wie Sie fachkundig komplexe Themen auch für Laien aufbereiten und dann hier und da noch einen Witz machen, ist einfach große Klasse.
Ich kann nur sagen: "weiter so"!
Beste Grüße,
Andreas Steinbach

Antworten
- Dr. DSGVO
  
  Vielen Dank für Ihre freundliche Rückmeldung 🙂
  
  Antworten

Website-Analyse in Echtzeit

Wissen aus dem Internet mit KI finden und Fragen beantworten

Einleitung

Wissen finden und ausbeuten

Verfeinerungen

Fazit

KI-Beratung, KI-Lösungen

Leistungsangebot:

Kommentare von Lesern

Schreiben Sie einen Kommentar Antwort abbrechen

Wissen in Firmendokumenten finden: Semantische KI-Suche

Beratung für Unternehmen & Organisationen

KI-Schulung:
Webseiten & Apps
bauen ohne Kenntnisse

Website-Analyse in Echtzeit

Wissen aus dem Internet mit KI finden und Fragen beantworten

Einleitung

Wissen finden und ausbeuten

Verfeinerungen

Fazit

KI-Beratung, KI-Lösungen

Leistungsangebot:

Kommentare von Lesern

Schreiben Sie einen Kommentar Antwort abbrechen

Wissen in Firmendokumenten finden: Semantische KI-Suche

Beratung für Unternehmen & Organisationen

KI-Schulung: Webseiten & Apps bauen ohne Kenntnisse

KI-Schulung:
Webseiten & Apps
bauen ohne Kenntnisse