Firmenwissen befindet sich häufig in Dokumenten und kann daher leicht abgerufen werden. Doch was ist, wenn das Wissen erst noch online über eine Suchmaschine besorgt werden muss? Suchmaschinen können komplexere Fragen nicht oder nicht zuverlässig beantworten. Die Lösung ist ein mehrstufiger Prozess, der bei einem Kostenlos- oder Low-Cost-Dienst von Google, Microsoft oder OpenAI nicht angeboten wird.
Einleitung
Eine Suchmaschine sucht in einem statischen Wissensbestand nach Informationen oder Wissen. Das funktioniert für die direkte Suche sehr gut. Eine direkte Suche wäre die Eingabe eines Suchbegriffs oder auch eine Frage, die direkt und ohne Umschweife beantwortet werden kann. Eine solche (einfache) Frage könnte sein: „Was sind Cookies?“.
Suchmaschinen scheitern aber regelmäßig an Fragestellungen, die eine indirekte Beantwortung erfordern. Insbesondere scheitern Suchmaschinen, wenn es um das Kombinieren von Wissen geht. Ein Beispiel für eine solche Frage:
Wie viel Umsatz hat der 2. Weltmarktführer im Bereich KI-Grafikkarten im Jahr 2023 gemacht?
ChatGPT-4o gab eine gute Antwort mit Verweis auf AMD, beantwortete aber die Frage nach dem Umsatz nicht (Stand: 30.09.2024).
Für die Kombination von Wissen eignen sich KI-Systeme besser als herkömmliche Suchmaschinen.
Woher kommt das Wissen? Je nach Anwendung in Ihrem Unternehmen kommt das Wissen aus Firmendokumenten, aber auch aus dem Internet, aus frei verfügbaren Quellen oder bezahlten Zugängen.
Das KI-System soll nun
- die Anfrage verstehen,
- bei Bedarf Wissen suchen (je nach Anwendung auch im Internet),
- das Wissen kombinieren und
- die Antwort für die Anfrage ermitteln und ausgeben.
Dies alles geht mit einem firmeneigenen KI-System auf Basis von Open-Source KI-Modellen, wie nachfolgend dargestellt wird. Sehr zu empfehlen ist es, den Schritt „Bei Bedarf Wissen suchen“ so zu gestalten, dass immer Wissen gesucht wird, das zum Prompt (Frage an die KI) passt. Denn nur so können Halluzinationen kontrolliert und ausgeschlossen werden. Andernfalls würde nämlich das KI-Modell aus einem Gedächtnis antworten, das zahlreiche Fehlinformationen enthält.
Wissen finden und ausbeuten
Das Vorgehen ist:
- Ein Nutzer stellt eine Wissensfrage.
- Der KI-Wissensassistent formuliert die Frage für eine Suchmaschine um.
- Der KI-Wissensassistent recherchiert im Internet nach möglichen Wissensquellen.
- Der KI-Agent sortiert das gefundene Wissen (Suchergebnis) nach Relevanz.
- Nur die relevantesten Wissensquellen werden vollständig abgerufen.
- Der KI-Agent befragt jede Wissensquelle mit der Nutzerfrage aus Schritt 1 und findet eine Antwort oder sagt „Antwort in Wissensquelle nicht gefunden“.
- Aus allen gefundenen Antworten wird von der KI eine konsolidierte Antwort gebildet.
Hier ein Beispiel für eine Wissensfrage, die ein Nutzer an die KI stellen könnte:
Frage an die KI:
Welche Ausbildung hat Klaus Meffert aus Idstein?
Diese Frage ist nicht optimal für eine Suchmaschine strukturiert. Daher wird sie vom KI-System umformuliert.
Umformulierte Frage (durch LLM):
Quelle: Eigene KI mit Open-Source LLM
Klaus Meffert Idstein Ausbildung
Diese umformulierte Frage wurde per API an eine Suchmaschine geschickt. Übrigens macht ChatGPT das auch so. ChatGPT findet als umformulierte Frage zufällig dieselbe wie oben genannt (in anderen Fällen ist es anders gewesen).
Die Suchmaschine lieferte für die Frage 50 Treffer. Hier ein Auszug der Treffer, die die Suchmaschine zurückliefert:

Ein Treffer besteht aus folgenden Datenwerten:
- Titel, etwa Starte jetzt deine Ausbildung bei der Meffert AG Farbwerke!
- URL, etwa https://www.meffert.com/karriere/schueler/ausbildung
- Textauszug, etwa Starte jetzt deine Ausbildung bei der Meffert AG Farbwerke! Deine Zukunft. in Farbe! Die Meffert AG ist ein leistungsstarker, konzernunabhängiger Hersteller von Bautenlacken und -farben mit Hauptfirmensitz in Bad Kreuznach und hat Produktions- und Vertriebsstandorte im In- und Ausland mit weltweit ca. 1500 Mitarbeiter.
Wie zu sehen ist, sind die Volltexte für die Treffer nicht bekannt. Die Suchmaschine liefert pro Treffer nur einen Textauszug zurück. Alle 50 Treffer im Detail abzurufen, wäre zeitaufwändig und zudem unnötig.
Man könnte nun der Reihenfolge der Treffer vertrauen, die die Suchmaschine zurückliefert. Vielversprechender ist aber ein sogenanntes Reranking. Beim Reranking wird mittels eines KI-Modells eine neue Reihenfolge anhand der Relevanz der Treffer ermittelt. Die Relevanz beurteilt die KI anhand der Angaben pro Treffer (s.o.) und der Ausgangsfrage („Welche Ausbildung hat Klaus Meffert aus Idstein?“).
Das Reranking ergab, dass nicht Treffer 1, sondern Treffer 2 am relevantesten sei. Ebenfalls wurden die Treffer 6 und dann 5 als nächste relevante Treffer identifiziert. Die Treffer 3 und 4 sind somit untergeordnet.

Diese umsortierte Trefferliste kann jetzt weiter betrachtet werden.
Für jeden Treffer in dieser Liste wird die zugehörige Webseite (URL) abgerufen, natürlich automatisch. Das passiert auf konventionelle Weise. Hierfür ist KI nicht nötig, nicht geeignet und auch nicht fähig.
Verfeinerungen
Das beschriebene Vorgehen ist geeignet für atomare Fragen. Atomare Fragen sind Fragen, die im Kern aus genau einer (in sich geschlossenen) Frage bestehen. Das System kann erweitert werden, um Fragen zu beantworten, die in Wirklichkeit aus mehreren Teilfragen bestehen.
Ein Beispiel für eine Frage, die aus mehreren Teilfragen besteht:
Wer ist älter: Klaus Meffert aus Idstein oder Werner Heisenberg (Todesalter)?
Beispiel für eine zusammengesetzte Frage.
Es gilt nun, aus dieser zusammengesetzten Frage alle Teilfragen zu extrahieren. Hierfür kann, oh Wunder (im wahrsten Sinne des Wortes), dasselbe Sprachmodell verwendet werden. In der Praxis wird man ein feintrainiertes Modell verwenden, um die Qualität zu steigern.
Die Antwort des LLM lautet:
1. Wie alt ist Klaus Meffert aus Idstein?
Vom LLM extrahierte Teilfragen aus der zusammengesetzten Frage.
2. Wie alt wurde Werner Heisenberg?
Diese beiden atomaren Fragen können jeweils, eine nach der anderen, in das obige KI-System gegeben werden, welches das nötige Wissen im Internet recherchiert und die Antwort auf die jeweilige Frage extrahiert.
Ein Schlussfolgerungs-System wird dann gebeten, die Antworten auf die Teilfragen in die Gesamtfrage einzusetzen. Die derart aktualisierte Frage wird somit um Wissen angereichert. Die Passage lautet dann:
Klaus Meffert aus Idstein ist 50 Jahre alt.
Ursprungsfrage, die um Wissen aus dem Internet angereichert wurde.
Werner Heisenberg wurde 74 Jahre alt.
Wer ist älter: Klaus Meffert aus Idstein oder Werner Heisenberg (Todesalter)?
Diese Frage kann unsere KI dann leicht beantworten:
Werner Heisenberg war älter. Er starb mit 74 Jahren, während Klaus Meffert 50 Jahre alt ist.
KI-generierte perfekte Antwort, bezogen auf den gegebenen Kontext.
Die Antwort ist super. Sie zu formulieren, war nach der Wissenssuche und dem Einsetzen der Fakten die leichteste Übung. Wenn ein Sprachmodell konkrete Fakten präsentiert bekommt, die eine Frage erschöpfend beantworten helfen, sind Halluzinationen eliminierbar.
Übrigens scheitert ChatGPT an dieser Frage, wie folgender Dialog beweist:

Der Grund ist wahrscheinlich, dass ChatGPT nur eine Online-Suche pro Prompt ausführt. Hier wären aber zwei Suchanfragen nötig gewesen. Warum die Antwort nicht richtig ist, interessiert den Nutzer allerdings wenig.
Ein kleineres KI-Sprachmodell benötigt eine Optimierung, um „etwas einfachere“ Fragen genauso gut wie ChatGPT beantworten zu können. Komplexere Fragen kann das kleinere Modell dann aber (wesentlich) besser als ChatGPT beantworten!
Auch für komplexere Frage eignet sich das beschriebene Vorgehen mit einer eigenen KI. Es gibt Fragen, die mehr als zwei Teilfragen enthalten. Bestimmte Teilfragen erfordern einen Taschenrechner statt eines KI-Sprachmodells. Auch LLMs können rechnen, aber nicht sehr gut. Anderes Beispiel: Manche Fragen erfordern die Kenntnis des aktuellen Datums. Auch das kann eine KI nicht per se wissen. Hier muss ein Hilfsmechanismus einspringen; er muss einmal vorgedacht werden und funktioniert zuverlässig.
Fazit
Ein Wissensassistent mit Internet-Zugang kann perfekt mit Firmenwissen kombiniert werden. Für Firmenwissen können nämlich potentiell sehr zuverlässige Antworten vom eigenen Chatbot gegeben werden. Dieser zuverlässige Chatbot wurde hier bereits beschrieben.
Bei etwas anspruchsvolleren Fragestellungen zeigt sich, dass ChatGPT dafür ungeeignet ist.
Die Kosten, die bei OpenAI entstehen würden, wären schlicht zu hoch, um Ihnen für einen „Appel und ein Ei“ diesen Gefallen zu tun (dafür, dass Sie Ihre Daten abliefern).
Wie man sich leicht vorstellen kann, erfordert eine komplexere Denkarbeit mehrere Aufrufe des KI-Sprachmodells. Würde jeder Aufruf Geld kosten, so wie bei der ChatGPT API, dann wären die Kosten unkalkulierbar und oft auch zu hoch.
Ein eigenes KI-System („Offline-KI“) kann viele Anwendungsfälle nicht nur besser lösen als ChatGPT, sondern ist auch günstiger und bietet volle Datensicherheit. Wissen, das nicht offline verfügbar ist, etwa in Ihren Firmendokumenten, kann bei Bedarf im Internet abgerufen werden. Die Offline-KI kann also online gehen, aber nur, wenn Sie das so wollen. Solch ein KI-System ist des Datenschutzbeauftragten bester Freund. Und auch die beste Freundin jedes Firmenlenkers, der seine Geschäftsgeheimnisse lieber bei sich behält als sie an OpenAI, Microsoft, Google und amerikanische Sicherheitsbehörden frei Haus auszuliefern.
Mit einem solchen KI-Assistenten für Wissen können sogar hochkomplexe Fragestellungen beantwortet werden. So gelang es dem Autor, ein 18 Jahre altes Rätsel mit Hilfe eigener KI zu lösen. Im Kern dient KI als sehr guter Unterstützer, sowohl bei der Lösungsfindung als auch (wenn für den Anwendungsfall sinnvoll) beim Umformulieren des Problems. Dieses Umformulieren fand oben ja auch statt: Die Frage eines Nutzers wurde in eine Form umgewandelt, die Suchmaschinen besser verstehen können.
Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks
KI-Beratung, KI-Lösungen
Leistungsangebot:
- Erstberatung inkl. Machbarkeitsaussagen
- Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
- KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

gekennzeichnet.

Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die 
Hallo Herr Meffert,
seit über einem Jahr habe ich Ihren Newsletter abonniert und freue mich jedes Mal, wenn er in meiner Inbox landet. Die Art und Weise wie Sie schreiben, wie Sie fachkundig komplexe Themen auch für Laien aufbereiten und dann hier und da noch einen Witz machen, ist einfach große Klasse.
Ich kann nur sagen: "weiter so"!
Beste Grüße,
Andreas Steinbach
Vielen Dank für Ihre freundliche Rückmeldung 🙂