Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen
Externe Links sind mit dem Symbol Externer Link Symbol gekennzeichnet. Datenschutzinfo

Wissen aus dem Internet mit KI anzapfen und Fragen beantworten

2
Dr. DSGVO Newsletter erkannt: Erweiterte Funktionen verfügbar
Artikel als PDF · Mehr Inhalte & kompakte Kernaussagen · Webseiten-Checks · Offline-KI Live
Standardansicht: Dr. DSGVO Newsletter nicht erkannt. Erweiterte Funktionen nur für Abonnenten:
Artikel als PDF · Mehr Inhalte & kompakte Kernaussagen · Webseiten-Checks · Offline-KI Live
📄 Artikel als PDF (nur für Newsletter-Abonnenten)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Firmenwissen befindet sich häufig in Dokumenten und kann daher leicht abgerufen werden. Doch was ist, wenn das Wissen erst noch online über eine Suchmaschine besorgt werden muss? Suchmaschinen können komplexere Fragen nicht oder nicht zuverlässig beantworten. Die Lösung ist ein mehrstufiger Prozess, der bei einem Kostenlos- oder Low-Cost-Dienst von Google, Microsoft oder OpenAI nicht angeboten wird.

Einleitung

Eine Suchmaschine sucht in einem statischen Wissensbestand nach Informationen oder Wissen. Das funktioniert für die direkte Suche sehr gut. Eine direkte Suche wäre die Eingabe eines Suchbegriffs oder auch eine Frage, die direkt und ohne Umschweife beantwortet werden kann. Eine solche (einfache) Frage könnte sein: „Was sind Cookies?“.

Suchmaschinen scheitern aber regelmäßig an Fragestellungen, die eine indirekte Beantwortung erfordern. Insbesondere scheitern Suchmaschinen, wenn es um das Kombinieren von Wissen geht. Ein Beispiel für eine solche Frage:

Wie viel Umsatz hat der 2. Weltmarktführer im Bereich KI-Grafikkarten im Jahr 2023 gemacht?

ChatGPT-4o gab eine gute Antwort mit Verweis auf AMD, beantwortete aber die Frage nach dem Umsatz nicht (Stand: 30.09.2024).

Für die Kombination von Wissen eignen sich KI-Systeme besser als herkömmliche Suchmaschinen.

Woher kommt das Wissen? Je nach Anwendung in Ihrem Unternehmen kommt das Wissen aus Firmendokumenten, aber auch aus dem Internet, aus frei verfügbaren Quellen oder bezahlten Zugängen.

Das KI-System soll nun

  • die Anfrage verstehen,
  • bei Bedarf Wissen suchen (je nach Anwendung auch im Internet),
  • das Wissen kombinieren und
  • die Antwort für die Anfrage ermitteln und ausgeben.

Dies alles geht mit einem firmeneigenen KI-System auf Basis von Open-Source KI-Modellen, wie nachfolgend dargestellt wird. Sehr zu empfehlen ist es, den Schritt „Bei Bedarf Wissen suchen“ so zu gestalten, dass immer Wissen gesucht wird, das zum Prompt (Frage an die KI) passt. Denn nur so können Halluzinationen kontrolliert und ausgeschlossen werden. Andernfalls würde nämlich das KI-Modell aus einem Gedächtnis antworten, das zahlreiche Fehlinformationen enthält.

Wissen finden und ausbeuten

Das Vorgehen ist:

  1. Ein Nutzer stellt eine Wissensfrage.
  2. Der KI-Wissensassistent formuliert die Frage für eine Suchmaschine um.
  3. Der KI-Wissensassistent recherchiert im Internet nach möglichen Wissensquellen.
  4. Der KI-Agent sortiert das gefundene Wissen (Suchergebnis) nach Relevanz.
  5. Nur die relevantesten Wissensquellen werden vollständig abgerufen.
  6. Der KI-Agent befragt jede Wissensquelle mit der Nutzerfrage aus Schritt 1 und findet eine Antwort oder sagt „Antwort in Wissensquelle nicht gefunden“.
  7. Aus allen gefundenen Antworten wird von der KI eine konsolidierte Antwort gebildet.

Hier ein Beispiel für eine Wissensfrage, die ein Nutzer an die KI stellen könnte:

Frage an die KI:
Welche Ausbildung hat Klaus Meffert aus Idstein?

Diese Frage ist nicht optimal für eine Suchmaschine strukturiert. Daher wird sie vom KI-System umformuliert.

Umformulierte Frage (durch LLM):
Klaus Meffert Idstein Ausbildung

Quelle: Eigene KI mit Open-Source LLM

Diese umformulierte Frage wurde per API an eine Suchmaschine geschickt. Übrigens macht ChatGPT das auch so. ChatGPT findet als umformulierte Frage zufällig dieselbe wie oben genannt (in anderen Fällen ist es anders gewesen).

Die Suchmaschine lieferte für die Frage 50 Treffer. Hier ein Auszug der Treffer, die die Suchmaschine zurückliefert:

Ergebnis der Suchmaschine, abgespeichert in interner Datenbank.

Ein Treffer besteht aus folgenden Datenwerten:

  • Titel, etwa Starte jetzt deine Ausbildung bei der Meffert AG Farbwerke!
  • URL, etwa https://www.meffert.com/karriere/schueler/ausbildung
  • Textauszug, etwa Starte jetzt deine Ausbildung bei der Meffert AG Farbwerke! Deine Zukunft. in Farbe! Die Meffert AG ist ein leistungsstarker, konzernunabhängiger Hersteller von Bautenlacken und -farben mit Hauptfirmensitz in Bad Kreuznach und hat Produktions- und Vertriebsstandorte im In- und Ausland mit weltweit ca. 1500 Mitarbeiter.

Wie zu sehen ist, sind die Volltexte für die Treffer nicht bekannt. Die Suchmaschine liefert pro Treffer nur einen Textauszug zurück. Alle 50 Treffer im Detail abzurufen, wäre zeitaufwändig und zudem unnötig.

Man könnte nun der Reihenfolge der Treffer vertrauen, die die Suchmaschine zurückliefert. Vielversprechender ist aber ein sogenanntes Reranking. Beim Reranking wird mittels eines KI-Modells eine neue Reihenfolge anhand der Relevanz der Treffer ermittelt. Die Relevanz beurteilt die KI anhand der Angaben pro Treffer (s.o.) und der Ausgangsfrage („Welche Ausbildung hat Klaus Meffert aus Idstein?“).

Das Reranking ergab, dass nicht Treffer 1, sondern Treffer 2 am relevantesten sei. Ebenfalls wurden die Treffer 6 und dann 5 als nächste relevante Treffer identifiziert. Die Treffer 3 und 4 sind somit untergeordnet.

Ergebnis nach dem Reranking (Auszug). Die Webseiten-Indizes sind hier teils mehrfach vertreten, weil die KI jeweils Blöcke á 6 Treffer präsentiert bekommt und dann je eine Zahl (Index) zwischen 1 und 6 liefern soll.

Diese umsortierte Trefferliste kann jetzt weiter betrachtet werden.

Für jeden Treffer in dieser Liste wird die zugehörige Webseite (URL) abgerufen, natürlich automatisch. Das passiert auf konventionelle Weise. Hierfür ist KI nicht nötig, nicht geeignet und auch nicht fähig.

Verfeinerungen

Das beschriebene Vorgehen ist geeignet für atomare Fragen. Atomare Fragen sind Fragen, die im Kern aus genau einer (in sich geschlossenen) Frage bestehen. Das System kann erweitert werden, um Fragen zu beantworten, die in Wirklichkeit aus mehreren Teilfragen bestehen.

Ein Beispiel für eine Frage, die aus mehreren Teilfragen besteht:

Wer ist älter: Klaus Meffert aus Idstein oder Werner Heisenberg (Todesalter)?

Beispiel für eine zusammengesetzte Frage.

Es gilt nun, aus dieser zusammengesetzten Frage alle Teilfragen zu extrahieren. Hierfür kann, oh Wunder (im wahrsten Sinne des Wortes), dasselbe Sprachmodell verwendet werden. In der Praxis wird man ein feintrainiertes Modell verwenden, um die Qualität zu steigern.

Die Antwort des LLM lautet:

1. Wie alt ist Klaus Meffert aus Idstein?
2. Wie alt wurde Werner Heisenberg?

Vom LLM extrahierte Teilfragen aus der zusammengesetzten Frage.

Diese beiden atomaren Fragen können jeweils, eine nach der anderen, in das obige KI-System gegeben werden, welches das nötige Wissen im Internet recherchiert und die Antwort auf die jeweilige Frage extrahiert.

Ein Schlussfolgerungs-System wird dann gebeten, die Antworten auf die Teilfragen in die Gesamtfrage einzusetzen. Die derart aktualisierte Frage wird somit um Wissen angereichert. Die Passage lautet dann:

Klaus Meffert aus Idstein ist 50 Jahre alt.
Werner Heisenberg wurde 74 Jahre alt.
Wer ist älter: Klaus Meffert aus Idstein oder Werner Heisenberg (Todesalter)?

Ursprungsfrage, die um Wissen aus dem Internet angereichert wurde.

Diese Frage kann unsere KI dann leicht beantworten:

Werner Heisenberg war älter. Er starb mit 74 Jahren, während Klaus Meffert 50 Jahre alt ist.

KI-generierte perfekte Antwort, bezogen auf den gegebenen Kontext.

Die Antwort ist super. Sie zu formulieren, war nach der Wissenssuche und dem Einsetzen der Fakten die leichteste Übung. Wenn ein Sprachmodell konkrete Fakten präsentiert bekommt, die eine Frage erschöpfend beantworten helfen, sind Halluzinationen eliminierbar.

Übrigens scheitert ChatGPT an dieser Frage, wie folgender Dialog beweist:

Frage an ChatGPT und dessen Antwort (Free-Account, Stand: 27.09.2024)

Der Grund ist wahrscheinlich, dass ChatGPT nur eine Online-Suche pro Prompt ausführt. Hier wären aber zwei Suchanfragen nötig gewesen. Warum die Antwort nicht richtig ist, interessiert den Nutzer allerdings wenig.

Ein kleineres KI-Sprachmodell benötigt eine Optimierung, um „etwas einfachere“ Fragen genauso gut wie ChatGPT beantworten zu können. Komplexere Fragen kann das kleinere Modell dann aber (wesentlich) besser als ChatGPT beantworten!

Auch für komplexere Frage eignet sich das beschriebene Vorgehen mit einer eigenen KI. Es gibt Fragen, die mehr als zwei Teilfragen enthalten. Bestimmte Teilfragen erfordern einen Taschenrechner statt eines KI-Sprachmodells. Auch LLMs können rechnen, aber nicht sehr gut. Anderes Beispiel: Manche Fragen erfordern die Kenntnis des aktuellen Datums. Auch das kann eine KI nicht per se wissen. Hier muss ein Hilfsmechanismus einspringen; er muss einmal vorgedacht werden und funktioniert zuverlässig.

Fazit

Ein Wissensassistent mit Internet-Zugang kann perfekt mit Firmenwissen kombiniert werden. Für Firmenwissen können nämlich potentiell sehr zuverlässige Antworten vom eigenen Chatbot gegeben werden. Dieser zuverlässige Chatbot wurde hier bereits beschrieben.

Bei etwas anspruchsvolleren Fragestellungen zeigt sich, dass ChatGPT dafür ungeeignet ist.

Die Kosten, die bei OpenAI entstehen würden, wären schlicht zu hoch, um Ihnen für einen „Appel und ein Ei“ diesen Gefallen zu tun (dafür, dass Sie Ihre Daten abliefern).

Wie man sich leicht vorstellen kann, erfordert eine komplexere Denkarbeit mehrere Aufrufe des KI-Sprachmodells. Würde jeder Aufruf Geld kosten, so wie bei der ChatGPT API, dann wären die Kosten unkalkulierbar und oft auch zu hoch.

Ein eigenes KI-System („Offline-KI“) kann viele Anwendungsfälle nicht nur besser lösen als ChatGPT, sondern ist auch günstiger und bietet volle Datensicherheit. Wissen, das nicht offline verfügbar ist, etwa in Ihren Firmendokumenten, kann bei Bedarf im Internet abgerufen werden. Die Offline-KI kann also online gehen, aber nur, wenn Sie das so wollen. Solch ein KI-System ist des Datenschutzbeauftragten bester Freund. Und auch die beste Freundin jedes Firmenlenkers, der seine Geschäftsgeheimnisse lieber bei sich behält als sie an OpenAI, Microsoft, Google und amerikanische Sicherheitsbehörden frei Haus auszuliefern.

Mit einem solchen KI-Assistenten für Wissen können sogar hochkomplexe Fragestellungen beantwortet werden. So gelang es dem Autor, ein 18 Jahre altes Rätsel mit Hilfe eigener KI zu lösen. Im Kern dient KI als sehr guter Unterstützer, sowohl bei der Lösungsfindung als auch (wenn für den Anwendungsfall sinnvoll) beim Umformulieren des Problems. Dieses Umformulieren fand oben ja auch statt: Die Frage eines Nutzers wurde in eine Form umgewandelt, die Suchmaschinen besser verstehen können.

Ganzen Artikel jetzt über kostenfreien Dr. DSGVO Newsletter lesen.
Weitere Extras für Abonnenten:
Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks
Schon Abonnent? Link im Newsletter anklicken & diese Seite auffrischen.
Newsletter abonnieren

KI-Beratung, KI-Lösungen

Umfassende Beratung (fachlich, rechtlich, technisch):

Leistungsangebot:

  • Erstberatung inkl. Machbarkeitsaussagen
  • Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
  • KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

Ihre Anfrage

Oder Mail an ki@dr-dsgvo.de

Wer schreibt hier?
Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die IT Logic GmbH, berät Kunden und bietet Webseiten-Checks sowie optimierte & sichere KI-Lösungen an.
Bitte nutzen Sie bei Verwendung meiner Ergebnisse die Quellenangabe oder verlinken Sie gut wahrnehmbar auf diesen Artikel:
Einen Kurzlink oder eine Bestätigung für Ihre Quellenangabe erhalten Sie kurzfristig auf Anfrage. Ein Teilen oder Verteilen dieses Beitrags ist natürlich ohne weiteres möglich und gewünscht.

Kommentare von Lesern

Die Kommentare drücken die Meinungen der jeweiligen Kommentargeber aus
  1. Andreas Steinbach

    Hallo Herr Meffert,
    seit über einem Jahr habe ich Ihren Newsletter abonniert und freue mich jedes Mal, wenn er in meiner Inbox landet. Die Art und Weise wie Sie schreiben, wie Sie fachkundig komplexe Themen auch für Laien aufbereiten und dann hier und da noch einen Witz machen, ist einfach große Klasse.
    Ich kann nur sagen: "weiter so"!
    Beste Grüße,
    Andreas Steinbach

    • Dr. DSGVO

      Vielen Dank für Ihre freundliche Rückmeldung 🙂

Schreiben Sie einen Kommentar

Ihre Mail-Adresse wird nicht veröffentlicht.

Wissen in Firmendokumenten finden: Semantische KI-Suche