Daten sind ein wertvoller Rohstoff, vor allem wenn es um Geschäftsgeheimnisse geht. Aber auch vertrauliche und personenbezogene Daten sollten aus rechtlichen Gründen nicht an Dritte (wie ChatGPT) gegeben werden. Eigene KI-Systeme bieten neben der Vertraulichkeit den Vorteil einer großen Flexibilität und der punktgenauen Ausrichtung auf konkrete Anforderungen. Ein Praxisbericht.
Einleitung
Weil einfach einfach einfach ist, lautete ein Slogan eines Mobilfunkanbieters. Einfach ist das neue Falsch, könnte man bei datenintensiven Anwendungen oft sagen. Datenschutz interessiert viele nicht wirklich. Wenn es um Mitarbeiterdaten, vertraglich als vertraulich abgesicherte Daten, Patentgrundlagen oder andere Geschäftsgeheimnisse geht, dann sind Unternehmen eher sensibilisiert. Schließlich will niemand rechtlichen Ärger. Der Wunsch, das unternehmensinterne Wissen in die Welt hinauszutragen, ist wahrscheinlich auch nicht so weit verbreitet.
Künstliche Intelligenz:
Konstruktiv handeln statt zu argumentieren ist eine gute Strategie, finde ich. Juristen haben auch dann immer noch genug zu tun.
Der juristische Ansatz prüft, was möglicherweise erlaubt ist und klärt Risiken.
Der technische Ansatz liefert datenfreundliche Systeme und erledigt viele juristische Fragen von selbst.
Einfach ist es jedenfalls, ChatGPT zu nutzen. Manche machen es sich ganz leicht, zulasten des Nutzens. Daran sieht man bereits, dass Nachdenken schwieriger als falsches oder suboptimales Handeln ist. Sogar größere Mühen werden in Kauf genommen, wenn die Mühen nur gering genug sind, dafür aber oft auftreten. Lieber 100x eine kleine Mühe mit einem summarisch hohen Gesamtaufwand als 1x eine mittelgroße Mühe mit einem summarisch deutlich niedrigeren Gesamtaufwand.
Erst kürzlich hatte Zoom als Anbieter einer Software für Videokonferenzen neue Nutzungsbedingungen formuliert. Damit gewährt sich Zoom das Recht, alle in Zoom-Videokonferenzen erhaltenen Daten quasi beliebig zu nutzen. Eingeschlossen ist auch die Verbreitung Ihrer Daten, inklusive von Transkripten und Nutzung für maschinelles Lernen („Training einer KI“). Das wäre mit einer datenfreundlichen Lösung aus Deutschland nicht passiert. Ebenso wenig wäre es mit Ihrem eigenem System ein Problem geworden. Jetzt haben alle Zoom-Nutzer potentiell ein Problem.
Alle Zoom-Nutzer haben potentiell ein Problem, weil sie lieber angeblich kostenfreie Drittsysteme anstatt datenfreundliche Lösungen verwenden.
Danke an Zoom für die Entscheidungshilfe.
Wer es sich nicht leichter als leicht macht, nutzt wenigstens die ChatGPT-Schnittstelle über ein eigenes Programm. Damit können viele Anwendungen erstellt werden. ChatGPT bringt neben erstaunlichen Fähigkeiten aber gleich mehrere unheilbare Probleme mit sich:
- ChatGPT ist sehr langsam.
- Die meisten Daten der ChatGPT-KI sind für Unternehmensanwendungen irrelevant (hinderlicher Ballast, fördert Halluzinationen, verlangsamt das System, erhöht Fehleranfälligkeit).
- Alle Daten landen bei OpenAI und somit bei Microsoft.
- Bei ChatGPT sind Daten nicht sicher (siehe erst spät eingebautes Opt-Out – statt Einwilligung, Datenleck, amerikanische Firmenpolitik usw.).
- ChatGPT basiert auf veraltetem Allgemeinwissen.
- ChatGPT kennt die Dokumente Ihres Unternehmens nicht und wird diese hoffentlich auch nie kennenlernen.
- ChatGPT kostet Geld, und zwar abhängig von der Anzahl der verarbeiteten Textstücke (Tokens). Ein größeres PDF reingeladen und analysiert, macht Sie bereits etwas ärmer. Eine falsche Programmierung (Endlosschleife oder Rekursion) macht jedes Budget in kurzer Zeit zunichte.
- ChatGPT ist nicht beliebig erweiterbar.
Werden Ihre Eingaben auch für das Trainings des KI-Modells eines Dritten oder für die Feinabstimmung verwendet, sind Datenschutz und Vertraulichkeit nicht mehr gewährleistet. Ein Sprachmodell lernt nämlich nicht nur die Grammatik und Struktur einer Sprache, sondern nimmt auch Wissen auf. Die daraus entstehenden Unzulänglichkeiten sind eher ärgerlich und kontraproduktiv als ein juristisches Problem. Das bedeutet gleichzeitig, dass diese Probleme nicht juristisch gelöst werden können.
Offline-KI als Lösung für Unternehmen und Behörden.
Weitere Infos.
Ähnliches kann zu Bildgeneratoren wie Dall-E oder Midjourney gesagt werden. Viele dieser Generatoren basieren auf dem Ansatz namens Stable Diffusion. Nahezu alle relevanten Verfahren dieser Art verwenden den LAION-Datensatz. Dieser hat den Common Crawl Datenabzug verwendet, um Webseiten zu finden, die Bilder samt Bildbeschreibung einbinden. Common Crawl wiederum ist ein riesiger Abzug nahezu beliebiger Webseiten. Wenn nun eines Ihrer Bilder im Bilddatensatz gelandet ist, dann nicht in Reinform. Vielmehr ist Ihr Unternehmensbild (Logo, Produktbild etc.) in Form einer strukturellen Speicherung in den künstlichen Neuronen des KI-Datensatzes eines Dritten gelandet. Das Bild da wieder rauszubekommen, ist an sich kaum möglich. Vielmehr müsste das KI-Modell neu berechnet werden. Ob das der KI-Modell-Inhaber tun wird, ist fraglich. Immerhin ist das Training eine ungeheuer rechenintensive Aufgabe mit anspruchsvoller Datenbeschaffung.
Unternehmenseigene KI-Systeme
All die oben genannten Probleme ist Ihr Unternehmen los, wenn Sie ein eigenes KI-System nutzen. Diese Art von Systemen nenne ich lokale KI-Systeme oder autarke KI-Systeme. Diese Systeme benötigen keine Internetverbindung und könnten im besten Fall unter Ihrem Schreibtisch stehen.
Diese Vorteile haben unternehmenseigene Systeme Künstlicher Intelligenz:
- Volle Datenkontrolle: Sie bestimmen, welche Trainingsdaten oder vortrainierten KI-Modelle verwendet werden.
- Fragen Sie Ihre Daten und nicht die Daten aus dem Internet: Speisen Sie Ihre Unternehmensdokumente und -medien ein.
- Hohe Geschwindigkeit: Jedenfalls wird Ihr System schneller sein als ChatGPT, wenn Sie wollen. Die Anzahl Ihrer User wird deutlich geringer sein als die von populären KI-Plattformen. Zudem können Sie den Datenumfang deutlich reduzieren.
- Beliebige Anpassbarkeit: Weiter unten mehr dazu.
- Große Bandbreite an Anwendungsfällen: Semantische Suche, Textverstehen, Frage-Antwort-Assistenten, Bildgeneratoren, Audiotranskription, und vieles mehr.
Hier ein Beispiel aus der Praxis, was mit einem lokalen System für Ihr Unternehmen möglich ist. Das Beispiel läuft auf einem Low Cost-Server und funktioniert. Es ist allerdings noch in Entwicklung und kann am Ende deutlich mehr als aktuell zu sehen ist. Die ausstehende Fertigstellung ist keine große Sache und hat nur etwas mit meiner Priorisierung zu tun.
Semantische Suche für Unternehmensdokumente
Durchsuchen Sie Ihre Dokumente, Ihr Ticketsystem (etwa Jira), Ihre Intranetseiten und vieles mehr mit einem intelligenten System. Machen Sie aus all Ihren Dokumenten einen Wissensbestand und vereinen Sie Ihr Firmenwissen in einem elektronischen Gehirn.
Für Standarddokumenttypen wie PDF können leicht Importroutinen verwendet werden, für die bei Ihnen keine zusätzlichen Kosten entstehen. Die Adobe Cloud wird zumindest in diesem Punkt entbehrlich. Alles, was in Ihrem Unternehmen automatisiert ausgeführt werden kann, bewirkt eine hohe Aktualität und mehr Freizeit für alle, die keine Maschinen sind.
Eine KI-Suche ist keine Suchmaschine, sondern eine semantische Suche. Künstliche Intelligenzen sind sehr gut darin, strukturell, semantisch oder vielleicht auch unscharf zu suchen. Sie sind aber schlecht darin, exakte Suchen durchzuführen, wenngleich das grundsätzlich möglich ist. Das ist übrigens analog zum Menschen.
Deswegen schlage ich einen mehrstufigen Ansatz vor, den ChatGPT gar nicht leisten will:
- Optimierung: Erkennen von Schreibfehlern oder schlechten Synonymen in den Suchbegriffen. So wird aus „CommonCrawl“ ein Vorschlag für einen wahrscheinlich gemeinten Begriff.
- Suche mit einer herkömmlichen Suchmaschine. Dies ist vor allem sinnvoll, wenn Sie nach „Common Crawl“ suchen. Eine KI ist mit dieser Art Suche derart unterfordert, dass sie schlechte Ergebnisse liefert.
- Semantische Suche: Diese Art der Suche eignet sich besonders gut für Fragen, die in natürlicher Sprache gestellt sind. Ein Beispiel: „Kann mit hilfe der IP-Adresse eines Servers dessen Standort ermittelt werden?“
- Ausgabe einer Antwort auf eine gestellte Frage in eigenen Worten. Auf die Frage unter Punkt 3 antwortet meine KI beispielsweise mit: „Anhand der IP-Adresse kann der Standort eines Servers nicht zuverlässig ermittelt werden, da sich die Verbindung zwischen IP-Adresse und Server jederzeit ändern kann. Es gibt jedoch Methoden, den Standort eines Servers zu ermitteln, wie z. B. die Verwendung von IP-Geolokalisierung oder der Vergleich von Metadaten.“. Die KI von Bing antwortet hingegen falsch mit „Ja“ und nennt Quellen, die die falsche Antwort begründen wollen.
- Transparenz: Da eine KI durchaus falsche Antworten geben kann, wie die Bing-Suche von Microsoft beweist, sollte die Benutzerführung entsprechend gestaltet sein. Hiermit meine ich nicht nur Hinweise, sondern auch die Ausgabe der Quellen, die zum Ergebnis führten, und einiges mehr.
Für die Suche in diesen Blog verwende ich seit kurzem einen sehr günstigen Server, der nicht einmal eine KI-fähige Grafikkarte hat. Leistungsfähige Grafikkarten (CUDA-fähige GPUs) von Nvidia werden für KI-Anwendungen verwendet, weil sie Berechnungen um ein Vielfaches schneller durchführen können als gewöhnliche Prozessoren (CPUs).
Sofern mein Server gerade verfügbar ist, liefert ein Klick auf die Verlinkungen, die in den oben genannten Punkten 1 und 2 genannt sind, reale Ergebnisse meiner Suche. Die semantische Suche kann ich auch, nur habe ich hierfür keinen Server gemietet, der im Internet steht. Vielmehr dient mir der gemietete KI-Server (Server Nummer zwei, ungleich dem oben genannten schlechten Server) für Entwicklungsarbeiten.
Folgende Ergebnisse spuckt meine Suche in Stufe eins aus, wenn Sie sich vertippen und das erkannt wird:

Es ist nichts Aufregendes daran, einen kleinen Schreibfehler zu korrigieren. Jedoch liefert bereits die WordPress-eigene Suche, die einige Jahre Entwicklungsarbeit hinter sich hat, keinen Treffer, wenn der Suchbegriff nicht in den Blog-Beiträgen vorkommt.
Meine Suche erkennt einige Schreibfehler. Dazu wurde ein Vokabular aus Begriffen aufgebaut, die in (fast) allen meinen Beiträgen vorkommen. Nur diese Begriffe sind „richtig“ bzw. geeignet für eine Suche über meine Dokumente. Als Optimierung wird ein falsche Suchbegriff korrigiert und in der wahrscheinlich richtigen Form in das Suchfeld reingeschrieben. Sofern WordPress gar keinen Treffer findet, wird direkt ein Ergebnis für den korrigierten Suchbegriff ausgegeben. Ansonsten wird mit dem "Meinten Sie“ Hinweis eine konstruktive Rückmeldung gegeben.
Wenn ein Suchbegriff kein Leerzeichen enthält, dann ist es offensichtlich keine Frage, die eine KI kompetent beantworten könnte. Also wird hierfür auch keine semantische Suche gestartet, sondern eine ganz normale Suche.
Ist hingegen der Suchbegriff länger, könnte es eine Frage sein. Zuerst werden die Ergebnisse der WordPress-Suche ausgegeben (sofern vorhanden). Danach folgen die Ergebnisse der semantischen KI-Suche. Hier ein Beispiel:

Erstaunlicherweise findet die klassische Suche einen Treffer. Dies ist allerdings wohl nur der Fall, weil die Frage von mir oft verwendet wird, um die Leistungsfähigkeit meiner KI zu demonstrieren. Im Suchergebnis wird transparent dargestellt, dass ein Treffer aus der herkömmlichen Suche stammt und 18 Treffer von der unscharfen Suche gefunden wurden. Die unscharfe Suche ist eine Vektorsuchmaschine auf Minimal-Hardware.
Als Gegenbeispiel dazu hier das Ergebnis aus der Bing-Suche:

Wie zu sehen ist, liefert Bing die Antwort „Ja“ auf die gestellte Frage. Die Antwort ist falsch, weil IP-Adressen oft eben nicht auf einen bestimmten Server verweisen, und wenn, dann kann diese Zuordnung eine Sekunde später anders aussehen.
WordPress findet bei Schreibfehler-Fragen wie der folgenden keinen Treffer: „Sind Cokies personenbezogene Daten?“ Das Wort „Cookies“ wurde hier fälschlicherweise mit nur einem „o“ geschrieben. Hingegen wird mit der semantischen Suche über ein Sprachmodell der Treffer gefunden:

Die KI-Suche ist mit diesem Treffer erfolgreich. Was hier nicht deutlich wird, weil noch nicht fertig programmiert: Meine KI-Suche liefert nicht nur ein Dokument als Treffer, sondern kann auch die Fundstelle im Text halbwegs genau benennen. Denn für die Suche wird ein Index über Dokumente derart gebildet, dass jedes Dokument in handliche Häppchen zerteilt. Diese Häppchen können besser durchsucht werden als ein langer Text. Ich hätte also das relevante Häppchen im Suchergebnis ausgeben können, anstatt das gesamte Dokument zu zeigen.
Der gefundene Beitrag beantwortet die Frage sehr genau, wie folgender Auszug des Beitragstextes zeigt:

Die nächste Stufe ist, die Antwort direkt im Suchergebnis auszugeben, und zwar am besten abstraktiv. Abstraktiv bedeutet, dass eine Zusammenfassung in neuen Worten gegeben wird. Genauso macht es auch der Mensch. Eine Vorstufe wäre die sogenannte extraktive Zusammenfassung, die einem Zitat gleicht.
Erst kürzlich habe ich einen bereits umgesetzten Showcase für einen Frage-Antwort-Assistenten für unternehmenseigene Dokumente beschrieben. Details dazu finden Sie im verlinkten Beitrag.
Fazit
Mit einem unternehmensinternen KI-System können zahlreiche Anwendungsfälle gelöst werden. Solche Systeme sind datenfreundlich. Sie erlauben die volle Kontrolle über Datenflüsse.
Das Beispiel mit der Dokumentensuche ist nur einer von vielen Anwendungsfällen. Die Suchlogik ist noch nicht voll ausprogrammiert, zeigt aber schon, was machbar ist. Sie läuft auf einem Server, den man für einen „Appel und ein Ei“ bei einem deutschen Provider mieten kann, falls kein eigener Server bereitsteht. Die Anpassungsmöglichkeiten an individuelle Bedürfnisse sind nahezu grenzenlos.
Wer ein paar Hunderter im Monat investieren möchte, bekommt einen recht leistungsfähigen KI-Server. Damit können dann weit entwickelte Sprachmodelle auch in deutscher Sprache verwendet werden. Aber auch das massenweise Generieren von Bildern ist möglich. Statt fünfmal ein Bild mit DALL-E zu erzeugen, bis irgendwann ein gutes Ergebnis vorliegt, lassen Sie einfach hunderte Bilder generieren. Ihre KI lernt dann sogar, welche Bilder Ihnen zusagen und sortiert zukünftig schlechte Ergebnisse aus.
Wie bei allen Cloud-Diensten sind KI-Drittsysteme nicht nur hinsichtlich der Vertraulichkeit problematisch, sondern auch bezüglich der Kosten (Pay per use). Mit lokalen Systemen, die Ihrem Unternehmen gehören, gibt es diese Kosten nicht. Sie zahlen nur den Monatspreis für Ihren Server, der entweder aus einem Mietpreis besteht oder den Betriebskosten. Diese Kosten sind überschaubar und für jeden attraktiv, der wirklich einen Nutzen von solchen KI-Systemen hat. Ohne großen Nutzen jedenfalls ist auch der Einsatz von ChatGPT nicht wirklich sinnvoll.
Wenn Datenschutz und Vertraulichkeit kein Problem sind, können Sie immerhin darüber nachdenken, die ChatGPT-Schnittstelle programmatisch zu nutzen. Künstliche Intelligenz macht jedenfalls, auf welche Art auch immer, Probleme wirtschaftlich lösbar, die bis vor kurzem noch gar nicht oder nur mit erheblichem Aufwand lösbar waren.
Sprechen Sie mich gerne an, wenn Sie ein eigenes KI-System für Ihr Unternehmen haben möchten oder eine Schnittstelle eines Drittsystems verwenden wollen, um manuelle Arbeiten zu reduzieren. Bei Nutzung von Schnittstellen zu KI-Systemen Dritter können wenigstens einige der Datenprobleme reduziert werden. Beispielsweise können personenbezogene Daten automatisiert bis zu einem gewissen Grade verfremdet werden.
Kernaussagen dieses Beitrags
Firmen sollten optimierte KI-Systeme nutzen, um sensible Daten zu schützen und maximale Flexibilität zu gewährleisten.
Optimierte KI-Systeme bieten eine volle Kontrolle über die Daten und vermeiden Abhängigkeit von externen Plattformen.
Eine KI kann Unternehmen helfen, Informationen effizienter zu finden und zu nutzen, indem sie Dokumente und Daten semantisch durchsuchen kann.
Mit einem eigenen KI-System im Unternehmen können viele Aufgaben effizienter gelöst werden, ohne auf teure, unzuverlässige und unsichere Cloud-Dienste angewiesen zu sein.
KI kann Probleme lösen, die vorher kaum oder gar nicht lösbar waren.
KI-Beratung, KI-Lösungen
Leistungsangebot:
- Erstberatung inkl. Machbarkeitsaussagen
- Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
- KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

gekennzeichnet.


Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die 
Danke für die sehr guten Erläuterungen der Pros für unternehmensinternen KI Lösung, die viele Anwender:innen herbeisehnen dürften.
Meine leidvolle Erfahrung ist, dass auch heute noch Suchanfragen im Unternehmens-Intranet zu keinen wirklich sinnvollen Ergebnissen führen.
Ich habe mich zuletzt vor 20 Jahren mit der Frage mit der Durchsuchbarkeit von Content – damals in Dateisystemen auf Servern abgelet – befasst. Es scheiterten die guten Lösungen, weil man nicht ausschliessen konnte, dass auch unerwünschte Quellen durchsucht und entsprechende Ergebnisse ausgeworfen werden, weil die Server nicht getrennt bzw Daten entsprechend klassifiziert waren / im Nachhinein nicht mehr werden konnten. Wie wird dieses Problem gelöst?
Danke für Ihre gute Rückmeldung und Ihre weiterführende Frage!
Bei Suchen kann im Ergebnis immer auch die Quelle mit angegeben werden. Meine KI-Suche macht genau das, alleine schon für die Evaluierung der Güte der Ergebnisse in der Testphase.
Zudem ist eine KI-Suche typischerweise mehrstufig. In Stufe 1 erfolgt eine Vektorsuche. Das Ergebnis sind die hoffentlich am besten passenden Dokumente bzw. Textschnipsel aus Dokumenten. Hier kann bereits eine Einschränkung auf bestimmte Dokumentenarten oder -klassen erfolgen.
In Stufe 2 wird aus den Treffern der Stufe 1 eine Antwort formuliert. Diese Stufe ist optional.
Die Angabe der Quellen sorgt jedenfalls für Transparenz.
Die Einschränkung nur auf bestimmte Dokumente ist dann besonders leicht möglich, wenn die Dokumente in Gruppen unterteilt werden können. Beispiele: Urteile, Patente, Tickets für Software-System X, Minutes of Meeting, Fachkonzepte.
Ich sehe das Problem der Quellen also als gelöst an und kann hier auch auf eigene Lösungen verweisen, die dieses Problem vollständig adressieren können.
Was die Suche selbst angeht, sind mehrere Ansätze erforderlich. Die KI-Suche alleine ist, wie in meinem Beitrag angedeutet, ungeeignet für eine gute Qualität. Ohne KI kommt aber auch nichts Gutes (oder besseres als früher) bei raus. Also: KI + klassische Ansätze. Die klassischen Ansätze sind im Aufwand überschaubar, weil vorgefertigte Bibliotheken existieren (Beispiele: NGRAM-Suche, Edit-Distance, Word Stemming, NLP, TF*IDF)
Auf welcher Technologie basiert die Vektorsuche? Apache Lucene, Python Bibliotheken, …?
Die Basis sind Python Bibliotheken.
Apache Lucene (Java) mag mittlerweile auch eine Vektorsuche durchführen (sagen jedenfalls Dokumente, ich habe es mit Lucene noch nicht gemacht). Ich sehe allerdings Java als nicht besonders zielführend an, was KI-Anwendungen angeht. Zudem kommt Lucene von einer ganz anderen Ecke, nämlich der klassischen Suche. Ob das gut oder schlecht ist, müsste man sich anschauen.