Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen
Externe Links sind mit dem Symbol Externer Link Symbol gekennzeichnet. Datenschutzinfo

Künstliche Intelligenz: Deutsche Texte in KI-Sprachmodellen

Deutsche Version (Original)
8
Dr. DSGVO Newsletter erkannt: Erweiterte Funktionen verfügbar
Artikel als PDF · Mehr Inhalte & kompakte Kernaussagen · Webseiten-Checks · Offline-KI Live
Standardansicht: Dr. DSGVO Newsletter nicht erkannt. Erweiterte Funktionen nur für Abonnenten:
Artikel als PDF · Mehr Inhalte & kompakte Kernaussagen · Webseiten-Checks · Offline-KI Live
📄 Artikel als PDF (nur für Newsletter-Abonnenten)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Dokumentensuchmaschinen, Chatbots, Sprachassistenten, Frage-Antwort-Systeme: Sie alle können auch für die weltweit untergeordnete deutsche Sprache fit gemacht werden. Exakte Antworten liefert ChatGPT nicht. Zuverlässige KI-Sprachmodelle für die deutsche Sprache sind trotz einiger Kleinigkeiten wie der Gender-Sprache möglich.

Einleitung

Der Einsatz von KI im Unternehmen unterscheidet sich fundamental von der privaten Nutzung von ChatGPT, Microsoft Bing, Google Bard oder sonstigen Systemen von Datenkraken.

Unternehmen geben ihre Daten samt Geschäftsgeheimnissen, Patentschriften, Mitarbeiterdaten, Kundendaten, Verträge oder sonstige vertrauliche Daten oft nur ungern an ChatGPT weiter. Andererseits müssen zukünftig mehr Daten an andere bereitgestellt werden. Das besagt der Data Governance Act (DGA) der EU, der aufgrund seines Verordnungscharakters im September 2023 in Kraft trat.

Zusätzlich sind die Anforderungen an korrekte Antworten eines Chatbots oder sonstigen KI-Sprachsystems deutlich höher als im privaten Bereich. Das gilt jedenfalls außerhalb des kreativen Bereichs. Die Königsklasse sind juristische Fragestellungen, die hochmoderne, aber allgemein gehaltene Systeme wie ChatGPT und die Bing-KI von Microsoft nicht gut beantworten können (Begründung: siehe Link eben). Auch Verwaltungen, die den Dienst am Bürger tun, sollten nicht auf unzuverlässige Chatbots, zu denen auch ChatGPT gehört, zurückgreifen.

Der Gender-Doppelpunkt ist geeignet, Trainingsdaten für Sprachmodelle zu verunreinigen.

Insbesondere deswegen, weil der Doppelpunkt normalerweise ein Satzendezeichen ist.

Selbst die angebliche und erst jüngst veröffentlichte Autokorrekturfunktion von Google Bard funktioniert nicht richtig, wie ein Praxistext mit genauerem Hinsehen zeigte.

Unnötig erschwert wird es KI-Sprachmodellen, indem in Trainingsdaten die Grammatik manchmal aufgrund einer Gender-Sprache verwässert wird. Zudem sorgt der Gender-Doppelpunkt dafür, dass ganze Sätze in Texten durchaus nicht mehr erkannt werden.

Deutsch ist im weltweiten Vergleich eine stiefmütterlich behandelte Sprache (siehe Abbildung unten). Mächtige Sprachmodelle, die sich auf das Englische fokussieren, verstehen nur deshalb Deutsch, weil diese Sprache als Abfallprodukt in Form einer emergenten Eigenschaft quasi ungewollt mit angeeignet wurde.

Vorteile eigener Sprachmodelle

Ein Sprachmodell kann auf folgende Arten gewonnen werden:

  • Erstellen von Grunde auf. Dies bedarf üblicherweise einiger hunderttausend GPU-Stunden Rechenzeit (GPU = Grafikkartenprozessor), ist also von vielen Firmen nicht leistbar.
  • Wiederverwenden offener Sprachmodelle, die durch Fein-Tuning geprägt werden: anspruchsvoller, aber beherrschbarer Standardweg.
  • Wiederverwenden offener Sprachmodelle, die „nur“ im Prompt eigene Dokumente als Kontext eingefüttert bekommen.

Die ersten beiden Möglichkeiten haben, in unterschiedlicher Art und Weise, die Möglichkeit, eine Gender-Sprache aufzunehmen. Das Fein-Tuning wird allerdings Probleme damit haben, die nicht ganz wegzugendern sind.

Deutsch ist keine Weltsprache. Die Liste zeigt die Sprachen in der Nennung ihrer Relevanz für das Sprachmodell FLAN-T5 von Google. Vor Deutsch sind sogar Sprachen wie Gujarati genannt, die vielen gänzlich unbekannt sein dürften.

Die dritte Möglichkeit, das Wiederverwenden offener Sprachmodelle, ist die technisch einfachste und oft funktionierende. Sie kommt mit Gender-Sprache grundsätzlich überhaupt nicht klar. Dies ist eine technische Aussage und keine politische.

Ein eigenes deutsches Sprachmodell ist nicht nur möglich, sondern hat auch viele Vorteile. Unter anderem sind die Vorteile:

  • Die deutsche Sprache steht im Vordergrund. Wir leben in Deutschland und nicht in Spanien. Anglizismen kann ein deutsches Sprachmodell auch verstehen.
  • Der Ballast von zig anderen Sprachen muss nicht mitgeschleppt werden. Gut für die Hardware-Anforderungen (Grafikkarte!) und die Betriebsgeschwindigkeit.
  • Hochwertige Inhalte können genutzt werden anstatt Datenschrott (= allgemein verfügbares Material, welches nicht vorselektiert wurde).
  • Fokussierung auf ein Fachgebiet (oder auch mehrere).
  • Optimale Nutzerführung mit Sensibilisierung für die Ergebnisse, anstatt so zu tun, als wäre jede Antwort richtig (siehe ChatGPT oder Bing).
  • Geringere bzw. fixe Kosten: Ein unternehmenseigenes KI-System basiert im Wesentlichen auf Anschaffungs- oder Mietkosten für einen KI-Server. Eine häufige Nutzung ändert daran nichts. Die Kosten bleiben gleich niedrig. Ganz anders Cloud-Lösungen wie ChatGPT. Das Befragen eines Dokuments wird bei häufiger Nutzung schnell teuer. Wer die Chatbot-API von OpenAI nutzt, sollte besser keine Rekursion oder Endlosschleife reinprogrammieren, da ansonsten das Budget in Minuten und ohne Nutzen verbraten ist. Das kann bei einem eigenen System nicht passieren.

Der nächste Abschnitt behandelt Trainingsdaten für deutsche KI-Sprachmodelle, weil diese das Fundament für die Künstliche Sprachintelligenz legen. Daraus leiten sich auch gleich mehrere Vorschläge für Behörden und sonstige staatliche Stellen ab, die Künstliche Intelligenz in Deutschlandgeschwindigkeit ermöglichen könnten.

Trainingsdaten für deutsche KI-Sprachassistenten

Trainingsdaten sind das, was der Erziehung eines Kindes durch seine Eltern gleichkommt. Für Sprachmodelle werden deutsche Texte benötigt. Woher diese Texte nehmen, wenn nicht stehlen?

Das Internet bietet eine ganze Fülle von deutschen Texten. Auch Unternehmen haben in ihrem Intranet zahlreiche Dokumente, die als Quell des Wissens geeignet sind.

PDF statt HTML

Der Bundesgerichtshof (BGH) veröffentlicht seine Urteile anscheinend nur in PDF-Form. Die gemeinnützige Plattform openjur nimmt diese PDFs und extrahiert daraus (manuell?) den Text. Danach stellt openjur die Urteile kostenfrei online zur Verfügung. Auch der Bundesanzeiger veröffentlicht viele Dokumente nur in PDF-Form.

Analog verhält es sich mit einigen anderen wichtigen öffentlichen Quellen, die für KI-Modelle interessant sein können. Beispielsweise veröffentlichen viele Aufsichtsbehörden ihre Tätigkeitsberichte oder Leitfäden nur in PDF-Form.

Kompliziertes zweispaltiges PDF einer Datenschutzbehörde.

Die Abbildung zeigt einen Ausschnitt aus einem offiziellen und öffentlichen PDF-Dokument einer deutschen Datenschutzbehörde. Nicht nur, dass zwei Spalten den Textimport an sich schon komplizierter machen. Die zwei Spalten werden zusätzlich durch eine Zwischenüberschrift segmentiert. Was für den Menschen optisch leicht erfassbar ist, ist für eine Vorstufe der KI ein Problem. Fast alles ist lösbar, aber mit welchem Aufwand und wie zuverlässig? Warum nicht Rohdaten bereitstellen, oder wenigstens (auch oder nur) Formate, die einspaltig sind? Beispiele sind HTML oder Rohtext. HTML kann als menschenlesbare Webseite ausgeprägt sein, die auch eine Maschine gut lesen kann, was als Scraping bezeichnet wird.

Das Gegenteil der Leichten Sprache vermeiden

Aus rein logischer und technischer Sicht ist Gendern das Gegenteil einer einfachen Sprache („Leichte Sprache“). Hier ein Beispiel aus einem Dokument einer deutschen Datenschutzbehörde:

  • „Mitarbeiter:innen“ statt „Mitarbeiter“

In anderen Dokumenten derselben Behörde findet sich hingegen:

  • „Mitarbeiter*innen“

Diese Formulierungen sind weder konsistent noch „leicht“. Hinzu kommt, dass von der Gender-Sprache anscheinend nur die Texte betroffen sind, die von Suchmaschinen oder Chatbots als Ausgabe geliefert werden.

Die Frage ist, ob jeder Nutzer ein KI-Modell mit Gender-Sprache befragt oder es vielleicht kein einziger ist. Auch Künstliche Intelligenz kann keine Wunder vollbringen. Ebenso wenig ist jeder Mensch ein Genie. Die meisten Menschen in Deutschland können nicht einmal ein Rad an einem Auto wechseln.

Darum ist Datenqualität wichtig:
Ein Sprachmodell namens Zephyr hat nur ein Zehntel der Parameter eines mächtigen 70B-Modells und ist (auch) aufgrund der Datenqualität gleich gut.

Das bewirkt wesentlich schnelleres Laden des Modells und erheblich schnelleres Generieren von Antworten.

Noch komplizierter wird es aus technischer Sicht, weil vor KI-Verarbeitung gar nicht klar ist, wie eine Normalisierung von Begriffen, die durch das Gendern verunstaltet wurden, stattfinden soll. Hier zwei beispielhafte Satzauszüge mit dazugehörigem normalisiertem Hauptwort:

  • … von Mitarbeiter:innen … –> Mitarbeitern
  • … durch Mitarbeiter:innen … –> Mitarbeiter

Wie zu sehen ist, wird aus zwei Wortformen plötzlich eine, indem die Grammatik durch das Gendern unkenntlich gemacht wird. Der Mensch kann hier folgen, denn er ist bereits eine Intelligenz (nicht immer, aber gelegentlich). Ein Computer, der sich in der Vorverarbeitung von Texten befindet, die für das Training eines KI-Sprachmodells verwendet werden sollen, kann diese Unschärfe nicht zuverlässig auflösen. Jedenfalls bedarf es vieler Einzelfallbetrachtungen, bis das Gesamtergebnis weitgehend passt.

Folgende Formulierung ist schwierig maschinell zu verarbeiten, weil die Grammatik hier komplett untergeht. Wahrscheinlich habe auch viele Menschen Probleme, diese Sprache zu verstehen.

  • ein:e Mitbürger:in

Wer es noch komplizierter mag, verwendet statt dem Gender-Doppelpunkt das Gender-Sternchen:

  • ein*e Mitbürger*in

KI-Modelle basieren auf viele Millionen, meist aber Milliarden Datensätzen. Bei großen Sprachmodellen handelt es sich bei einem Datensatz um einen Textabschnitt. Da KI-Modelle aufgrund vieler Beispiele lernen, bedarf es bei Verwendung der Gender-Sprache zahlreicher weiterer Beispiele. Das Grundproblem wird also unnötig verkompliziert.

Unabhängig davon leidet, wie oben dargestellt, die Grammatik. Aus Schärfe wird Unschärfe. Wer sich ein bisschen mit KI-Modellen auskennt, weiß, wie wichtig saubere Eingabedaten sind. Mehr Fallunterscheidungen und mehr Unschärfe sind an sich beherrschbar, bedürfen aber mehr Aufwand. Der Aufwand für das Trainieren oder Feintrainieren von KI-Modellen ist an sich schon hoch und von vielen kaum leistbar.

Selbst klassische NLP-Verfahren wie Lemmatisierung und Wortstammbildung werden durch den Gender-Doppelpunkt verwirrt.

Objektive, rein technische Feststellung. NLP = Natural Language Processing.

Eine interessante Frage wäre, ob Verfechter der Gender-Sprache diese auch in Suchfeldern von Suchmaschinen oder als Prompt in KI-Modellen eingeben. Konsequenterweise müsste ein Verfechter der Gender-Sprache dies tun. Spätestens jetzt weiß derjenige oder diejenige, dass Suchmaschinen und KI-Modelle auch aus Nutzereingaben lernen. Wenn Nutzer aber immer nur eine althergebrachte, gängige Sprache nutzen und nicht die gegenderte Version, dann wird die Anwendung leider (oder zum Glück?) die Gender-Sprache nicht ausreichend gut beherrschen.

Hier geht es um die reine Argumentation, Gendern zugunsten von KI abzuschaffen. Dennoch eine Anmerkung. Mich erreichte im Vorfeld ein Kommentar, der besagt: „'Die Sprache gehört dem Volk' – Bundestagsresolution vom 26.3.1998“. Hierzu sei erwähnt, dass die Mehrheit der Deutschen gegen die Gender-Sprache ist. Sofern der demokratische Mehrheitsentscheid respektiert wird, ist die Entscheidung des Volkes damit gefallen. Ein weiterer Kommentar besagte, dass eine befragte KI antwortete, sie verstehe die Gender-Sprache. Wahrscheinlich war das ChatGPT, ein System, das sowohl andauernd Gefälligkeitsantworten gibt, als auch oft falsch antwortet, als auch grundsätzlich ungeeignet ist, für spezifische Aufgaben im Unternehmen exakte Ergebnisse zu liefern.

Vorschläge für eine bessere Datenqualität

Die folgenden Empfehlungen richten sich sowohl an Unternehmen als auch an öffentliche Stellen. Insbesondere letztere haben es in der Hand, Informationen von allgemeinem Interesse in einem digital einfach zu verarbeitenden Format bereitzustellen.

Öffentlich bereitgestellte Dokumente sollten in einem Rohtextformat bereitgestellt werden. Üblicherweise wird eine höhere Stufe, nämlich HTML verwendet. Nur ein PDF bereitzustellen, sorgt oft für Probleme mit der maschinellen Verarbeitbarkeit. PDFs mit mehr als einer Spalte für den Fließtext sind noch problematischer. Wer ein PDF bereitstellen möchte, stellt idealerweise ein leichter verarbeitbares Dokumentenformat bereit. Auch sehbehinderte Menschen, die einen Screen Reader nutzen wollen oder müssen, kommen mit einfachen Dokumenten als PDF besser zurecht.

Ein Dokumentenindex erleichtert das Auffinden von vorhandenen Dokumenten und erspart das Crawling oder Scraping. Beim Crawling werden Webseiten automatisiert abgegrast. Das macht dem Abgraser nicht nur mehr Mühe. Auch der Server des Abgegrasten leidet darunter, weil mehr und vor allem unnötiger Datenverkehr zustande kommt.

Die Gender-Sprache ist aus technischer Sicht eine Katastrophe. Mehr gibt es hierzu aus technischer Sicht nicht zu sagen. Wer allgemein verständliche Texte bereitstellen möchte, sollte auf die Gender-Form verzichten. Auch viele Menschen können einige Gender-Formulieren nicht so leicht verstehen wie die gewöhnliche Sprache. Inklusion geht anders als durch Verkomplizieren. Die sogenannte Leichte Sprache scheint jedenfalls nicht nur vom Gendern Abstand zu nehmen, sondern weitere Vereinfachungen einzuführen.

Wer gendert, sollte dies aus rein logischer Sicht und aus Eigennutz ab sofort besonders konsequent tun. Konsequent bedeutet, in jedem Satz, mindestens aber auch in Suchanfragen oder Prompts. Niemand kann dazu gezwungen werden, darf sich dann aber nicht wundern, wenn ein Chatbot oder eine Suchmaschine nicht in Gender-Sprache antwortet.

Fazit

Rein technisch verunreinigt die Gender-Sprache Trainingsdaten für KI-Sprachmodelle bzw. macht das Training schwieriger, weil mehr Eingabedaten erforderlich sind. Rein sprachlich verkompliziert sie einige Sätze, vor allem, wenn unbestimmte Artikel vor dem Hauptwort auch noch gegendert werden. Das sorgt für Exklusion von Lesern, die sowieso Probleme haben, Texte zu verstehen, die über Bierzeltniveau geschrieben sind.

An dieser Stelle ist KEINE Gender-Diskussion erwünscht. Hier geht es um rein funktionale Betrachtungen.

Wer im KI-Zeitalter Dokumente bereitstellen will, sei es für die Öffentlichkeit oder für interne KI-Systeme, sollte aus technischen Gründen von der Gender-Sprache absehen, oder alle Trainingsdaten duplizieren und die Duplikate mit gegenderten Formen versehen.

Wer die Gender-Sprache toll findet, sollte sie überall im Internet verwendet, auch wenn dann mehr Eintipparbeit notwendig ist. Ansonsten wird nämlich das durch die Eingaben gefütterte KI-Sprachmodell immer affiner für die bisher verwendete Sprache, die ohne Gender-Sternchen o. ä. auskommt.

Kernaussagen dieses Beitrags

Deutsche Unternehmen sollten eigene KI-Systeme nutzen, anstatt sich auf unzuverlässige Modelle wie ChatGPT zu verlassen, da diese nicht immer genaue Antworten liefern.

Ein eigenes deutsches Sprachmodell bietet viele Vorteile gegenüber dem Verwenden von bestehenden Modellen, da es besser auf die deutsche Sprache abgestimmt ist und weniger Ressourcen benötigt.

Die Gender-Sprache verwirrt KI-Modelle und macht es schwieriger, Informationen zu verarbeiten.

Über diese Kernaussagen

KI-Beratung, KI-Lösungen

Umfassende Beratung (fachlich, rechtlich, technisch):

Leistungsangebot:

  • Erstberatung inkl. Machbarkeitsaussagen
  • Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
  • KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

Ihre Anfrage

Oder Mail an ki@dr-dsgvo.de

Wer schreibt hier?
Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die IT Logic GmbH, berät Kunden und bietet Webseiten-Checks sowie optimierte & sichere KI-Lösungen an.
Bitte nutzen Sie bei Verwendung meiner Ergebnisse die Quellenangabe oder verlinken Sie gut wahrnehmbar auf diesen Artikel:
Einen Kurzlink oder eine Bestätigung für Ihre Quellenangabe erhalten Sie kurzfristig auf Anfrage. Ein Teilen oder Verteilen dieses Beitrags ist natürlich ohne weiteres möglich und gewünscht.

Kommentare von Lesern

Die Kommentare drücken die Meinungen der jeweiligen Kommentargeber aus
  1. Harald M. Müller

    Wie immer danke für den informativen Artikel.

    Den "Argumenten" zum (oder eigentlich: gegen das) Gendern will ich aber schon sehr widersprechen – das ist ein Sammelsurium von herausgepickten Effekten, die ich grade mal als einseitiges Brainstorming mit einer ziemlich fixen Idee dahinter akzeptieren kann. Auf die simplistische Idee, dass "die Mehrheit bestimmt", will ich gar nicht eingehen – das würde offensichtlich in praktisch allen Lebensbereichen zu einer sofortigen Katastrophe führen. Aber schon mein erster längerer Satz (ab 'Den "Argumenten" …') zeigt z.B., dass in ganz normaler deutscher Sprache Sonderzeichen – darunter auch Doppelpunkte – mitten im Satz problemlos verwendet werden können (in Texten des 19. Jh. ist das noch viel häufiger). Und das Verdecken von semantischen Merkmalen durch eine Oberflächenform vor mehreren grammatischen Formen ist in jeder Sprache gang und gäbe – im Deutschen reichen als Beispiele so häufige Worte wie "der" oder "sie" oder auch die Tatsache, dass die Deklinationsformen vieler Worte durch alle Kasus hindurch identisch sind ("[die] Palme, [der] Palme, [der] Palme, [die] Palme"), im Plural sogar ganz überwiegend. Dass Gendern, in welcher Form auch immer, hier mehr als "0.01% oder sowas" zur Komplexität der Sprache beiträgt, bezweifle ich zutiefst.

    Harald M. Müller

    • Dr. DSGVO

      Danke für die ausführliche Rückmeldung!
      Der Doppelpunkt kann oft als Satztrenner erkannt werden, weil beispielsweise danach ein HTML-Markup folgt, das einen neuen Satz erkennen lässt, oder weil ein Großbuchstabe folgt. Diese Aufgabe musste und muss ich oft und für viele Texte lösen/programmieren, weil für Verfahren wie RAG einzelne und sauber getrennte Sätze von großem Vorteil sind. Import-Programme funktionieren grundsätzlich besser, wenn die Eingabedaten sauber sind.

      Dass "tolle" KI-Modelle oft falsch antworten, hatte ich mehrfach in diesem Blog beschrieben und mit Beispielen belegt. Die Falschaussagen kommen u.a. durch schlechte Eingabedaten zustande.

      Letztendlich geht es um Wahrscheinlichkeiten. Aber der Effekt ist sicher größer als 0,01%, wie meine Erfahrung zeigt. Eine Antwort ist oft entweder falsch oder richtig. Ein bisschen falsch ist falsch.

      Was ist 100 minus 1?
      Die Antwort 99,01 liegt auch nur um 0,01 daneben (hier nicht Prozent, aber bei Bedarf kann das Beispiel so konstruiert werden).

      Anderes Beispiel: Was sind Cookies? Falsch: Cookies sind kleine Datensätze. Das Wort "klein" macht die Aussage falsch. Bei vielen Trainingsdaten, die alternative Fakten enthalten, werden diese zur Wahrheit gemacht. Hier geht es nicht um 80% Abweichung, sondern um kleine Werte.

      Beim Verlust des Kasus durch Doppelgenderung (ein:e Mitarbeiter:in) wird es dann noch unschärfer.

      Die Aussage mit der Mehrheitsmeinung ist sicher kein vollwertiges Argument, zeigt aber, dass viele die lange bewährte Sprache besser finden als neue Ansätze.

      Wer gendern will, kann das gerne tun, solange die Erwartungen an KI-Modelle dann nicht zu hoch sind. Gilt übrigens auch für alle anderen. Gerade habe ich gelesen: Bei einer KI verlangen nicht Menschen Perfektion, bei einem anderen Menschen nicht.

  2. Anonym

    Welche Bedeutung hat die Abkürzung RAG?

    • Dr. DSGVO

      RAG steht für Retrieval Augmented Generation.
      Die idee ist, ein KI Modell zu einem bestimmten Kontext zu befragen und nicht auf den allgemeinen Wissensschatz des Sprachmodells zu vertrauen, der oft Falschaussagen enthält, nicht aktuell ist oder keine spezifischen Informationen eines Unternehmens enthält.

      Der Kontext sind hier Textpassagen. Diese Textpassagen werden zuerst mit einer KI-Suche (Vektorsuchmaschine) ermittelt und dann, zusammen mit der Frage an ein KI-Sprachmodell, an die KI gegeben. Die KI antwortet dann unter Zugriff auf das Wissen, das in den gegebenen Textpassagen verankert ist.

      Das reduziert Halluzinationen und vergrößert das spezifische Faktenwissen der KI.

  3. D.

    ((Ent)Gendere doch mal selber. Z. B. "ein Verfechter" = "Verfechter" (Plural). Das ist billig und sprachlich besser. Noch ganz ohne Sternchenstolpern.)

    Gute Beispiele, mit welchen zusätzlichen sprachlichen Schwierigkeiten die… (schreib ich gern in Anführungszeichen, bis sie es ohne verdient hat) "KI"beim Lernen zu kämpfen hat.

    Dazu kommen noch die Zusammenhänge, die Aussagequalität des Materials (Detailgrad, Verwendbarkeit, Kompetenz), der zetliche Wahrheitsstand (kann sich ändern) und die beabsichtigten Ziele (wenn mit der Erstellung überhaupt etwas beabsichtigt war, Unwahres verbreitet werden sollte, oder Ironie im Spiel ist).

    D., der sowohl das Zustandekommen der Muster als auch die Verwendbarkeit der Ergebnisse kritisch sieht. Von den ungebremsten Versprechungen bzw. Erwartungen an "KI" ganz zu schweigen.

    • Dr. DSGVO

      Danke für die Rückmeldung!

      Zum Wahrheitsstand (u.ä.) eines KI-Modells: Der ist nicht ganz so wichtig wie die Grammatik, wenn man Techniken wie RAG oder Fine-tuning nutzt.

      "Ein Verfechter" ist nicht gegendert, sondern seit vielen Jahrzehnten Sprachgebrauch, als es das Wort "gendern" noch gar nicht gab.

      • D.

        Stimmt, Verfechterinnen sind noch gar nicht so lang vorstellbar. Früher(TM), als Verfechterinnen noch komische Hüte trugen und das Verfechten erst mit obligatorischen Regenschirmen üben mussten.

        D., der nicht mit diesem Thema angefangen hat…

Schreiben Sie einen Kommentar

Ihre Mail-Adresse wird nicht veröffentlicht.

Google Bard: Datenleck offenbart persönliche Chats