Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Kunstig intelligens: Tyske tekster i AI-sprogmodeller

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Artikel som PDF (kun for abonnenter på nyhedsbrevet)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Dokumentersøgemaskiner, chatbots, taleassistentes, spørgsmål-svar-systemer: De kan alle også tilpasses den globalt underordnede tyske sprog. ChatGPT giver ikke præcise svar. Troværdige AI-sprogsmodeller for det tyske sprog er muligt trods nogle små detaljer som kønsforskellen i sproget.

Indledning

Brugen af AI i virksomheden skiller sig fundamentalt fra den private brug af ChatGPT, Microsoft Bing, Google Bard eller andre systemer fra datakrævere.

Virksomheder giver deres data sammen med handelsgehemmeligheder, patentbeskyttede skriftlige dokumenter, ansattedata, kundedata, kontrakter eller andre fortrolige data sjældent til ChatGPT. Til gengæld skal flere data i fremtiden tilganges af andre. Det siger Data Governance Act (DGA) i EU, der på grund af sin forordningsart blev trukket i kraft i september 2023.

Tilføjeligt er kravene til korrekte svar fra en chatbot eller et andet AI-sprogsystem meget højere end i det private område. Det gælder i hvert fald uden for den kreative sektor. Den kongelige klasse er juridiske spørgsmål, der ikke kan besvare af moderne, men allment holdte systemer som ChatGPT og Microsofts Bing-AI(Begrundelse: se link ovenover). Selv myndigheder, der søger at gøre tjeneste til borgere, skal ikke trække på usikre chatbots, herunder også ChatGPT.

Denne gender-dobbeltspidsning er egnet til at forurene træningsdata til sprogmodeller.

Særlig fordi det dobbelte punkt normalt er et sætningsslutpunkt.

Selv Googles nyligt udgivne og påståede selvkorrekturfunktion i Google Bard fungerer ikke rigtigt, som en praksistekst med nærmere eftersyn viste.

Det gør det sværere for AI-sprogmodeller, når grammatikken i træningsdata ofte bliver nedtonet på grund af en kønsbaseret sprogbrug. Desuden sikrer den kønsbaserede dobbeltpunkt, at hele sætninger i tekster ikke længere kan anerkendes.

Tysk er i verdensforhold en stiefmütterligt behandlet sprog (se billedet nedenfor). Magtfulde sprogmodeller, der fokuserer på engelsk, forstår kun tysk, fordi denne sprog er blevet til som et børn af emergente egenskaber næsten uden ønske.

Egne sprogmodeller

Et sprogmodel kan opnås på følgende måder:

  • Oprindelig på grundlag. Dette kræver normalt en halv million GPU-timer (GPU = Grafikprocesseur), og er derfor ikke tilgængeligt for mange virksomheder.
  • Brug åbne sprogmodeller, der præges af fine-tuning: mere krævende, men under kontrol højere standard.
  • Brug åbne sprogmodeller på nytt, der kun får dokumenter fra prompten som kontekst indføjet.

De første to muligheder har på forskellig vis mulighed for at tage imod en kønsforsknings-sprog. Det fine-tuning vil dog have problemer med, der ikke kan fjernes fuldstændigt.

Tysk er ikke en verdenssprog. Listen viser sproget i deres relevans for Google's sprogmodel FLAN-T5. Før tysk nævnes selv sprog som Gujarati, der må være ganske ukendte mange steder.

Den tredje mulighed for at bruge åbne sprogmodeller igen, er den teknisk mest enkle og ofte fungerende. Den kommer med kønsord i grundlæggende ikke til rette. Dette er en teknisk udtalelse og ikke en politisk.

Et eget tysk sprogmodel er ikke kun muligt, men har også mange fordele. Bl.a. er de fordele:

  • Tysk sprog står i forgrunden. Vi bor i Tyskland og ikke i Spanien. Engelske ord kan også en tysk sprogsmodel forstå.
  • Der ballast fra flere andre sprog behøves ikke medbragt. Godt for hardware-anvendelserne (grafikkort!) og den Driftshastighed.
  • Højkvalitetsindhold kan anvendes i stedet for dataskrot (= almindelig tilgængeligt materiale, der ikke er blevet udvalgt).
  • Fokusering på et fagområde (eller også flere).
  • Optimal brugeroplevelse med sensibilisering for resultater i stedet for at gøre, som om hver enkelt svar er korrekt (se ChatGPT eller Bing).
  • Lavere eller faste omkostninger: Et selvstændigt AI-system baserer sig i hovedsagen på købs- eller lejemånedlige udgifter til en AI-server. En hyppig brug ændrer ikke heri noget. Omkostningerne bliver lige så lavt. Det er anderledes med Cloud-løsninger som ChatGPT. At spørge et dokument bliver hurtigt dyr ved hyppigere brug. Den, der bruger OpenAIs chatbot-API, bør hellere ikke indprogrammere rekursion eller endeløse løkker, da det ellers kan føre til at budgettet er brugt op i minutter uden nogen fordel. Det kan ikke ske med et eget system.

Den næste afsnit behandler træningsdata til tyske AI-sprogmodeller, fordi disse lægger grundlaget for kunstig intelligens. Derved følger også flere forespørgsler til myndigheder og andre statslige institutioner, der kunne gøre det muligt at have kunstig intelligens i Tysk hastighed.

Træningsdata til tyske AI-sprogassistenter

Udannelsesdata er det, hvad en barns opdragelse af sine forældre svarer til. For sprogmodeller kræves tyske tekster. Hvor disse tekster skal komme fra, hvis ikke stjæle?

Internettet tilbyder en hel masse tyske tekster. Særligt virksomheder har i deres Internettet mange dokumenter, som er egnet som Quell des Wissens.

PDF i stedet for HTML

Den føderale højesteret (BGH) offentliggør sine domme tydeligvis kun i PDF-form. Den ikke-kommersielle platform openjur tager disse PDFs og udtrækker derfra (manuelt?) tekst. Efterfølgende gør openjur dommene tilgængelige online uden omkostninger. Æven Bundesanzeiger offentliggør mange dokumenter kun i PDF-form.

Analogt opfører det sig med nogle andre vigtige offentlige kilder, der kan være interessante for AI-modeller. Fx udgiver mange tilsynsmyndigheder kun deres årsrapporter eller vejledninger i PDF-form.

Komplekset dobbeltspændende PDF fra en dataskyddsmyndighed.

Billedet viser en udskrift af et officielt og offentligt PDF-dokument fra en tysk dataskyddsmyndighed. Det er ikke kun, at to spalter gør tekstimporten mere kompleks. De to spalter bliver desuden adskilt af en mellemoverskrift. For mennesket er det optisk let tilgængeligt, men for en første fase af AI er det et problem. Det meste kan løses, men med hvilken omfang og hvor tillidsværdigt? Hvorfor ikke tilbyde brødkilder eller i det mindste (også eller kun) format, der er ensbanelig? Eksempler på dette er HTML eller roh tekst. HTML kan være udformet som en hjemmeside, der både er let at læse for mennesker og maskiner, hvilket kaldes scraping.

Undgå den modsatte af let sprog

Fra rent logisk og teknisk synspunkt er gendring det modsatte af en enkel sprogform („Lyspros“). Her et eksempel fra et dokument fra en tysk dataskyddsmyndighed:

  • Medarbejdere" i stedet for "medarbejder

I andre dokumenter fra samme myndighed finder man imidlertid:

  • Medarbejdere

Dette formulering er hverken konsistent eller "let". Derudover synes kun tekster omkring kønsforskellige sprog at være påvirket, der leveredes af søgemaskiner eller chatbots som udgangspunkt.

Spørgsmålet er, om hver enkelt bruger spørger et AI-model med kønsfærdig sprog eller hvis det overhovedet ikke er nogen. Selv kunstig intelligens kan ikke gøre mirakler. Lige så lidt som hver enkelt menneske er en geni. De fleste mennesker i Tyskland kan heller ikke skifte et hjul på en bil.

Derved er datakvalitet vigtig: Et sprogmodel kaldet Zephyr har kun en tiendedel af parametrene i et stærkt 70B-model og er (også) på grund af datakvaliteten lige godt.

Det medfører en væsentligt hurtigere ladning af modellen og en betydeligt hurtigere fremstilling af svar.

Det bliver endnu mere komplekser fra en teknisk synsvinkel, fordi før AI-behandling er det ikke klart, hvordan en normalisering af ord, der blev forvansket ved kønsskift, skal foregå. Her to eksempelsetninger med tilhørende normaliseret hovedord:

  • .Medarbejdere: … -> Medarbejder
  • ved medarbejdere: … – >> medarbejder

Som man kan se, bliver der fra to ordformer pludselig en, når grammatikken gøres ukendelig ved kønsvæsning. Mennesket kan følge med her, fordi det allerede er en intelligens (ikke altid, men af og til). En computer, der befinder sig i den forudgående behandling af tekster, som skal bruges til træningen af et AI-sprogmodel, kan ikke pålideligt løse denne uskarphed. I hvert fald kræver det mange enkelte tilfældige overvejelser, før det samlede resultat er i høj grad passende.

Følgende formulering er svær at behandle maskinelt, fordi grammatikken her helt bliver til grin. Sandsynligvis har mange mennesker også problemer med at forstå denne sprogform.

  • Mit medborgere

Hvis det endnu er mere kompliceret, bruger man i stedet for gender-dobbeltpletten gender-stjernen:

  • Medborgere

AI-modeller baserer sig på mange millioner, ofte meninger, men i højeste fald milliarder dataindgange. Ved store sprogmodeller handler en dataindgang om et tekststykke. Da AI-modeller lærer af mange eksempler, kræver brugen af kønsneutral sprog flere eksempler end nødvendigt. Problemet bliver dermed ubehovligt forvanslet.

Uafhængigt af det lider, som beskrevet ovenfor, grammatikken. Fra skarp til uskarp. Den, der har en vis forståelse af AI-modeller, ved, hvor vigtig saubere Eingabedaten er. Mere falludskillelse og mere uskarphed er i sig selv beherskelig, men kræver dog flere anstrengelser. Opgangen til at træne eller finejustere AI-modeller er allerede meget høj og for mange næsten umulig.

Selv klassiske NLP-metoder som lemmatisering og stammeord dannelse bliver forvirret af gender-dobbeltpunktet.

Objektiv, ren teknisk konklusion. NLP = Naturlig Sprogbehandling.

En interessant spørgsmål ville være, om tilhængere af kønsneutral sprog også bruger det i søgefelter på søgeresorger eller som prompt i AI-modeller. Konsekvent skulle en tilhænger af kønsneutral sprog gøre dette. Spædesten nu ved den person eller de personer, at søgeresorger og AI-modeller også lærer ud fra brugerindgange. Hvis brugere dog altid kun bruger den almindelige, velkendte sprogform og ikke kønsneutralt sprog, så vil anvægningen desværre (eller heldigvis?) ikke være tilstrækkeligt god til at beherske kønsneutral sprog.

Det drejer sig om ren argumentation for at afskaffe kønsordet til fordel for AI. Dog en bemærkning. Jeg fik i forvejen et kommentar, der siger: „'Sproget tilhører folket' – Bundestagsresolution fra 26.3.1998“. Her til skal nævnes, at den tyske befolkning er imod kønsordet. Såfremt det demokratiske flertal respekteres, så er folkeafstemningen faldet med. En anden kommentar sagde, at en spurgt AI svarede, at den forstod kønsordet. Sandsynligvis var det ChatGPT, et system, der både giver fleksible svar og ofte giver forkerte svar, og i øvrigt er grundløget ugunstigt til at give præcise resultater for specifikke opgaver i virksomheden.

Forslag til bedre datakvalitet

Følgende anbefalinger er rettet både til virksomheder og offentlige myndigheder. I særdeleshed sidstnævnte har muligheden for at tilbyde informationer af almindelig interesse i et digitalt format, der kan behandles let.

Offentlige dokumenter skal være tilgængelige i en Rohtextformat. Som regel bruges en højere niveau, nemlig HTML. Kun at tilbyde et PDF kan ofte føre til problemer med automatisk behandling. PDF'er med flere spalter for tekstfløden er endnu mere problematiske. Hvis man ønsker at tilbyde et PDF, bør man i stedet tilbyde en let behandlet dokumentformat. Selv blinde mennesker, der vil eller skal bruge en Skærmbreveleser, kommer bedre tilpas med simple dokumenter som PDF.

Et Dokumentindeks gør det nemmere at finde eksisterende dokumenter og spar tid ved ikke at skulle kradse eller scrape. Ved at kradse bliver websteder automatisk "abgraset". Det gør det ikke kun sværere for abgraserne, men også serveren på de websider der bliver kradset bliver ramt, da der kommer mere og især uønsket trafik.

Kønsordningen er fra en teknisk synsvinkel en katastrofe. Der er ikke meget mere at sige om dette fra en teknisk synspunkt. Hvis man ønsker at tilby forståelige tekster, bør man nøjes med at bruge kønsløse former. Mange mennesker kan heller ikke let forstå nogle af de kønsformer, der anvendes. Inklusion sker anderledes end ved at komplikere sproget. Den såkaldte Lysprosa synes ikke kun at være fjernet fra kønsløsning, men også at føre til yderligere enkeltheder.

Den der ændrer, skal gøre det fra nu af ud fra ren logik og selvinteresse konsekvent. Konsekvent betyder, at man gør det i hver sætning, men også i søgeresultater eller prompts. Ingen kan tvinges til det, men hvis man så ikke forstår, hvorfor en chatbot eller en søgemaskine ikke svarer på gender-sprog, er det ikke noget andet end selvindsat.

Konklusion

Teknisk set forurener Gender-sproget træningsdata til AI-sprogmodeller eller gør træningen sværere, fordi der kræves flere indgangsdata. Sprogligt set komplicerer den nogle sætninger, især hvis uspecifikke artikler også skal gengives før hovedordet. Det resulterer i eksklusion af læsere, som allerede har problemer med at forstå tekster skrevet på et niveau over øl-niveau.

Her er INGEN diskussion om køn ønsket. Her går det ud på ren funktionel beskrivelse.

Den, som ønsker at tilby dokumenter i AI-tiden, enten for offentligheden eller interne AI-systemer, bør fra tekniske årsager glemme kønsforskellen, eller duplikere alle træningsdata og indsætte duplikater med kønnet modificerede former.

Den der finder kønsordet meget godt, skal bruge det overalt på internettet, selv om det så kræver mere at skrive. For ellers bliver det afbrugte AI-sprogmodel altid bedre til den tidligere brugte sprogform, som uden kønssymbolet kan klare sig.

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Google Bard: Personlige chattygge åbenbarer