Hvorfor er tyske sprogmodeller udfordrende i forhold til andre sprog som engelsk?

Tysk er et sprog, der er blevet behandlet på en grov måde, og som kun forstås i FLAN-T5-sprogmodellen fra Google på grund af dens fremvoksende egenskab. Kønsspråket og brugen af kommaer gør den korrekte behandling vanskeligere.

Hvor stammer de træningsdata til tyske KI-sprogmodeller fra?

Træningsdataene udvindes primært fra offentligt tilgængelige kilder som domme fra Bundesgerichtshof og Bundesanzeiger, som ofte kun er tilgængelige i PDF-format. Disse konverteres manuelt eller halvt automatisk til tekstformat af platforme som openjur.

Hvilke fordele giver en egen tysk sprogmodel for virksomheder?

En egen tysk sprogmodel giver mulighed for at fokusere på tysk, reducerer unødvendig vægt fra andre sprog og optimerer brugeroplevelsen. Derudover er omkostningerne ved at bruge et sådant system ofte lavere end ved cloud-løsninger.

Hvorfor fremhæver artiklen kønnet i sprog i AI-modeller som et problem?

Artiklen kritiser kønssprog, da det komplicerer tekstbehandlingen for AI-modeller. De dobbelte ordformer og den manglende klare grammatik forårsager usikkerheder, som ikke er pålideligt løsbare i den maskinbaserede analyse.

Hvilke konsekvenser har brugen af kønsspecifik sprog for kvaliteten af data til KI-modeller?

Brugen af kønsspecifik sprog fører til øget kompleksitet og usikkerhed i træningsdataene. Dette resulterer i en lavere kvalitet af dataene, da KI-modeller har svært ved at fortolke og lære de grammatiske strukturer korrekt.

Hvorfor er uenigheden omkring brugen af kønsspecifik sprog i AI-modeller relevante for artiklen?

Artiklen tages auf die unterschiedlichen Meinungen über die Verwendung von geschlechtsneutraler Sprache, da diese die Qualität der Daten und die Leistungsfähigkeit von KI-Modellen beeinflusst. Die Mehrheit der Deutschen steht der geschlechtsspezifischen Sprache kritisch gegenüber, was die Notwendigkeit sauberer und objektiver Daten unterstreicht.

Hvorfor er brugen af kønsspecifikke formuleringer i AI-modeller problematisk?

Kønsspecifikke formuleringer komplicerer træningen af AI-sprogmodeller, da de kræver flere data og forvirrer modellerne. Dette fører til en dårligere behandling af information.

Hvilke fordele er der ved at bruge egne, tyske sprogmodeller?

Egenbyggede tyske sprogmodeller er bedre tilpasset tysk og kræver færre ressourcer end upålitelige modeller som ChatGPT. Dette muliggør en mere præcis behandling af information.

Kunstig intelligens: Tyske tekster i AI-sprogmodeller

Dokumentersøgemaskiner, chatbots, taleassistentes, spørgsmål-svar-systemer: De kan alle også tilpasses den globalt underordnede tyske sprog. ChatGPT giver ikke præcise svar. Troværdige AI-sprogsmodeller for det tyske sprog er muligt trods nogle små detaljer som kønsforskellen i sproget.

Indledning

Brugen af AI i virksomheden skiller sig fundamentalt fra den private brug af ChatGPT, Microsoft Bing, Google Bard eller andre systemer fra datakrævere.

Virksomheder giver deres data sammen med handelsgehemmeligheder, patentbeskyttede skriftlige dokumenter, ansattedata, kundedata, kontrakter eller andre fortrolige data sjældent til ChatGPT. Til gengæld skal flere data i fremtiden tilganges af andre. Det siger Data Governance Act (DGA) i EU, der på grund af sin forordningsart blev trukket i kraft i september 2023.

Tilføjeligt er kravene til korrekte svar fra en chatbot eller et andet AI-sprogsystem meget højere end i det private område. Det gælder i hvert fald uden for den kreative sektor. Den kongelige klasse er juridiske spørgsmål, der ikke kan besvare af moderne, men allment holdte systemer som ChatGPT og Microsofts Bing-AI(Begrundelse: se link ovenover). Selv myndigheder, der søger at gøre tjeneste til borgere, skal ikke trække på usikre chatbots, herunder også ChatGPT.

Denne gender-dobbeltspidsning er egnet til at forurene træningsdata til sprogmodeller.
Særlig fordi det dobbelte punkt normalt er et sætningsslutpunkt.

Selv Googles nyligt udgivne og påståede selvkorrekturfunktion i Google Bard fungerer ikke rigtigt, som en praksistekst med nærmere eftersyn viste.

Det gør det sværere for AI-sprogmodeller, når grammatikken i træningsdata ofte bliver nedtonet på grund af en kønsbaseret sprogbrug. Desuden sikrer den kønsbaserede dobbeltpunkt, at hele sætninger i tekster ikke længere kan anerkendes.

Tysk er i verdensforhold en stiefmütterligt behandlet sprog (se billedet nedenfor). Magtfulde sprogmodeller, der fokuserer på engelsk, forstår kun tysk, fordi denne sprog er blevet til som et børn af emergente egenskaber næsten uden ønske.

Egne sprogmodeller

Et sprogmodel kan opnås på følgende måder:

Oprindelig på grundlag. Dette kræver normalt en halv million GPU-timer (GPU = Grafikprocesseur), og er derfor ikke tilgængeligt for mange virksomheder.
Brug åbne sprogmodeller, der præges af fine-tuning: mere krævende, men under kontrol højere standard.
Brug åbne sprogmodeller på nytt, der kun får dokumenter fra prompten som kontekst indføjet.

De første to muligheder har på forskellig vis mulighed for at tage imod en kønsforsknings-sprog. Det fine-tuning vil dog have problemer med, der ikke kan fjernes fuldstændigt.

Tysk er ikke en verdenssprog. Listen viser sproget i deres relevans for Google's sprogmodel FLAN-T5. Før tysk nævnes selv sprog som Gujarati, der må være ganske ukendte mange steder.

Den tredje mulighed for at bruge åbne sprogmodeller igen, er den teknisk mest enkle og ofte fungerende. Den kommer med kønsord i grundlæggende ikke til rette. Dette er en teknisk udtalelse og ikke en politisk.

Et eget tysk sprogmodel er ikke kun muligt, men har også mange fordele. Bl.a. er de fordele:

Tysk sprog står i forgrunden. Vi bor i Tyskland og ikke i Spanien. Engelske ord kan også en tysk sprogsmodel forstå.
Der ballast fra flere andre sprog behøves ikke medbragt. Godt for hardware-anvendelserne (grafikkort!) og den Driftshastighed.
Højkvalitetsindhold kan anvendes i stedet for dataskrot (= almindelig tilgængeligt materiale, der ikke er blevet udvalgt).
Fokusering på et fagområde (eller også flere).
Optimal brugeroplevelse med sensibilisering for resultater i stedet for at gøre, som om hver enkelt svar er korrekt (se ChatGPT eller Bing).
Lavere eller faste omkostninger: Et selvstændigt AI-system baserer sig i hovedsagen på købs- eller lejemånedlige udgifter til en AI-server. En hyppig brug ændrer ikke heri noget. Omkostningerne bliver lige så lavt. Det er anderledes med Cloud-løsninger som ChatGPT. At spørge et dokument bliver hurtigt dyr ved hyppigere brug. Den, der bruger OpenAIs chatbot-API, bør hellere ikke indprogrammere rekursion eller endeløse løkker, da det ellers kan føre til at budgettet er brugt op i minutter uden nogen fordel. Det kan ikke ske med et eget system.

Den næste afsnit behandler træningsdata til tyske AI-sprogmodeller, fordi disse lægger grundlaget for kunstig intelligens. Derved følger også flere forespørgsler til myndigheder og andre statslige institutioner, der kunne gøre det muligt at have kunstig intelligens i Tysk hastighed.

Træningsdata til tyske AI-sprogassistenter

Udannelsesdata er det, hvad en barns opdragelse af sine forældre svarer til. For sprogmodeller kræves tyske tekster. Hvor disse tekster skal komme fra, hvis ikke stjæle?

Internettet tilbyder en hel masse tyske tekster. Særligt virksomheder har i deres Internettet mange dokumenter, som er egnet som Quell des Wissens.

PDF i stedet for HTML

Den føderale højesteret (BGH) offentliggør sine domme tydeligvis kun i PDF-form. Den ikke-kommersielle platform openjur tager disse PDFs og udtrækker derfra (manuelt?) tekst. Efterfølgende gør openjur dommene tilgængelige online uden omkostninger. Æven Bundesanzeiger offentliggør mange dokumenter kun i PDF-form.

Analogt opfører det sig med nogle andre vigtige offentlige kilder, der kan være interessante for AI-modeller. Fx udgiver mange tilsynsmyndigheder kun deres årsrapporter eller vejledninger i PDF-form.

Komplekset dobbeltspændende PDF fra en dataskyddsmyndighed.

Billedet viser en udskrift af et officielt og offentligt PDF-dokument fra en tysk dataskyddsmyndighed. Det er ikke kun, at to spalter gør tekstimporten mere kompleks. De to spalter bliver desuden adskilt af en mellemoverskrift. For mennesket er det optisk let tilgængeligt, men for en første fase af AI er det et problem. Det meste kan løses, men med hvilken omfang og hvor tillidsværdigt? Hvorfor ikke tilbyde brødkilder eller i det mindste (også eller kun) format, der er ensbanelig? Eksempler på dette er HTML eller roh tekst. HTML kan være udformet som en hjemmeside, der både er let at læse for mennesker og maskiner, hvilket kaldes scraping.

Undgå den modsatte af let sprog

Fra rent logisk og teknisk synspunkt er gendring det modsatte af en enkel sprogform („Lyspros“). Her et eksempel fra et dokument fra en tysk dataskyddsmyndighed:

Medarbejdere" i stedet for "medarbejder

I andre dokumenter fra samme myndighed finder man imidlertid:

Medarbejdere

Dette formulering er hverken konsistent eller "let". Derudover synes kun tekster omkring kønsforskellige sprog at være påvirket, der leveredes af søgemaskiner eller chatbots som udgangspunkt.

Spørgsmålet er, om hver enkelt bruger spørger et AI-model med kønsfærdig sprog eller hvis det overhovedet ikke er nogen. Selv kunstig intelligens kan ikke gøre mirakler. Lige så lidt som hver enkelt menneske er en geni. De fleste mennesker i Tyskland kan heller ikke skifte et hjul på en bil.

Derved er datakvalitet vigtig: Et sprogmodel kaldet Zephyr har kun en tiendedel af parametrene i et stærkt 70B-model og er (også) på grund af datakvaliteten lige godt.
Det medfører en væsentligt hurtigere ladning af modellen og en betydeligt hurtigere fremstilling af svar.

Det bliver endnu mere komplekser fra en teknisk synsvinkel, fordi før AI-behandling er det ikke klart, hvordan en normalisering af ord, der blev forvansket ved kønsskift, skal foregå. Her to eksempelsetninger med tilhørende normaliseret hovedord:

.Medarbejdere: … -> Medarbejder
ved medarbejdere: … – >> medarbejder

Som man kan se, bliver der fra to ordformer pludselig en, når grammatikken gøres ukendelig ved kønsvæsning. Mennesket kan følge med her, fordi det allerede er en intelligens (ikke altid, men af og til). En computer, der befinder sig i den forudgående behandling af tekster, som skal bruges til træningen af et AI-sprogmodel, kan ikke pålideligt løse denne uskarphed. I hvert fald kræver det mange enkelte tilfældige overvejelser, før det samlede resultat er i høj grad passende.

Følgende formulering er svær at behandle maskinelt, fordi grammatikken her helt bliver til grin. Sandsynligvis har mange mennesker også problemer med at forstå denne sprogform.

Mit medborgere

Hvis det endnu er mere kompliceret, bruger man i stedet for gender-dobbeltpletten gender-stjernen:

Medborgere

AI-modeller baserer sig på mange millioner, ofte meninger, men i højeste fald milliarder dataindgange. Ved store sprogmodeller handler en dataindgang om et tekststykke. Da AI-modeller lærer af mange eksempler, kræver brugen af kønsneutral sprog flere eksempler end nødvendigt. Problemet bliver dermed ubehovligt forvanslet.

Uafhængigt af det lider, som beskrevet ovenfor, grammatikken. Fra skarp til uskarp. Den, der har en vis forståelse af AI-modeller, ved, hvor vigtig saubere Eingabedaten er. Mere falludskillelse og mere uskarphed er i sig selv beherskelig, men kræver dog flere anstrengelser. Opgangen til at træne eller finejustere AI-modeller er allerede meget høj og for mange næsten umulig.

Selv klassiske NLP-metoder som lemmatisering og stammeord dannelse bliver forvirret af gender-dobbeltpunktet.
Objektiv, ren teknisk konklusion. NLP = Naturlig Sprogbehandling.

En interessant spørgsmål ville være, om tilhængere af kønsneutral sprog også bruger det i søgefelter på søgeresorger eller som prompt i AI-modeller. Konsekvent skulle en tilhænger af kønsneutral sprog gøre dette. Spædesten nu ved den person eller de personer, at søgeresorger og AI-modeller også lærer ud fra brugerindgange. Hvis brugere dog altid kun bruger den almindelige, velkendte sprogform og ikke kønsneutralt sprog, så vil anvægningen desværre (eller heldigvis?) ikke være tilstrækkeligt god til at beherske kønsneutral sprog.

Det drejer sig om ren argumentation for at afskaffe kønsordet til fordel for AI. Dog en bemærkning. Jeg fik i forvejen et kommentar, der siger: „'Sproget tilhører folket' – Bundestagsresolution fra 26.3.1998“. Her til skal nævnes, at den tyske befolkning er imod kønsordet. Såfremt det demokratiske flertal respekteres, så er folkeafstemningen faldet med. En anden kommentar sagde, at en spurgt AI svarede, at den forstod kønsordet. Sandsynligvis var det ChatGPT, et system, der både giver fleksible svar og ofte giver forkerte svar, og i øvrigt er grundløget ugunstigt til at give præcise resultater for specifikke opgaver i virksomheden.

Forslag til bedre datakvalitet

Følgende anbefalinger er rettet både til virksomheder og offentlige myndigheder. I særdeleshed sidstnævnte har muligheden for at tilbyde informationer af almindelig interesse i et digitalt format, der kan behandles let.

Offentlige dokumenter skal være tilgængelige i en Rohtextformat. Som regel bruges en højere niveau, nemlig HTML. Kun at tilbyde et PDF kan ofte føre til problemer med automatisk behandling. PDF'er med flere spalter for tekstfløden er endnu mere problematiske. Hvis man ønsker at tilbyde et PDF, bør man i stedet tilbyde en let behandlet dokumentformat. Selv blinde mennesker, der vil eller skal bruge en Skærmbreveleser, kommer bedre tilpas med simple dokumenter som PDF.

Et Dokumentindeks gør det nemmere at finde eksisterende dokumenter og spar tid ved ikke at skulle kradse eller scrape. Ved at kradse bliver websteder automatisk "abgraset". Det gør det ikke kun sværere for abgraserne, men også serveren på de websider der bliver kradset bliver ramt, da der kommer mere og især uønsket trafik.

Kønsordningen er fra en teknisk synsvinkel en katastrofe. Der er ikke meget mere at sige om dette fra en teknisk synspunkt. Hvis man ønsker at tilby forståelige tekster, bør man nøjes med at bruge kønsløse former. Mange mennesker kan heller ikke let forstå nogle af de kønsformer, der anvendes. Inklusion sker anderledes end ved at komplikere sproget. Den såkaldte Lysprosa synes ikke kun at være fjernet fra kønsløsning, men også at føre til yderligere enkeltheder.

Den der ændrer, skal gøre det fra nu af ud fra ren logik og selvinteresse konsekvent. Konsekvent betyder, at man gør det i hver sætning, men også i søgeresultater eller prompts. Ingen kan tvinges til det, men hvis man så ikke forstår, hvorfor en chatbot eller en søgemaskine ikke svarer på gender-sprog, er det ikke noget andet end selvindsat.

Konklusion

Teknisk set forurener Gender-sproget træningsdata til AI-sprogmodeller eller gør træningen sværere, fordi der kræves flere indgangsdata. Sprogligt set komplicerer den nogle sætninger, især hvis uspecifikke artikler også skal gengives før hovedordet. Det resulterer i eksklusion af læsere, som allerede har problemer med at forstå tekster skrevet på et niveau over øl-niveau.

Her er INGEN diskussion om køn ønsket. Her går det ud på ren funktionel beskrivelse.

Den, som ønsker at tilby dokumenter i AI-tiden, enten for offentligheden eller interne AI-systemer, bør fra tekniske årsager glemme kønsforskellen, eller duplikere alle træningsdata og indsætte duplikater med kønnet modificerede former.

Den der finder kønsordet meget godt, skal bruge det overalt på internettet, selv om det så kræver mere at skrive. For ellers bliver det afbrugte AI-sprogmodel altid bedre til den tidligere brugte sprogform, som uden kønssymbolet kan klare sig.