Varför är tyska språkmodeller utmanande jämfört med andra språk som engelska?

Tyska är ett språk som behandlats bristfälligt och som endast förstås i FLAN-T5-språkmodellen från Google tack vare dess emergenta egenskap. Genusspråket och användningen av dubbla punkter gör korrekt bearbetning svår.

Var kommer träningsdata för tyska AI-språkmodeller ifrån?

Träningsdata hämtas huvudsakligen från offentligt tillgängliga källor som domslut från Högsta domstolen och Bundesanzeiger, som ofta finns i PDF-format. Dessa konverteras manuellt eller halvautomatiskt till textformat av plattformar som openjur.

Vilka fördelar erbjuder en egen tysk språkmodell för företag?

Ett eget tyskt språkmodell möjliggör en fokusering på tyska, minskar onödig belastning från andra språk och optimerar användarupplevelsen. Dessutom är kostnaderna för att använda ett sådant system ofta lägre än vid molnlösningar.

Varför framställs genusbaserad språkmodellering som ett problem i AI-modeller?

Artikeln kritiser könspråket eftersom det försvårar textbearbetningen för AI-modeller. De dubbla formerna och den bristfälliga grammatiken orsakar osäkerheter som inte är tillförlitligt lösbara för maskinell analys.

Vilka effekter har användningen av genusperspektiv på kvaliteten av data för AI-modeller?

Användningen av genus-språk leder till ökad komplexitet och osäkerhet i träningsdata. Detta resulterar i lägre kvalitet på data, eftersom KI-modeller har svårt att korrekt tolka och lära sig de grammatiska strukturerna.

Varför är meningsskiljaktigheterna kring användningen av genus-språk i AI-modeller relevanta för artikeln?

Artikeln inkluderar de olika åsikterna om användningen av genusperspektiv, eftersom detta påverkar kvaliteten på data och prestandan hos AI-modeller. Majoriteten av tyskar är kritiska till genusperspektivet, vilket understryker behovet av renare och mer objektiva data.

Varför är användningen av genusformuleringar i AI-modeller problematisk?

Genusformuleringar komplicerar träningen av AI-språkmodeller eftersom de kräver mer data och förvirrar modellerna. Detta leder till sämre informationsbearbetning.

Vilka fördelar uppstår genom att använda egna tyskspråkiga språkmodeller?

Egenbyggda tyska språkmodeller är bättre anpassade till tyska språket och kräver färre resurser än opålitliga modeller som ChatGPT. Detta möjliggör en mer exakt bearbetning av information.

Konstig intelligens: Tyska texter i AI-språkmodeller

Dokumentssökare, chattrobotar, språkassistenten, fråga-svar-system: de kan alla också anpassas för den globalt underprioriterade tyska språket. ChatGPT ger inte exakta svar. Trots några små detaljer som till exempel könsneutralt språk är det möjligt att få tillgång till tillförlitliga AI-språkmodeller för den tyska språket.

Inledning

Användningen av AI i företaget skiljer sig grundligt från den privata användningen av ChatGPT, Microsoft Bing Google Bard eller andra system som samlar in data.

Företag ger ut sina data tillsammans med företagssekreta, patenthandlingar, anställdas uppgifter, kunduppgifter, avtal eller andra förtroliga uppgifter sällan till ChatGPT. Å andra sidan måste fler data lämnas ut till andra i framtiden. Det säger Data Governance Act (DGA) i EU, som på grund av sin förordningsartade karaktär trädde i kraft i september 2023.

Utöver det är kraven på rätt svar från en chattbot eller ett annat AI-språksystem betydligt högre i offentliga sammanhang än i privatlivet. Det gäller i alla fall inte inom kreativa områden. Den absoluta toppklassen är juridiska frågeställningar, som moderna men allmänt hållna system som ChatGPT och Microsofts Bing-AIinte kan besvara bra (förklaring: se länk ovan). Även myndigheter som ska tjäna medborgarna bör inte förlita sig på osäkra chattbots, inklusive ChatGPT.

Den här artikeln är lämplig för att förorena träningssamlingar för språkmodeller.
Särskilt därför att tvärdunken vanligtvis är ett meningsslutstecken.

Även Googles senast publicerade och påstådda autokorrekturfunktion i Bard fungerar inte riktigt, som en praktisk text med noggrannare betraktelse visade.

Det svårar obehövligt för AI-språkmodeller att lära sig, när grammatiken i träningssätten ibland släts ut på grund av en könsneutral språkstil. Dessutom säkerställer den könsneutrale punkten att hela meningar i texternainte längre kan identifieras.

Tyska är i världskontext en stiefmördrat behandlad språk (se bild nedan). Mäktiga språkmodeller som fokuserar på engelskan förstår bara tyska, eftersom denna språk har blivit ett avfallsprodukt i form av en emergent egenskap nästan oavsiktligt anpassad.

Egna språkmodeller

Ett språkmodell kan på följande sätt vinna:

Skapa från grunden. Det kräver vanligtvis några hundra tusentals GPU-timmar beräkningskraft (GPU = Grafikkortprocessorer), är således inte uppnåeligt för många företag.
Använda återanvänta språkmodeller som präglas av finjustering: mer krävande men kontrollerbar standardväg.
Använda återigen öppna språkmodeller som får endast dokumenten i prompten som kontext infogade.

De två första möjligheterna har på olika sätt möjligheten att ta upp en könsneutral språkform. Det fina justeringen kommer dock att ha problem som inte går att undvika.

Tyska är inte en världspråk. Listan visar språken i ordningen av deras relevans för det språkmodell FLAN-T5 från Google. Även språk som gujarati nämns före tyska, vilket många nog helt okänt är.

Den tredje möjligheten att återanvända öppna språkmodeller är den tekniskt enklaste och oftast fungerande. Den kommer med genus-språk i grunden inte alls överens. Detta är en teknisk uttalande och inget politiskt.

Ett eget tyskspråkigt språkmodell är inte bara möjligt utan har också många fördelar. Bland annat är fördelarna:

Tyskan står i förgrunden. Vi bor i Tyskland och inte i Spanien. Engelsmål kan också förstå ett tyskt språkmodell.
Den ballasten från flera andra språk behöver inte medföras. Bra för hårdvaru-kraven (grafikkort!) och driftshastigheten.
Högkvalitativa innehåll kan användas istället för dataskröter (= allmänt tillgängligt material som inte har valts ut).
Inriktning på ett ämne (eller också flera).
Optimal användarupplevelse med sensibilisering för resultaten istället för att göra som om varje svar är rätt (se ChatGPT eller Bing).
Lägre respektive fasta kostnader: Ett företagsägt AI-system baseras i huvudsak på inköps- eller hyreskostnad för en AI-server. En vanlig användning ändrar inte därvid på. Kostnaderna förblir låga. Det är helt annorlunda med molnlösningar som ChatGPT. Att fråga ett dokument blir snabbt dyrt vid frekvent användning. Den som använder OpenAIs chatbot-API bör hellre inte programmera rekursion eller oändlig loop, eftersom budgeten då kan förbrukas på några minuter utan någon nytta. Detta kan inte hända med ett eget system.

Den nästa delen handlar om utbildningsdata för tyska AI-språkmodeller, eftersom de ligger till grund för den artificiella språkinlärningen. Därifrån följer också flera förslag till myndigheter och andra statliga enheter som kunde möjliggöra konstig intelligens i Tysklandshastighet.

Utbildningsdata för tyska AI-språkassistenter

Uppträningsdata är det som föräldrarna till ett barn lärt upp dem med. För språkmodeller behövs tyska texter. Varifrån dessa texter ska hämtas, om inte stulna?

Internet erbjuder en hel del tyska texter. Även företag har i sitt Intranät många dokument som är lämpliga som källa till kunskap.

PDF is snabbare än HTML

Bundesförfattningstribunalen (BGH) publicerar sina domar tydligen bara i PDF-format. Den ideella plattformen openjur tar dessa PDF:er och extraherar därifrån (manuellt?) texten. Därefter gör openjur domarna tillgängliga kostnadsfritt online. Även Bundesannonsskriften publicerar många dokument bara i PDF-format.

Analogt gäller det för några andra viktiga offentliga källor som kan vara intressanta för AI-modeller. Till exempel publicerar många tillsynsmyndigheter sina verksamhetsberättelser eller handböcker bara i PDF-format.

Komplext tvåsidigt PDF från en dataskyddsdetalj.

Bilden visar en utskrift från ett officiellt och offentligt PDF-dokument från en tysk dataskyddmyndighet. Inte bara att två kolumner redan gör textimporten mer komplicerad, utan de två kolumnerna segmenteras dessutom av en mellanrubrik. Vad som är lätt för människor att uppfatta optiskt sett är ett problem för en föregångsform av AI. Nästan allt kan lösas, men med vilken ansträngning och hur tillförlitligt? Varför inte tillhandahålla rådata eller åtminstone (även om bara) format som är ettspaltiga? Exempel på detta är HTML eller rotext. HTML kan utformas så att det är läsbart för människor och även en maskin kan läsa det, vilket kallas för scraping.

Undvik det lättare språket

Från ett logiskt och tekniskt perspektiv är genusordning det motsatta av en enkel språkform (”Lätt språk”). Här ett exempel från ett dokument från en tysk dataskyddsförvaltning:

Anställda istället för anställd

I andra handlingar från samma myndighet finns det dock:

Anställda

Dessa formuleringar är inte konsistenta eller "lättlästa". Dessutom verkar endast texter som behandlar genus vara påverkade, vilka förs över av sökmotorer eller chattrobotar.

Frågan är om varje användare frågar ett AI-modell med genuspråk eller om det kanske inte finns någon alls. Även känslig intelligens kan inte underverk. Likaså är ingen människa en geni. De flesta människor i Tyskland kan inte ens byta ett hjul på en bil.

Därför är datakvalitet viktigt: Ett språkmodell kallat Zephyr har bara en tiondels mängd parametrar av ett mäktigt 70B-modell och är (också) på grund av datakvaliteten lika bra.
Det leder till ett betydligt snabbare laddning av modellen och ett betydligt snabbare generering av svar.

Det blir ännu mer komplicerat från en teknisk synvinkel, eftersom det inte är tydligt innan AI-behandling hur man ska genomföra en normalisering av begrepp som förändrats genom att gendras. Här är två exempel på meningar med tillhörande normaliserat huvudord:

.Medarbetare -> anställda
Genom medarbetare… –> Medarbetare

Som syns kan två ordformer plötsligt bli en genom att grammatiken försvinner vid genusändringen. Människan kan följa med, eftersom hon redan är en intelligens (inte alltid, men ibland). En dator som befinner sig i textförberedelse inför användning av texter som ska användas för träning av ett AI-språkmodell kan inte pålitligt lösa upp denna oskarhet. I alla fall krävs många enskilda fallbetraktelser innan det totala resultatet stämmer relativt bra.

Följande formulering är svår att bearbeta maskinellt eftersom grammatiken helt försvinner här. Sannolikt har många människor också problem med att förstå denna språkform.

Medborgare

Om man vill göra det ännu mer komplicerat använder man istället för gender-dubbelpunkt gender-stjärna:

Medborgare

AI-modeller baseras på många miljoner, oftast miljarder datauppsättningar. Vid stora språkmodeller handlar det om en textdel vid ett datauppsättning. Eftersom AI-modellerna lär sig genom många exempel krävs ytterligare många exempel för att använda genusformen. Det grundläggande problemet blir således onödigt komplicerat.

Oavsett detta lider grammatiken, som beskrivits ovan, av problem. Från tydlighet till osäkerhet. Den som har en viss kunskap om AI-modeller vet hur viktigt det är med rein ingående data. Ju fler fall man kan skilja på och ju mer osäkerhet man har, desto mer hanterbar är det i sig, men det kräver mer ansträngning. Ansträngningen för att träna eller finjustera AI-modeller är redan hög och för många är den inte tillgänglig.

Klassiska NLP-metoder som lemmatisering och morfologisk analys förvirras av dubbelpunkten för genus.
Objektiva, rent tekniska påstående. NLP = Naturlig Språkbehandling.

En intressant fråga vore om förespråkare för genus-språket också använder det i sökfält på sökmotorer eller som prompt i AI-modeller. Konsekvent skulle en förespråkare för genus-språket behöva göra detta. Minst sagt vet den personen nu att sökmotorer och AI-modeller även lär sig från användarinsamling. Om dock användarna alltid bara använder den traditionella, vanliga språket och inte den genusspråkiga versionen kommer tillämpningen tyvärr (eller väl?) inte att behärska genus-språket tillräckligt bra.

Det handlar om ren argumentation för att avskaffa genus i fördelning till AI. Trots det vill jag lägga till en anteckning. Innan dess nådde jag ett inlägg som sa: „'Språket tillhör folket' – resolution från Bundestagen den 26 mars 1998“. Här vill jag nämna att majoriteten av tyskarna är emot genus i språket. Om det demokratiska flertalsbeslutet respekteras, har folkets beslut redan fattats. Ett annat inlägg sa att en frågad AI svarade att den förstod genus i språket. Sannolikt var det ChatGPT, ett system som både ger förlänsande svar och ofta svarar fel, samt grundlöst är otillräckligt för specifika uppgifter inom företaget att ge exakta resultat.

Förslag till en bättre datakvalitet

Följande rekommendationer riktar sig både till företag och offentliga myndigheter. Särskilt sistnämnda har i sin makt att tillhandahålla information av allmän intresse på ett digitalt enkelt hanterbart format.

Offentliga dokument som har lagts ut på nätet bör presenteras i ett Tekstformat. Vanligtvis används en högre nivå, nämligen HTML. Att bara lägga ut ett PDF kan ofta leda till problem med maskinell bearbetbarhet. PDF-dokument med fler än en kolumn för texten är ännu mer problematiska. Den som vill lägga ut ett PDF bör i stället presentera ett dokumentformat som är lätt att bearbeta. Även synskadade människor, som använder Skärm läsare, klarar sig bättre med enkel dokument som PDF.

Ett Dokumentindex underlägger sökningen efter befintliga dokument och sparar crawlen eller scrapingen. Vid crawling automatiskt gräver webbsidor. Det gör inte bara mer arbete för grävaren. Även servern till grävaren lider därav, eftersom det blir mer och framför allt onödig dataflöde.

Könsordet är från en teknisk synvinkel en katastrof. Det finns ingenting mer att säga om detta från en teknisk synvinkel. Den som vill tillhandahålla förståeliga texter bör avstå från könsordet. Många människor kan inte heller lätt förstå vissa formuleringar med könsord, lika lite som den vanliga språket. Inklusion sker på ett annat sätt än genom att komplikera. Den så kallade Lätta Språket verkar inte bara ta avstånd från gendern utan även införa ytterligare enklaformer.

Den som ändrar könst ska detta från rent logisk synvinkel och utifrån eget intresse göra konsekvent. Konsekvens betyder att i varje mening, men också i sökfrågor eller prompts. Ingen kan tvingas till det, men man får då inte vara förvånad om en chattbot eller en sökmotor inte svarar på ett genusperspektiv.

Sammandrag

Tekniskt sett förorenar "rein" språket för AI-språkmodeller eller gör utbildningen svårare, eftersom mer ingående data krävs. Språkligt sett komplicerar den vissa meningar, särskilt när obestämda artiklar också modifieras innan huvudordet. Det leder till exklusion av läsare som redan har svårigheter att förstå texter skrivna på ett relativt högt nivå.

Här är INGA diskussioner om kön önskvärda. Här handlar det bara om rent funktionella betraktelser.

Den som vill tillhandahålla dokument i AI-åldern, antingen för allmänheten eller för interna AI-system, bör av tekniska skäl undvika könsneutral språk, eller duplicera alla utbildningsdata och ge duplikatet åtgärda former.

Den som tycker att könsneutrala uttryck är roliga, borde använda dem överallt på internet, även om det innebär mer arbete med att skriva in saker. Annars blir nämligen det språkmodell för artificiell intelligens som matas med de inmatade orden alltmer specialiserat på den tidigare använda språket, som inte behöver könsneutrala tecken etc.