Waarom zijn Duitse taalmodellen in vergelijking met andere talen, zoals Engels, een uitdaging?

De Duitse taal wordt oppermachtig behandeld en wordt in het FLAN-T5 taalmodel van Google alleen begrepen vanwege zijn opkomende eigenschap. De geslachtstrouw en het gebruik van dubbele punten bemoeilijken de juiste verwerking.

Waar komen de trainingsdata voor Duitse AI-taalmodellen vandaan?

De trainingsdata worden voornamelijk geëxtraheerd uit openbaar toegankelijke bronnen zoals uitspraken van het Bundesgerichtshof en de Bundesanzeiger, die vaak alleen in PDF-formaat beschikbaar zijn. Deze worden door platforms zoals openjur handmatig of semi-automatisch omgezet in tekstvorm.

Wat zijn de voordelen van een eigen Duits taalmodel voor bedrijven?

Een eigen Duits taalmodel maakt het mogelijk om zich te concentreren op de Duitse taal, vermindert de overhead door andere talen en optimaliseert de gebruikerservaring. Bovendien zijn de kosten voor het gebruik van een dergelijk systeem vaak lager dan bij cloudoplossingen.

Waarom beschouwt de artikel gender-specifieke taal in AI-modellen als een probleem?

De artikel bekritiseert gendertexten, omdat dit de verwerking van teksten voor AI-modellen bemoeilijkt. De dubbele woordvormen en het ontbreken van duidelijke grammatica veroorzaken onzekerheden die niet betrouwbaar opgelost kunnen worden voor machinaal analyseren.

Wat zijn de gevolgen van het gebruik van gendergebruik in taal voor de kwaliteit van data voor AI-modellen?

Het gebruik van genderlinguïstiek leidt tot een verhoogde complexiteit en onzekerheid in de trainingsdata. Dit resulteert in een lagere kwaliteit van de data, omdat AI-modellen moeite hebben om de grammaticale structuren correct te interpreteren en te leren.

Waarom is het verschil van mening over het gebruik van gender-specifieke taal in AI-modellen relevant voor de tekst?

De artikel houdt rekening met de verschillende meningen over het gebruik van gendergebruik, aangezien dit de kwaliteit van de data en de prestaties van AI-modellen beïnvloedt. De meerderheid van de Duitsers staat kritisch tegenover gendergebruik, wat de noodzaak van schone en objectievere data onderstreept.

Waarom is het problematisch om genderformuleringen te gebruiken in AI-modellen?

Geslischterne formuleringen bemoeilijken de training van AI-taalmodellen, omdat ze meer data vereisen en de modellen verwarren. Dit leidt tot een slechtere verwerking van informatie.

Wat zijn de voordelen van het gebruik van eigen, Duitse taalmodellen?

Eigenlijk getrainde Duitse taalmodellen zijn beter afgestemd op de Duitse taal en vereisen minder resources dan onbetrouwbare modellen zoals ChatGPT. Dit maakt een nauwkeurigere verwerking van informatie mogelijk.

Kunstmatige intelligentie: Duitse teksten in AI-taalmodellen

Documentenzoekmachines, chatbots, spraakassistenten, vraag-antwoord-systemen: ze kunnen allemaal aangepast worden voor de wereldwijde ondergebrachte Duitse taal. ChatGPT geeft geen exacte antwoorden. Betrouwbare AI-spraakmodellen voor de Duitse taal zijn ondanks enkele kleine details zoals het geslachtswoord mogelijk.

Inleiding

De inzet van kunstmatige intelligentie (AI) binnen het bedrijf verschilt fundamenteel van de particuliere gebruik van ChatGPT, Microsoft Bing, Google Bard of andere systemen van datakraken.

Ondernemingen geven hun data samen met bedrijfsgeheimen, octrooien, medewerkerdata, klantendata, contracten of andere vertrouwelijke data vaak weinig graag door aan ChatGPT. Anderzijds moeten in de toekomst meer gegevens beschikbaar worden gesteld. Dat zegt de Data Governance Act (DGA) van de EU, die op grond van zijn verordeningkarakter in september 2023 in werking trad.

Daarnaast zijn de eisen aan juiste antwoorden van een chatbot of andere AI-taalprogramma's aanzienlijk hoger dan in het privé-gebied. Dit geldt in ieder geval buiten het creatieve domein. De topklasse bestaat uit juridische vraagstukken, die door moderne, maar algemeen gehouden systemen als ChatGPT en de Bing-AIvan Microsoft niet goed worden beantwoord (reden: zie link hieronder). Ook overheidsorganisaties die dienen aan het burgerschap, zouden niet moeten terugvallen op onbetrouwbare chatbots, waartoe ook ChatGPT behoort.

De gender-dubbeltspunt is geschikt om trainingsgegevens voor taalmodellen te besmetten.
Vooral omdat het puntkomma gewoon een zinsafsluitingsteken is.

Zelfs de zojuist gepubliceerde en beweerde autokorrektiefunctie van Google Bard werkt niet goed, zoals een praktische tekst met nauwkeurigere aandacht liet zien.

Onnodig wordt het voor AI-taalmodellen moeilijk, wanneer in trainingsgegevens de grammatica soms wordt verwatert vanwege een gendergerelateerde taal. Bovendien zorgt de genderdubbelpunt ervoor dat hele zinnen in teksten niet meer worden herkend.

Duits is op wereldschaal een stiefmütterlijk behandeld taal (zie afbeelding onder). Machtige taalmappen, die zich richten op het Engels, begrijpen alleen Duits omdat deze taal als bijproduct in de vorm van een emergente eigenschap quasi ongewild is overgenomen.

Voordelen van eigen taalmodellen

Een taalmodel kan op volgende manieren worden verkregen:

Grondig berekenen. Dit vereist doorgaans een paar honderd miljoen GPU-rekentijd (GPU = grafische kaartprocessor), is dus niet betaalbaar voor veel bedrijven.
Hergebruik open taalmodellen dat wordt gekenmerkt door fijn-tunen: een uitdagender maar beheersbaar standaardtraject.
Hergebruik openbare taalmodellen, die "alleen" in de prompt eigen documenten als context ingevoerd krijgen.

De eerste twee mogelijkheden hebben in verschillende vormen de mogelijkheid om een geslachtsgebonden taal op te nemen. Het fine-tunen zal echter problemen hebben die niet helemaal weggaan.

Duits is geen wereldtaal. De lijst toont de talen in volgorde van hun relevantie voor het taalomodel FLAN-T5 van Google. Voor Duits staan zelfs talen als Gujarati genoemd, die voor velen geheel onbekend zijn.

De derde mogelijkheid om open taalmodellen opnieuw te gebruiken, is de technisch eenvoudigste en vaak werkende. Ze komt met geslachtsneutral taal in principe helemaal niet uit. Dit is een technische uitspraak en geen politieke.

Een eigen Duits taalmodel is niet alleen mogelijk, maar heeft ook veel voordelen. Onder andere zijn de voordelen:

De Duitse taal staat centraal. Wij wonen in Duitsland en niet in Spanje. Engelstalige woorden kunnen ook een Duits taalomgang begrijpen.
De ballast van heel veel andere talen hoeft niet meegetrokken te worden. Goed voor de hardware-eisen (grafische kaart!) en de Bedrijfsnelheid.
Hoge kwaliteit inhoud kan worden gebruikt in plaats van afval (= algemeen beschikbaar materiaal dat niet is geselecteerd).
Concentratie op een vakgebied (of ook meerdere).
Optimale gebruikersbegeleiding met sensibilisering voor de resultaten, in plaats van alsof elke reactie correct is (zie ChatGPT of Bing).
Laagere of vaste kosten: Een bedrijfs-eigen AI-systeem is voornamelijk gebaseerd op aanschaffings- of huurkosten voor een AI-server. Veelvuldige gebruik verandert daar niets aan. De kosten blijven laag. Anders zijn cloud-oplossingen zoals ChatGPT. Het raadplegen van een document wordt bij veelvuldig gebruik snel duur. Wie de chatbot-API van OpenAI gebruikt, moet beter geen recursie of oneindige loop inprogrammeren, want anders is het budget binnen enkele minuten zonder nuttigheid uitgegeven. Dat kan bij een eigen systeem niet gebeuren.

De volgende sectie behandelt trainingsdata voor Duitse AI-taalmodellen, omdat deze de basis vormen voor kunstmatige spraakintelligentie. Hieruit volgen ook een aantal suggesties voor overheidsinstanties en andere overheidsorganisaties die kunstmatige intelligentie in Duits tempo zouden kunnen faciliteren.

Opleidingsgegevens voor Duitse AI-taalassistenten

Opleidingsgegevens zijn hetzelfde als wat ouders een kind bijbrengen. Voor taalmodellen zijn Duitse teksten nodig. Waar deze tekst vandaan komen, als niet gestolen?

Het internet biedt een hele hoop Nederlandse teksten. Ook bedrijven hebben in hun Internetsite veel documenten die als Quell des Wissens geschikt zijn.

PDF in plaats van HTML

De Hoge Raad (BGH) publiceert zijn uitspraken kennelijk alleen maar in pdf-vorm. De non-profit website openjur neemt deze pdf's en extrahert daaruit (handmatig?) de tekst. Vervolgens stelt openjur de uitspraken kosteloos online beschikbaar. Ook de Bondstijdschrift publiceert veel documenten alleen maar in pdf-vorm.

Analog gedraagt het zich met enkele andere belangrijke openbare bronnen, die voor AI-modellen interessant kunnen zijn. Bijvoorbeeld publiceren veel toezichthoudende instanties hun activiteitsrapporten of handleidingen alleen maar in PDF-vorm.