Documentenzoekmachines, chatbots, spraakassistenten, vraag-antwoord-systemen: ze kunnen allemaal aangepast worden voor de wereldwijde ondergebrachte Duitse taal. ChatGPT geeft geen exacte antwoorden. Betrouwbare AI-spraakmodellen voor de Duitse taal zijn ondanks enkele kleine details zoals het geslachtswoord mogelijk.
Inleiding
De inzet van kunstmatige intelligentie (AI) binnen het bedrijf verschilt fundamenteel van de particuliere gebruik van ChatGPT, Microsoft Bing, Google Bard of andere systemen van datakraken.
Ondernemingen geven hun data samen met bedrijfsgeheimen, octrooien, medewerkerdata, klantendata, contracten of andere vertrouwelijke data vaak weinig graag door aan ChatGPT. Anderzijds moeten in de toekomst meer gegevens beschikbaar worden gesteld. Dat zegt de Data Governance Act (DGA) van de EU, die op grond van zijn verordeningkarakter in september 2023 in werking trad.
Daarnaast zijn de eisen aan juiste antwoorden van een chatbot of andere AI-taalprogramma's aanzienlijk hoger dan in het privé-gebied. Dit geldt in ieder geval buiten het creatieve domein. De topklasse bestaat uit juridische vraagstukken, die door moderne, maar algemeen gehouden systemen als ChatGPT en de Bing-AIvan Microsoft niet goed worden beantwoord (reden: zie link hieronder). Ook overheidsorganisaties die dienen aan het burgerschap, zouden niet moeten terugvallen op onbetrouwbare chatbots, waartoe ook ChatGPT behoort.
De gender-dubbeltspunt is geschikt om trainingsgegevens voor taalmodellen te besmetten.
Vooral omdat het puntkomma gewoon een zinsafsluitingsteken is.
Zelfs de zojuist gepubliceerde en beweerde autokorrektiefunctie van Google Bard werkt niet goed, zoals een praktische tekst met nauwkeurigere aandacht liet zien.
Onnodig wordt het voor AI-taalmodellen moeilijk, wanneer in trainingsgegevens de grammatica soms wordt verwatert vanwege een gendergerelateerde taal. Bovendien zorgt de genderdubbelpunt ervoor dat hele zinnen in teksten niet meer worden herkend.
Duits is op wereldschaal een stiefmütterlijk behandeld taal (zie afbeelding onder). Machtige taalmappen, die zich richten op het Engels, begrijpen alleen Duits omdat deze taal als bijproduct in de vorm van een emergente eigenschap quasi ongewild is overgenomen.
Voordelen van eigen taalmodellen
Een taalmodel kan op volgende manieren worden verkregen:
- Grondig berekenen. Dit vereist doorgaans een paar honderd miljoen GPU-rekentijd (GPU = grafische kaartprocessor), is dus niet betaalbaar voor veel bedrijven.
- Hergebruik open taalmodellen dat wordt gekenmerkt door fijn-tunen: een uitdagender maar beheersbaar standaardtraject.
- Hergebruik openbare taalmodellen, die "alleen" in de prompt eigen documenten als context ingevoerd krijgen.
De eerste twee mogelijkheden hebben in verschillende vormen de mogelijkheid om een geslachtsgebonden taal op te nemen. Het fine-tunen zal echter problemen hebben die niet helemaal weggaan.

De derde mogelijkheid om open taalmodellen opnieuw te gebruiken, is de technisch eenvoudigste en vaak werkende. Ze komt met geslachtsneutral taal in principe helemaal niet uit. Dit is een technische uitspraak en geen politieke.
Een eigen Duits taalmodel is niet alleen mogelijk, maar heeft ook veel voordelen. Onder andere zijn de voordelen:
- De Duitse taal staat centraal. Wij wonen in Duitsland en niet in Spanje. Engelstalige woorden kunnen ook een Duits taalomgang begrijpen.
- De ballast van heel veel andere talen hoeft niet meegetrokken te worden. Goed voor de hardware-eisen (grafische kaart!) en de Bedrijfsnelheid.
- Hoge kwaliteit inhoud kan worden gebruikt in plaats van afval (= algemeen beschikbaar materiaal dat niet is geselecteerd).
- Concentratie op een vakgebied (of ook meerdere).
- Optimale gebruikersbegeleiding met sensibilisering voor de resultaten, in plaats van alsof elke reactie correct is (zie ChatGPT of Bing).
- Laagere of vaste kosten: Een bedrijfs-eigen AI-systeem is voornamelijk gebaseerd op aanschaffings- of huurkosten voor een AI-server. Veelvuldige gebruik verandert daar niets aan. De kosten blijven laag. Anders zijn cloud-oplossingen zoals ChatGPT. Het raadplegen van een document wordt bij veelvuldig gebruik snel duur. Wie de chatbot-API van OpenAI gebruikt, moet beter geen recursie of oneindige loop inprogrammeren, want anders is het budget binnen enkele minuten zonder nuttigheid uitgegeven. Dat kan bij een eigen systeem niet gebeuren.
De volgende sectie behandelt trainingsdata voor Duitse AI-taalmodellen, omdat deze de basis vormen voor kunstmatige spraakintelligentie. Hieruit volgen ook een aantal suggesties voor overheidsinstanties en andere overheidsorganisaties die kunstmatige intelligentie in Duits tempo zouden kunnen faciliteren.
Opleidingsgegevens voor Duitse AI-taalassistenten
Opleidingsgegevens zijn hetzelfde als wat ouders een kind bijbrengen. Voor taalmodellen zijn Duitse teksten nodig. Waar deze tekst vandaan komen, als niet gestolen?
Het internet biedt een hele hoop Nederlandse teksten. Ook bedrijven hebben in hun Internetsite veel documenten die als Quell des Wissens geschikt zijn.
PDF in plaats van HTML
De Hoge Raad (BGH) publiceert zijn uitspraken kennelijk alleen maar in pdf-vorm. De non-profit website openjur neemt deze pdf's en extrahert daaruit (handmatig?) de tekst. Vervolgens stelt openjur de uitspraken kosteloos online beschikbaar. Ook de Bondstijdschrift publiceert veel documenten alleen maar in pdf-vorm.
Analog gedraagt het zich met enkele andere belangrijke openbare bronnen, die voor AI-modellen interessant kunnen zijn. Bijvoorbeeld publiceren veel toezichthoudende instanties hun activiteitsrapporten of handleidingen alleen maar in PDF-vorm.

Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
