Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort DSGVO-Probleme finden

Kunstmatige intelligentie: Duitse teksten in AI-taalmodellen

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Artikel als PDF (alleen voor abonnees van de nieuwsbrief)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Documentenzoekmachines, chatbots, spraakassistenten, vraag-antwoord-systemen: ze kunnen allemaal aangepast worden voor de wereldwijde ondergebrachte Duitse taal. ChatGPT geeft geen exacte antwoorden. Betrouwbare AI-spraakmodellen voor de Duitse taal zijn ondanks enkele kleine details zoals het geslachtswoord mogelijk.

Inleiding

De inzet van kunstmatige intelligentie (AI) binnen het bedrijf verschilt fundamenteel van de particuliere gebruik van ChatGPT, Microsoft Bing, Google Bard of andere systemen van datakraken.

Ondernemingen geven hun data samen met bedrijfsgeheimen, octrooien, medewerkerdata, klantendata, contracten of andere vertrouwelijke data vaak weinig graag door aan ChatGPT. Anderzijds moeten in de toekomst meer gegevens beschikbaar worden gesteld. Dat zegt de Data Governance Act (DGA) van de EU, die op grond van zijn verordeningkarakter in september 2023 in werking trad.

Daarnaast zijn de eisen aan juiste antwoorden van een chatbot of andere AI-taalprogramma's aanzienlijk hoger dan in het privé-gebied. Dit geldt in ieder geval buiten het creatieve domein. De topklasse bestaat uit juridische vraagstukken, die door moderne, maar algemeen gehouden systemen als ChatGPT en de Bing-AIvan Microsoft niet goed worden beantwoord (reden: zie link hieronder). Ook overheidsorganisaties die dienen aan het burgerschap, zouden niet moeten terugvallen op onbetrouwbare chatbots, waartoe ook ChatGPT behoort.

De gender-dubbeltspunt is geschikt om trainingsgegevens voor taalmodellen te besmetten.

Vooral omdat het puntkomma gewoon een zinsafsluitingsteken is.

Zelfs de zojuist gepubliceerde en beweerde autokorrektiefunctie van Google Bard werkt niet goed, zoals een praktische tekst met nauwkeurigere aandacht liet zien.

Onnodig wordt het voor AI-taalmodellen moeilijk, wanneer in trainingsgegevens de grammatica soms wordt verwatert vanwege een gendergerelateerde taal. Bovendien zorgt de genderdubbelpunt ervoor dat hele zinnen in teksten niet meer worden herkend.

Duits is op wereldschaal een stiefmütterlijk behandeld taal (zie afbeelding onder). Machtige taalmappen, die zich richten op het Engels, begrijpen alleen Duits omdat deze taal als bijproduct in de vorm van een emergente eigenschap quasi ongewild is overgenomen.

Voordelen van eigen taalmodellen

Een taalmodel kan op volgende manieren worden verkregen:

  • Grondig berekenen. Dit vereist doorgaans een paar honderd miljoen GPU-rekentijd (GPU = grafische kaartprocessor), is dus niet betaalbaar voor veel bedrijven.
  • Hergebruik open taalmodellen dat wordt gekenmerkt door fijn-tunen: een uitdagender maar beheersbaar standaardtraject.
  • Hergebruik openbare taalmodellen, die "alleen" in de prompt eigen documenten als context ingevoerd krijgen.

De eerste twee mogelijkheden hebben in verschillende vormen de mogelijkheid om een geslachtsgebonden taal op te nemen. Het fine-tunen zal echter problemen hebben die niet helemaal weggaan.

Duits is geen wereldtaal. De lijst toont de talen in volgorde van hun relevantie voor het taalomodel FLAN-T5 van Google. Voor Duits staan zelfs talen als Gujarati genoemd, die voor velen geheel onbekend zijn.

De derde mogelijkheid om open taalmodellen opnieuw te gebruiken, is de technisch eenvoudigste en vaak werkende. Ze komt met geslachtsneutral taal in principe helemaal niet uit. Dit is een technische uitspraak en geen politieke.

Een eigen Duits taalmodel is niet alleen mogelijk, maar heeft ook veel voordelen. Onder andere zijn de voordelen:

  • De Duitse taal staat centraal. Wij wonen in Duitsland en niet in Spanje. Engelstalige woorden kunnen ook een Duits taalomgang begrijpen.
  • De ballast van heel veel andere talen hoeft niet meegetrokken te worden. Goed voor de hardware-eisen (grafische kaart!) en de Bedrijfsnelheid.
  • Hoge kwaliteit inhoud kan worden gebruikt in plaats van afval (= algemeen beschikbaar materiaal dat niet is geselecteerd).
  • Concentratie op een vakgebied (of ook meerdere).
  • Optimale gebruikersbegeleiding met sensibilisering voor de resultaten, in plaats van alsof elke reactie correct is (zie ChatGPT of Bing).
  • Laagere of vaste kosten: Een bedrijfs-eigen AI-systeem is voornamelijk gebaseerd op aanschaffings- of huurkosten voor een AI-server. Veelvuldige gebruik verandert daar niets aan. De kosten blijven laag. Anders zijn cloud-oplossingen zoals ChatGPT. Het raadplegen van een document wordt bij veelvuldig gebruik snel duur. Wie de chatbot-API van OpenAI gebruikt, moet beter geen recursie of oneindige loop inprogrammeren, want anders is het budget binnen enkele minuten zonder nuttigheid uitgegeven. Dat kan bij een eigen systeem niet gebeuren.

De volgende sectie behandelt trainingsdata voor Duitse AI-taalmodellen, omdat deze de basis vormen voor kunstmatige spraakintelligentie. Hieruit volgen ook een aantal suggesties voor overheidsinstanties en andere overheidsorganisaties die kunstmatige intelligentie in Duits tempo zouden kunnen faciliteren.

Opleidingsgegevens voor Duitse AI-taalassistenten

Opleidingsgegevens zijn hetzelfde als wat ouders een kind bijbrengen. Voor taalmodellen zijn Duitse teksten nodig. Waar deze tekst vandaan komen, als niet gestolen?

Het internet biedt een hele hoop Nederlandse teksten. Ook bedrijven hebben in hun Internetsite veel documenten die als Quell des Wissens geschikt zijn.

PDF in plaats van HTML

De Hoge Raad (BGH) publiceert zijn uitspraken kennelijk alleen maar in pdf-vorm. De non-profit website openjur neemt deze pdf's en extrahert daaruit (handmatig?) de tekst. Vervolgens stelt openjur de uitspraken kosteloos online beschikbaar. Ook de Bondstijdschrift publiceert veel documenten alleen maar in pdf-vorm.

Analog gedraagt het zich met enkele andere belangrijke openbare bronnen, die voor AI-modellen interessant kunnen zijn. Bijvoorbeeld publiceren veel toezichthoudende instanties hun activiteitsrapporten of handleidingen alleen maar in PDF-vorm.

Complex dubbelzijdig PDF van een gegevensbeschermingsautoriteit.

Ganzen Artikel jetzt über kostenfreien Dr. DSGVO Newsletter lesen.
Weitere Extras für Abonnenten:
Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks
Schon Abonnent? Link im Newsletter anklicken & diese Seite auffrischen.
Newsletter abonnieren
About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Google Bard: Persoonlijke chats laten zien bij datalek