AI is gebaseerd op grote datasets. De EU beschermt gegevens van personen of auteurs extra goed. Dat is in zichzelf goed, maar schaadt bij de ontwikkeling van concurrerende AI-systemen. Er zijn nog meer redenen die tegen krachtige taalmodellen gemaakt in Duitsland spreken. Kan dit dilemma worden opgelost?
Introductie
De meest voorkomende toepassingsgebieden voor AI zijn waarschijnlijk spraakmodellen (LLMs) en beeldmodellen. Mogelijk komen er binnenkort videogeneratoren of objectherkenningssystemen bij. Deze tekst concentreert zich daarom, uit eenvoudigheid, op LLMs. De inzichten zijn over het algemeen of geheel overdraagbaar naar veel andere modeltypen, zoals classificatiesystemen of medische rapportagesystemen.
Momenteel komen alle concurrerende taalmodellen uit landen buiten de EU. Mistral mag een kleine uitzondering zijn, hoewel hun taalmodellen niet helemaal bovenaan staan.
Aleph Alpha is geen uitzondering, want hun nieuwe model Pharia-1 scoort in benchmarks matig, om het maar zo te zeggen.
Sommige mensen denken dat de EU misschien toch nog kan bijhaken. Dat gaat niet gebeuren. Want voor krachtige taalmodellen is er precies één ding nodig: data. Niets anders. Geen personeel. Geen technologie. Geen geld. Geen tijd. Niets behalve heel veel, zo representatief mogelijke data ontbreekt. Natuurlijk moeten de gegevens rechtsconform zijn. Daardoor staan er nog minder gegevens tot onze beschikking.
Voor zeer goede spraakmodellen ontbreekt er precies één belangrijke ingrediënt in Europa:
Gegevens.
Alles anders is altijd aanwezig: Één (!) persoon, één (!) tot enkele servers, de beste programmeercode voor het AI-training.
De redenen voor het achterblijven van de EU op het gebied van AI zijn in de letterlijke zin van het woord voorschreven.
Privacywetgeving
Privacy is erg belangrijk. Verschillende schandalen bewijzen dat, die schandalen hebben vooral buiten Europa hun oorsprong. Hier een paar voorbeelden:
In de VS werd een zeer belangrijke presidentiële verkiezing beïnvloed doordat analytische gegevens van gebruikers van Google en Facebook (Meta) wettelijk onrechtmatig werden gebruikt ("Cambridge Analytica").
Microsoft wordt door prominente instanties in de VS beschouwd als een veiligheidsrisico voor de VS. De reden is de gebrekkige beveiliging van gegevens bij Microsoft. ([1])
Meta is niet beter dan Microsoft, maar juist slechter. Want Microsoft verdient tenminste niet alleen geld met gegevens, maar ook met producten. Meta heeft niets anders dan de gegevens van gebruikers. Deze gebruikersgegevens worden tot het uiterste vermarktaard. Wettelijke bepalingen inzake privacy zoals de AVG zijn daarbij eerder hinderlijk. ([1]) ([2])
Over Google kan ook negatieve dingen worden gemeld. Dat soms strafgedragers opgepakt kunnen worden omdat Amerikaanse veiligheidsinstanties de gebruik van Google-producten analyseren, geeft niet echt gerust. Wie als onschuldige burger op het verkeerde moment en in het verkeerde land is, wordt snel tot een misdadiger bestempeld en verrotst onschuldig in de gevangenis of moet zelfs met de dood rekenen.
De AVG als Verordening heeft een zeer goed Grondgedachte. Ze is uitgevaardigd, toen AI nog geen onderwerp what. Ze is op zichzelf heel verstandig. Maar waarom wordt ze feitelijk niet toegepast? Duitse gegevensbeschermingsautoriteiten sanctioneren feitelijk alleen in homöopathische dosissen.
De GDPR stelt dat het gebruik van persoonsgegevens voor de training van AI-systemen in principe alleen mogelijk is op basis van het gerechtvaardigde belang (zie Artikel 6 lid 1 GDPR). Toestemming is bij massadataverzamelingen uitgesloten. Een overeenkomst zal voor massadaten juridisch moeilijk zijn.
Slechter nog: Voor overheden is het gerechtvaardigde belang als rechtsgrondslag NIET beschikbaar (staat in de eerder genoemde artikel 6 lid 1 GDPR volgens letter f). Overheden kunnen dus AI-systeem feitelijk niet trainen. Dat is vooral jammer, want juist overheden hebben veel waardevolle gegevens die ook burgers weer ten goede zouden kunnen komen.
De AVG geldt "alleen" voor persoonsgegevens, waartoe ook pseudonieme gegevens behoren (Art. 4 Nr. 1 AVG). Voor anonieme gegevens geldt de AVG niet.
Maar anonieme gegevens bestaan feitelijk niet, als je het enigszins overdreven formuleert. Het gaat om:
- Anonieme gegevens zijn gegevens waarvoor de originele gegevens niet meer toegankelijk zijn (zeer zeldzaam geval).
- Anonieme gegevens zijn niet zo representatief als originele gegevens en zijn dus minder waardevol voor het AI-Training.
- De anonymisering zelf is een gegevensverwerkingshandeling. Deze mag door autoriteiten feitelijk helemaal niet worden uitgevoerd. Anderen mogen hem feitelijk alleen uitvoeren als het gerechtvaardigd belang geldt, wat moeilijk te beoordelen is.
We praten hier over de praktijk. Wat in de theorie geldt, interesseert geen enkel bedrijf ter wereld dat concrete problemen wil oplossen. Theoretische discussies laten iets aan het oog ontsnappen, namelijk de praktijkgerichtheid.
In feite mogen massadaten alleen al vanwege de gegevensbescherming niet in een AI-systeem stromen, bijvoorbeeld voor het trainen van de AI.
Dit geldt ook voor openbare gegevens op het internet. De volgende gevallen zijn problematisch:
- Iemand schrijft iets over een andere persoon. Dat kan een feitelijke bewering zijn, of ook laster. De andere persoon wil deze informatie niet openbaar weten en zeker niet in een AI-spraakmodel opgeslagen vinden.
- Een persoon publiceert zelf informatie over zichzelf. Een AI slaat deze informatie op omdat de website van de persoon door een crawler wordt gelezen. Later besluit de persoon de informatie terug te nemen en vraagt dit ook aan de exploitant van de AI. Maar helaas, gegevens uit AI-modellen kunnen niet worden verwijderd. Probeer eens een informatie uit je hoofd te wissen. Dat gaat ook niet. Je hersenen en het AI-brein zijn beide neurale netwerken. Hier is geen verschil. Geloof het of niet. Wat belangrijk is, is dat informatie uit AI-modellen niet kan worden verwijderd.
Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
