Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Artificiële intelligentie: Hoe slaan AI-taalmodellen gegevens op? Zitten de modellen ook persoonsgegevens in?

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Artikel als PDF (alleen voor abonnees van de nieuwsbrief)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Gegevens worden door AI-taalmodellen opgeslagen in de vorm van kolommen met cijfers. Hoe precies dat werkt en waarom daardoor de intelligentiefunctie van mensen wordt ontcijferd? Zijn er in het AI-model na het trainen persoonlijke of zelfs auteursrechtelijk beschermd gegevens aanwezig?

Inleiding

De overwinningstoer van de huidige kunstmatige intelligentie begon in 2017, toen de Transformer- benadering werd uitgevonden. Hij werkt met een coder en decoder en maakt gebruik van zogenaamde Embeddingen als dragers van betekenis (Semantiek). Een embedding is een reeks getallen die ook vector genoemd wordt.

Bij taalmodellen is de idee, de bedeuting van een woord over zijn context te bepalen en als vector op te slaan. De context van een woord zijn vooral de andere woorden in hetzelfde zin. Betekenis ontstaat dus door analyse van het gemeenschappelijke optreden van meerdere begrippen (kookkurrenz).

Een hedendaagse AI werkt dus zo dat elke soort gegevens wordt omgezet in getallenreeksen. Gegeentypen zijn bijvoorbeeld tekst (bij taalmodellen), gesproken taal, beelden, video's, muziek, temperatuursensoren, weersvoorspellingen, aandelenkoersen, seismologische waarden, geurzintuigingsgegevens, UV-sensorwaarden en alles wat in getallen uitgedrukt kan worden, dus digitaal gemaakt kan worden.

In taalkundige modellen van het AI-systeem worden soms hele woorden opgeslagen.

Geldt ook voor recentere ChatGPT-modellen, zie artikel.

Dat komt volgens mij precies overeen met hoe het menselijke brein werkt. Het brein functioneert eerst analoog, de computer digitaal. Omdat biologische neuronen bij mensen een actiepotentiaal hebben, wordt analog snel digital.

Voor AI-taalmodellen worden dus teksten in eenheden als zinnen opgedeeld en vervolgens omgezet in semantisch geladen getallenreeksen. Dit wordt bijvoorbeeld bereikt met behulp van de algoritme genaamd Word2Vec, die voor elk woord in een context een vector berekent. Tegenwoordig zijn er betere methoden dan Word2Vec beschikbaar, die naar buiten toe eveneens op dezelfde manier werken (zie bijvoorbeeld zogenaamde Sentence Transformer).

Vectorrekenen

Twee vectoren kunnen met klassieke wiskunde onder andere worden afgetrokken van elkaar. Evenzo kan hun verschillende berekend worden. Het verschil is hier de semantische gelijkenis of ongelijkenis van twee begrippen, uitgedrukt over hun vectoren.

Voor een grote verzameling documenten kan men met Word2Vec de vectoren voor alle mogelijke, in de documentenverzameling (corpus) voorkomende begrippen berekenen. Het systeem heeft tot nu toe geen enkel begrip van de Duitse (of Engelse) grammatica. Toch "weet" het systeem door vergelijkingen van vectoren welke begrippen zich semantisch op elkaar gedragen.

Sommige populaire conclusies die met Word2Vec mogelijk gemaakt worden zijn:

  • Polen verhoudt zich tot Warschau als Spanje tot Madrid (vetgedrukte term die Word2Vec zelf heeft bepaald, wanneer men de eerste drie cursieve termen invoert).
  • Het Duitse woord Katze correspondeert met het Engelse woord Kattenafbeelding (met Word2Vec kunnen dus vertalingen worden gemaakt, en dat ook contextueel: "Schnecke" kan een dier zijn, maar ook een faciliteit voor de financiering).
  • _Kanjer plus vrouw minus man = Kanjerin

De basis voor alles zijn maar woorden die in een context voorkomen, dus in zinnen. Precies zo kunnen mensen ook teksten begrijpen, met de nu nog aanwezige verschillen dat machines veel minder omgevingservaring hebben dan mensen. Dat zal zich binnenkort zeker veranderen en zal leiden tot het feit dat robots de intelligentste entiteiten op deze planeet (en andere planeten) zullen zijn. Behalve als de mens zichzelf in de tussentijd heeft uitgeroeid en geen robots meer kan bouwen.

Terug naar de vraag, hoe een AI-taalmodel gegevens, dus begrippen opslaat en of deze begrippen persoonsgerelateerd kunnen zijn. Een persoonsrelatie zou dan te bevestigen zijn als eigennamen of identificatoren zoals telefoonnummers, kentekens van voertuigen of fiscaal identificatienummers rekonstruierbaar in het AI-model opgeslagen zouden worden.

Voorbeeld van de gegevensopslag in het AI-model

De volgende screenshot toont een uittreksel uit het woordenboek van een Duits AI-model dat onderworpen is aan de GPT-2 architectuur van OpenAI. GPT-2 is in tegenstelling tot zijn opvolgers nog openbaar gemaakt.

Uitvoering van de 52.000 woorden van een Duits GPT-2-model

In totaal bestaat het woordenschat uit exact 52.000 woorden. De reden voor deze relatief lage hoeveelheid (gemeten aan de grotere hoeveelheid bestaande Duitse woorden) volgt hieronder.

Datenparen zijn herkenbaar. De eerste helft is in de afbeelding geel gekleurd en vertegenwoordigt een begrip. De tweede helft is het indexnummer of identificator van het begrip en hier in blauwe kleur te zien.

Bij het bekijken van de begrippen valt op dat veel een storend teken voorafgaan. Dit ligt aan de desbetreffende codificatie van het vocabulair en wordt verderop opgelost.

De begrippen werden bepaald door talrijke teksten te gebruiken voor het trainen van het taalmodel. Het corpus van de teksten is opgebouwd in een bestaand voorbeeldmodel, met behulp van een aflevering van Wikipedia, het EU Bookshop corpus, Open Subtitles, CommonCrawl, ParaCrawl en News Crawl.

De teksten werden dan in woorden opgesplitst, wat een bepaalde uitdaging vormt. Dit probleem hoort bij het gebied van de NLP. NLP staat voor Natural Language Processing en betekent de verwerking van natuurlijke taalteksten (of andere modaliteiten). Zelfs breedgebruikte en goed ontwikkelde frameworks als Scipy en Spacy veroorzaken vaak fouten, die de ervaren AI-ontwikkelaar alleen maar weet te corrigeren door zijn eigen routines voor na-bewerking te gebruiken.

AI-taalmodellen kunnen hele zinnen letterlijk weer geven, die daardoor in het taalmodel opgeslagen zijn.

Ganzen Artikel jetzt über kostenfreien Dr. DSGVO Newsletter lesen.
Weitere Extras für Abonnenten:
Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks
Schon Abonnent? Link im Newsletter anklicken & diese Seite auffrischen.
Newsletter abonnieren
About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Kunstmatige intelligentie: hype en overdreven verwachtingen of passende verwachtingen?