Hur lagrar en AI-språkmodell data?

KI-språkmodeller lagrar data i form av numeriska serier, kallade vektorer. Dessa vektorer skapas genom analys av ordkombinationer och deras frekvens för att identifiera semantiska relationer mellan ord.

Kan en KI-språkmodell innehålla personuppgifter?

Ja, potentiellt. Om egennamn eller identifierare som telefonnummer eller skatteidentifikationsnummer lagras i vektorerna, kan en KI-språkmodell innehålla personuppgifter. Dock används här oftast bara ordförrådet utan direkta identifierare.

Ökar lagring av tokens risken för att personuppgifter inkluderas i en AI-modell?

Ja, att lagra tokens, särskilt ordsnip, ökar sannolikheten för att personuppgifter finns i en AI-modell. Eftersom modellen lagrar ord i fragment finns risken att känslig information lagras i dessa fragment.

Innehåller AI-språkmodeller grundläggande personuppgifter?

Ja, AI-språkmodeller innehåller i grunden personuppgifter, särskilt om namn eller annan känslig information lagras i fragment. Existensen av ett namn i en kontext kan också betraktas som personuppgifter.

Hur lagras namn i AI-modeller?

Namn lagras ofta i KI-modeller i form av ordbitar, som består av enskilda bokstäver. Detta är mer sannolikt när namnet inte har vanliga bokstavssekvenser och därmed är unikt. Lagringen sker pseudonymt för att skydda data.

Kan personuppgifter extraheras från AI-modeller?

Ja, AI-modeller kan lagra och återge personuppgifter, särskilt om de tränats med sådan information. Detta framgår till exempel av möjligheten att återge detaljer som födelsedatum eller sjukjournaler.

Innehåller dessa modeller personuppgifter?

Även om KI-språkmodeller kan lagra fraser och meningar, är lagringen av personuppgifter inte nödvändigtvis given. Lagringen sker ofta på ett sätt som bevarar den ursprungliga formen på data, utan att det finns någon explicit lagring av personliga informationer.

Vilka komponenter krävs för att använda en AI-modell?

För att använda en KI-modell krävs själva KI-modellen, tokenizern, vokabulären och de tillhörande standardbiblioteken, som t.ex. 'transformers'-biblioteket. Dessa komponenter möjliggör laddning, utvärdering och frågor till modellen.

Konstgjord intelligens: Hur lagrar AI-språkmodeller data? Innehåller modellerna även personuppgifter?

Data sparas från AI-språkmodeller i form av kolumnrader med siffror. Hur exakt det fungerar och varför detta löser upp människans intelligensfunktion? Finns personuppgifter eller upphovsrättsskyddade data i AI-modellen efter träning?

Inledning

Den segrande framryckningen av dagens AI började 2017, när Transformer-ansatsen uppfunnits. Den arbetar med en kodare och dekodare och använder så kallade Einbettungen som bärare av betydelse (semantik). En Einbettung är en sifferserie som också kallas för vektor.

Vid språkmodeller är idén att Bedeutning av ett ord bestämmas genom dess Sammanhang och sparas som vektor. Ordets kontext utgörs särskilt av de andra orden i samma mening. Betydelsen uppstår således genom analys av gemensamt förekommande flera begrepp (kookurrens).

En modern AI arbetar så att alla slags data omvandlas till Talserier. Dataformer är exempelvis texter (vid språkmodeller), talad språk, bilder, videor, musik, temperaturmätare, vädervärden, aktiekurser, seismologiska värden, luktsensorvärden, UV-sensornivåer och allt annat som kan uttryckas i siffror, d.v.s. digitaliseras.

I KIspråksmodeller lagras ibland hela ord.
Även gäller för nyare ChatGPT-modeller, se inlägg.

Det motsvarar enligt min mening kvalitativ exakt hur det mänskliga hjärnan fungerar. Hjärnan fungerar först analogt, datorn digitalt. Eftersom biologiska neuroner hos människor arbetar med ett aktionspotential blir det snabbt digitalt.

För AI-språkmodeller delas därför texter upp i enheter som meningar och sedan omvandlas till semantiskt laddade nummerserier. Detta görs till exempel med hjälp av algoritmen Word2Vec, som för varje ord i ett sammanhang beräknar en vektor. I dag finns det bättre metoder än Word2Vec som arbetar på liknande sätt utifrån (se till exempel så kallade Sentence Transformer).

Beräkna med vektorer

Två vektorer kan med klassisk matematik bland annat subtraheras. Likaså kan deras skillnad beräknas. Skillnaden är här semantisk likhet eller olikhet mellan två begrepp, uttryckt genom deras vektorer.

För en stor samling dokument kan man med Word2Vec beräkna vektorer för alla möjliga begrepp som förekommer i dokumenten (korpus). Systemet har ännu inget förståelse av tyska (eller engelska) grammatik. Trots det "vet" systemet genom jämförelser av vektorer vilka begrepp som semantiskt beter sig likadant mot varandra.

Några populära slutsatser som kan uppnås med Word2Vec är:

_Polen beter sig till Warschau som Spanien till Madrid (fettryckt det begrepp, som Word2Vec själv har fastställt, när man sätter in de första tre kursiverade orden).
Det tyska ordet Katze motsvarar det engelska ordet Katt (med Word2Vec kan således översättningar göras, och detta även kontextberoende: "Snäcka" kan vara ett djur, men också en fördelning).
_Kansler plus fru minus man = Kanslärin

Basis för allt detta är bara ord som förekommer i sammanhang, alltså i meningar. Precis så kan människor också läsa in texter, med den nu fortfarande existerande skillnaden att maskiner har mycket mindre Umwelterfahrung än människor. Detta kommer säkert att ändras snart och leda till att robotar blir de mest intelligenta existenser på denna planet (och andra planeter). Utom, människan har utrotat sig själv på annat sätt och kan inte längre bygga dessa robotar.

Tillbaka till frågan om hur ett AI-språkmodell lagrar data, alltså begrepp och om dessa begrepp kan vara personbezirade. En personbezug skulle då bekräftas om egennamn eller identifierare som telefonnummer, körkortsnummer eller skattenummer Rekonstruerbar sparats i AI-modellen.

Exempel på datalagring i AI-modellen

Följande skärmdump visar ett utdrag ur ordboken från ett tyskt AI-modell som följer OpenAIs GPT-2 arkitektur. GPT-2 har i motsats till sina efterföljare blivit publicerad.

Utdrag från 52.000 ord i ett tyskt GPT-2-modell

I stort sett består ordförteckningen av 52.000 slumpvis utvalda ord. Orsaken till denna relativt låga siffra (mätt mot den större mängd existerande tyska ord) följer nedan.

Man kan se Datenpaar. Den första delen är i bilden gulaktigt kodad och representerar ett begrepp. Den andra delen är index eller identifierare för begreppet och syns här i blå färg.

När man tittar på begreppen märks det att många har ett störande tecken före sig. Det beror på den specifika kodningen av ordförrådet och kommer att förklaras nedan.

Terminerna identifierades genom att använda ett stort antal texter för att träna språkmodellen. Korpuset av texterna bildades i det verkliga exemplet på modelleringen genom en utskrift från Wikipedia, EU Bookshop corpus, Open Subtitles, CommonCrawl, ParaCrawl och News Crawl.

Texterna blev sedan in ord pådelade, vilket utgör en viss utmaning. Detta problem hör till området för NLP. NLP står för Natural Language Processing och betecknar bearbetningen av naturligt språkliga texter (eller andra modaliteter). Även välkända och välutvecklade ramverk som Scipy och Spacy tillåter sig ofta fel, som den erfarna AI-utvecklaren bara får i grepp genom att han använder egna rutiner för efterbearbetning.

Språkmodeller från AI kan återge hela meningar ordagrant, vilket innebär att de lagras i språkmodellen på detta sätt.
Det gäller även för ChatGPT-3.5 och ChatGPT-4, se inlägg.

När man identifierar begreppen uppstår många orena resultat, som visas nedan. Begreppen identifieras på konventionell väg, alltså inte med hjälp av nya AI-metoder. De utgör en Preludieperioden. Endast efter att begreppen har identifierats tillämpas den nya AI-metodiken genom att begreppen används för att skapa ett AI-språkmodell, vilket kallas Training. Antränade modeller kallas vortränade och inte tränade. Orsaken är att det är möjligt att fortsätta träna modellen, vilket kallas Finetuning. Dessutom kan en gång tränade, alltså skapade, modeller användas direkt. De är således för-konfektionerade (pre-trained).

Vissa av orden läser sig inte som giltiga ord. Här är en utgåva av de tidigare visade orden med kort kommentar (mer detaljer och förklaringar nedan):

rechtspopul → Delord (ordets början). Hela ordet heter sannolikt "rechtsoppulistisk" (med valfria efterled "e" eller "en").
Bemessungs → Kunde ha blivit till genom bindestrecksordning (bemästringsgrund(n)).
Memmingen → Rätt (i alla fall existerande) benämning av en tysk stad.
Tasman → Delord (ords början). Hela ordet heter sannolikt "Tasmanien".
Straßenbahnen → Ä, Ö, Ü och ß blir oläsbart kodat, vilket gör att begreppet bara syns märkligt för människan, inte för en maskinell tolkare.
Italienisch → Möglicherweise enthielt ein deutscher Text ein englisches Wort. Nicht bloß zufällig kann ChatGPT-3 auch Deutsch sprechen, obwohl es für die Sprache Englisch vortrainiert wurde. Möglich wäre auch, dass eingelesene Texte in anderer Sprache als Deutsch fälschlicherweise teilweise als Deutsch erkannt wurden. Översättning till svenska: Italieniska → Möjligen innehöll en tysk text ett engelskt ord. Inte bara slumpen kan ChatGPT-3 också tala tyska, trots att den har tränats på engelska. Det är även möjligt att lästa texter i annan språk än tyska felaktigt delvis identifierades som tyska.

Tokeniseraren som ord- eller ordföljdsproducent

Ord utvinns från texter genom att ett så kallat tokenizer används. Ett token är en semantisk enhet, här ett ord. För GPT2 finns det tokenizer med tekniska namnet GPT2Tokenizer.

Tokeniseringen har inte bara till uppgift att hitta ordgränser och identifiera ord. Tokeniseringen försöker också ge ett ord en viss betydelse, som definieras genom en siffra. GPT-2-tokeniseringen ger ett ord en annan betydelse om det står i början av en mening snarare än mitt i eller i slutet av meningen.

Det leder ibland till skämdjukt dåliga resultat, som detta officiella exempel på tokenisering visar (se föregående länk två stycken ovanför):

Inmatningssatsen "Hej världen" leder till följande utgång från Tokenizers: [15496, 995]. Från de två orden beräknas således två siffror som skall fängsla semantiken i meningen.

Att moderna språkmodeller för artificiell intelligens sparar ordfragment och hela ord i form av token är inte en förutsättning för att personuppgifter ska finnas i ett kognitivt modell, men det ökar problematiken.

Den nästan identiska inmatningssatsen "Hej värld", som bara hade ett (osmakligt, men för människan obetydligt) blanksteg före, skapade istället den andra utgången [18435, 995]. "Hej" fick alltså värdet 15496, medan " Hej" med blanksteg före fick det andra värdet 18435.

Att för ett och samma ord skapa två olika siffror innebär här att man försöker lära in en AI-språkmodell något felaktigt.

GPT-2-tokenisatorn är en så kallad Byte-Pair-Encoding tokenisator eller BPE-tokenisator. BPE kodar ord till så kallade Token. Tokenen representerar orddelar och har också en komprimerande funktion, eftersom orddelarna kan förekomma i flera uttryck och uttrycken kan sedan sparas på ett mer effektivt sätt. Ett uttryck kan dock även lagras i sin helhet, så att det motsvarar exakt ett token.

Det är så att man kan förklara hur de ovanstående delorden har kommit till. En enkel verifiering bekräftar i alla fall grundligen att ordfragmentet "Bemessnings" har utformats från det fullständiga ordet "Bemessningsgrundlage", det fullständiga ordet "Bemessnings-Grundlage" eller det fullständiga ordet "Bemessningsgrundlagen". För att förklara detta ges följande inlägg ur ordboken i det tyska AI-språkmodellen GPT-2:

"Berednings"
"Bakgrund"
"Bakgrund"
"Grundläggande principer"
"Bakgrund"

Den första begreppet "ĠBemessungs" har ett något märkligt första tecken före sig, som här för att illustrera är fetstilat. Detta tecken betyder att det rör sig om en ordstart.

Termerna två till fyra är inte ordstart, eftersom deras första tecken inte är ett Skattesymbol. Inlägget "Grundlage" i ordboken tyder på att ett med bindestreck sammansatt ord som "Bemessungs-Grundlage" finns i textkroppen av utbildningsdata (”Bemessungs” som ordstart plus ”Grundlage” som ordslut).

Begrepp fem heter "grundlage" och är på grund av det första tecknet, som är ett tecken för inledning, att betrakta som en början till ett ord. De två inlägg två och fem i den här uppräknade listan är således två (i varje fall från synvinkeln av AI-modellens semantik) olika delar av ett ord. Å ena sidan är det "grundlage" som slut på ett ord, å andra sidan är det "grundlage" som början till ett ord. För att vara fullständig: En del av ett ord som utgör början till ett ord kan i varje fall betraktas som ett eget ord, även om inte nödvändigtvis en slut på ett ord som möjlig komplettering är kopplad till det. "Grundlage" är för den tyskspråkige läsaren uppenbart ett eget ord. Ett ord som "grundlageskapande" (här något konstruerat, för att ha ett exempel) har samma början, men dessutom ett kompletterande efterled och således en annan betydelse.

I princip är det att anta att AI-språkmodeller innehåller både personuppgifter och upphovsrättsligt relevanta data.
Motiveringar: Se inlägg.

Analog kan denna verifiering för de ovan nämnda och i figuren visade ordfragmenten "Tasman" och "högerradikal" genomföras. "Tasman" pekar ganska tydligt på "Tasmanien". Och faktiskt finns det i ordboken till GPT-2-innehållet en postering "ien". Om denna post inte fanns skulle den ovan nämnda förklaringen lite svämmiga. Det är dock inte så. Även för "högerradikal" hittar man de förväntade sluterna (ordslut) "istisk", "istiska", "istiska", "istigare" och "istiskt". Endast "istigaste" saknas, men det är okej eftersom utbildningstexten inte behövde innehålla detta ord.

Ju mer sällan ett ord förekommer i utbildningsmaterialet, desto längre lagras det i ordboken. Ett endast en gång förekommande ord sparades troligen i rena former. En mycket vanlig term som består av många bokstäver kan möjligen sparas i form av flera ordbitar, var och en bestående av två eller tre bokstäver. För sådana termer kan "ĠAsylpolitik" vara ett exempel (det första tecknet är åter det kontrolltecken som anger att termen utgör ett fullständigt ord). I alla fall är det direkt synligt vilka av de obligatoriska ordbitarna som utgör slutet "er", "erin" och "erinnen" samt deras former (såsom Asylpolitiker, AsylpolitikEryn osv.).

Ytan från OpenAI visar hur en inmatningstext omvandlas till token. Här ett verkligt exempel ([1]) :

Quelle: OpenAI Tokenizer. (bilden översattes automatiskt).

Från inmatningstexten "Hej, det är en text" som består av 23 tecken genereras 10 token. Tokenen är färgkodade i figuren nedan och inkluderar exempelvis "Hall", "o", ", ", ",", "d", "as" osv. I detta fall utgör endast ett token ett helt ord, nämligen det för begreppet "text" från inmatningsfönstret. En ännu tydligare webbgränssnitt tillåter att man väljer specifika chattmodeller och visar de förväntade kostnaderna för tokeniseringen. Varning: Den totala processen av en chatt består av ytterligare steg, särskilt när det gäller frågade dokument som läses upp, vilket gör att kostnaderna ökar.

Ett ordfragment kunde redan vara personbaserat. Det är visserligen betydligt mindre sannolikt än vid ett fullständigt skrivet begrepp, som består av flera ordfragment. Ändå är det möjligt. Dessutom fördelas namn med specialtecken (se till exempel bokstäver från andra språk som inte finns i den tyska standardteckningssatsen) sällan i ordfragment, eftersom de inte har gemensamma bokstavskombinationer med andra begrepp. De ligger därför ofta som fullständigt ord och därmed i klartext i ordboken för AI.

Ett ord eller ett eget namn kan vara personbehaftat. Om existensen av en namn i en mängd ord är ett problem kan det ifrågasättas. Det ser annorlunda ut när ett namn eller någon annan personbehaftad datavärde nämns i ett sammanhang, som kallas mening. Mer om detta nedan. Innan vi kommer till frågan hur ett AI-modell genererar ord.

Hur återupprättas ord från ordstäpp?

När man frågar ett AI-modell används användarens ingång (ofta kallad prompt) för att generera en svar. Detta svar består, som vår vardagserfarenhet med ChatGPT och andra språkmodeller visar, av fullständiga namn och begrepp. Här är det direkt synligt att resultatet av frågan till ett AI-modell finns i form av ord som är inlagda i en kontext. Denna kontext formas av meningar.

Det är spännande att fråga om man kan säga att ett AI-modell även i vila har personuppgifter som innehåller. För ordfragment finns redan denna fara, som tidigare visats.

Vad är personuppgifter?

Personuppgifter är också uppgifter som pseudonymt förekommer. Pseudonym innebär att en datavärd först efter dekodning åter blir personuppgiftsliknande. Om dekoden faktiskt utförs eller bara objektivt är möjlig spelar ingen roll. Se till Artikel 4 § 1 GDPR eller också det Breyer-domstolsdom i EU-domstolen (IP-adresser är personuppgifter, eftersom den objektiva möjligheten finns att identifiera anslutningsinnehavaren).

Hur kodar ett AI-system sifferuppsättningar tillbaka till ord?

I första hand skapas vid träningen av ett AI-språkmodell från ord de ovan beskrivna ordfragmenten, som kallas token. Varje token representeras av en siffra. Detta gör att datorer kan arbeta bättre.

Då skapas (beroende på tillämpningsfall) från enskilda meningar, som består av token, nummerserier som kallas vektorer och representerar så kallade (semantiskt laddade) inmatningar.

Dessa inköpningar, alltså vektorer, alltså talsserier, sparas i ett konstgjort neuronalt nät i ett AI-modell. Modellen består således bara av talsserier. Detta är en något förenklad och oexakt, men för betraktelsen nog tillräcklig, beskrivning. En mängd vektorer som står i relation till varandra kallas Tensorn.

Ett AI-språkmodell sparar personuppgifter under pseudonym. Pseudonymer uppgifter är personuppgifter.
Jämför artikel och art. 4 nr 1 i dataskyddsförordningen.

Nu när en användare ställer en fråga i form av ett prompts till AI-modellen, konverteras också användarfrågan till siffror, alltså vektorer, alltså inmatningar. För detta används den ovan beskrivna tokeniseraren.

Nu jämför AI-modellen vektorer (= användarfråga) med vektorer (= "kunskap" som tidigare har lärt in i form av träningsdata). Resultatet är återigen vektorer (ett eller flera, beroende på längden på utgången från AI-modellen).

Dessa utgångsvektorer, alltså nummerserier, alltså semantiskt laddade inmatningar, återkodas med hjälp av det tidigare nämnda tokenisatorn. Det uppstår en samling ord som vi kallar meningar.

Tokeniseringen kodar och dekodar alltså texter. Den kodar texterna vid träning av det artificiella intelligensmodell och för att omvandla ett prompt till en form som modellen förstår. Efter att modellen svarat finns det nummerserier som tokeniseringen förstår och med hjälp av mappningen av ordfragment till nummer (se ovan) kan omvandlas tillbaka till ord.

Vilka uppgifter finns i det artificiella intelligens-modellen?

Anta att de ovan nämnda ordfragmenten (som även kan utgöra hela ord eller namn) innehåller inga eller inga kritiska personuppgifter. Okritiskt kunde till exempel ett namn vara. Vad är förbjudet att veta om det finns en person med namnet John Doe? Jag ser här inget problem, så länge det inte finns ytterligare kunskap som särskilt hänför sig till detta namn. Om kontexten saknas torde känslan av ett namn vara ostraffbar. Det kan dock se ut annorlunda med en telefonnummer eller e-postadress, eftersom dessa innehåller faran för olaglig reklam o.s.v.

Finns det anledning att anta att ett AI-modell sparar data på så sätt att de kan betraktas som personuppgifter? Yes, och här är beviset:

ChatGPT får följande fråga, på vilken ChatGPT svarar med ovanstående svar:

Fråga till ChatGPT: "Citera den första meningen i artikel 1 av GDPR ordagrant Artikel 1, punkt 1 i dataskyddsförordningen (GDPR) lyder: "Denna förordning innehåller bestämmelser om skydd för fysiska personer vid behandling av personuppgifter och om fri rörlighet för sådana uppgifter
AI-modeller kan återge tränade texter ordagrant. Här ett exempel med ChatGPT-3.5

ChatGPT svarar rätt på frågan här, nämligen med ett exakt citat. Tydligt måste antas att enskilda helhetsfraser exakt finns i AI-modellen.

I det här exemplet finns inga personuppgifter innehållna, men de kunde vara med när som helst. Det handlar bara om frågeställningen. Exemplet ska visa att i ett AI-språkmodell kan data exakt sparas. Från ordfragment skapas inte bara ord utan hela meningar. Avvägningarna i Artikel 99 GDPR innehåller personnamn.

Ett annat exempel från den 28 november 2023 ([1]) :

Som syns kan man med en opartisk fråga ta ut vilka personuppgifter som helst från språkmodellen (här: ChatGPT!) . Hela processen är också automatisk, eftersom ChatGPT erbjuder ett programutvecklingsgränssnitt (API). Ovanstående källa har gjort detta:

Using only $200 USD worth of queries to ChatGPT (gpt-3.5- turbo), we are able to extract over 10,000 unique verbatim- memorized training examples.
Se ovan.

Följande uttalande skulle nog vara rättsligt relevant om det återgavs av ett AI-modell, eftersom dessa uppgifter vore underkastade dataskydd: "Miri Maiering-Höflacher från Tuttlingen hade födelsedag den 17.04.1994 och trots att hon då hade fullt rött hår har hon nu inga hår alls, eftersom hon lider av cancer av typ X och sjukdom Y som hon dragit på sig genom sina aktiviteter på Reeperbahn

Tekniska grunder

Följande bild illustrerar att i ett Översättare, som ligger till grund för varje modern språkmodell, koder man positioneringsdata från textinmatningar.

Source: Dr. GDPR (inspirerad av Mehreen Saeed). (bilden översattes automatiskt).

Från en inmatning av text skapas först token, som sedan omvandlas till ordvektorer. Ordvektorer är i huvudsak talsserier. Dessutom kodas positionen för varje ord respektive token. Inmatningen av ett ord plus dess positionskodering ger då utdata för de efterföljande bearbetningsskripta i Transformer och därmed i språkmodellen.

Transformator baserar sig på ett revolutionärt papper namn Attention Is All You Need från 2017. Detta år kan därför ses som början för den moderna AI. I detta papper nämns:

Self-attention, sometimes called intra-attention, is an attention mechanism relating different positions of a single sequence in order to compute a representation of the sequence.
Citat från papperet Attention Is All You Need –

Den här textpassagen säger att med ett matematiskt förfarande namn Upmärksamhet (”uppmärksamhet”) beaktas olika positioner av indata för att överföra dessa till en semantisk struktur. Upptillstånd är här en förmåga som från indata identifierar de som tycks vara viktiga i ett givet sammanhang (detta att gissa med hög framgång är också vad människan gör).

För att förfinansera metoden används så kallade Flermössor. En huvud (”Head”) är här en skikt som tar emot en inmatning (i språkmodellen är detta ett text). Stefania Cristina skriver till exempel:

The idea behind multi-head attention is to allow the attention function to extract information from different representation subspaces, which would otherwise be impossible with a single attention head.
Source: Stefania Cristina.

Detta innebär att Multi-Head Attention används för att förbättra en språkmodells prestationer. Det följer också av detta att en ordagrant återgivning av data som en gång har tillförts ett språkmodell i form av träningsdata är mindre sannolik än om bara en ingangskoppling användes skulle. Som exemplet med ChatGPT visar, går emellertid egenskapen hos språkmodellen att återge lärt texter ordagrant inte förlorad.

Snarare än så, sparas varje mening eller mening i språkmodellen på ett så unikt sätt som möjligt. Följande bild förklarar detta. Där visas interna representationer av två meningar:

Technical Phrase: „to understand machine learning algorithms you need to understand concepts such as gradient of a function, Hessians of a matrix and optimization etc“.
Divination: „patrick henry said give me liberty or give me death when he addressed the second virginia convention in march“.

Notering till tekniska uttrycket: "hessisk" har ingenting med Hessen, det landet med den inaktiva dataskyddmyndigheten i Tyskland, att göra, utan hänvisar snarare till Hessens normalform eller Hesse-matris.

Bilden visar en grafisk representation av de interna siffrorrepresentationerna för de två nämnda fraserna. Till vänster i bilden är den tekniska frasen illustrerad och till höger är den vise frasen.

Båda presentationerna ser ut som om de är lika när man bara tittar på dem i kort tid, men de skiljer sig markant från varandra i stort sett. Varje annan mening borde ha en helt annan representation, så att varje mening kan sparas unikt i ett språkmodell och därmed intern representeras.

Särskilt för översättning av texter används encoder-decoder-strukturer. I encodern ingår den text som ska översättas. Från decoder utges översatt text. Båda delar tränas med hjälp av träningssamlingar bestående av par av inmatatext och översatta referenstexter.

De två meningarna kan därför omvandlas till varandra genom att ingående texten översätts med hjälp av ett AI-språkmodell.

Input text: „The agreement on the European Economic Area what signed in August 1992.“
Utgång: ("Överenskommelsen om den europeiska ekonomiska zonen har undertecknats i augusti 1992.")

Visuellt kan den inre representationen av ingångs- till utgångsvärden likt följande visas:

Source: Badanau et al., röd omramning själv utförda.

Ovanför visas orden i den inmatade texten att översättas. Till vänster visas orden i översatt text. Korsningen mellan två ord visar färgmässigt hur starkt ett ordpar korrelerar med varandra. Vitt betyder högsta korrelation (vitt). Så är ordet "signé" maximalt korrelerat med "signed", vilket verkar rätt, eftersom båda orden i sammanhanget är lika värda på franska och engelska. Tvärtom är de två orden "a" och "éte" från franskan bara milt (grått) korrelerade med det engelska ordet "what", eftersom båda franska orden tillsammans översätts till ett engelskt ord. Den röd omrandrade området visar de tillhörande färgkodningarna.

Ett ytterligare exempel visar hur positionen av ett ord i ett AI-modell lagras för att identifiera de ord som semantiskt hör till det aktuellt ord som bearbetas av språkmodellen i en mening:

Varje nämnda rad med text visar från topp till botten den nästa bearbetningsskritt av inmatatexten i AI-modellen. I röd färg är det aktuellt bearbetade ordet tryckt. Med blå färg är orden från språkmodellen som ansetts relevant med avseende på det nuvarande ordet markerade. Ju mörkare blått, desto mer relevant är ordet.

Det som med alla de nämnda exemplen på intern representation av ord i AI-språkmodeller visats, är att inte bara ordpositioner sparas i ett AI-språkmodell utan också hela fraser och meningar, vilket gör att de kan återkonstrueras när ett AI-modell ställs till fråga. Utan positionskodning skulle ett AI-modell inte kunna ge användbara resultat, i vart fall inte för de vanliga språkmodellen med de föreskrivna uppgifterna (i huvudsak: textgenerering).

En publikation från år 2018 (därmed något föråldrad) påpekar att transformer inte ger en särskilt exakt lagring av positionsinformationer:

The transformer has no recurrent or convolutional structure, even with the positional encoding added to the embedding vector, the sequential order is only weakly incorporated.
Quelle: Lillian Weng.

Allt tycks dock inte verkar negativt på förmågan hos aktuella språkmodeller att återge hela meningar i ursprunglig form, och därmed bli relevant enligt dataskyddslagstiftningen (om personuppgifter nämns). Ett argument för detta tycks också vara att den i citerat inlägg nämnda metoden kallad SNAIL (Simple Neural Attention Meta-Learner) inte har slagit igenom. SNAIL skulle ha borstat till den uppenbara svagheten hos Transformere, som inte särskilt bra sparar positionsinformationer. Eftersom SNAIL nu inte längre är relevant och Transformer redan är det och Transformer kan hela meningar citera utan fel, så har ovanstående uttalande av Weng blivit mer eller mindre irrelevant.

Det måste i princip antas att ett AI-språkmodell som bygger på ett modernare förfarande som Transformer kan spara data från träningsingångarna i ursprunglig form, även om det inte sker i varje fall.

Ett par ord om Transformer

Den transformeransatsen i sin ursprungliga form, som föreslogs i artikeln "Attention Is All You Need", bygger på den ovan nämnda encoder-decoderarkitekturen.

Source: Vaswani et. al., röda markeringar tillagda av mig själv.

Som syns är både Encoder och Decoder baserade på positionskoderingar och likaså på inlämningar (Embeddings = Vektorer = Talserier).

Nu finns det ytterligare transformer-arkitekturer, nämligen:

Kodare-dekoder: Ursprunglig ansats, särskilt för översättningar eller sammanfattningar av text
Endast dekodare: Orsaksspråkmodeller, till exempel för chattbotar som ChatGPT, men också LLaMA, Bard, T5 och andra.
Endast kodare: Maskerade språkmodeller, som till exempel BERT.

Skillnaderna ligger i detaljerna och kan inte här närmare undersökas. Väsentligt är att alla transformer-arkitekturer har analoga egenskaper beträffande datalagring (”träningsprocessen”) och återupplivandet av tränade data.

Vad behövs för att få ut information från ett kognitivt artificiellt intelligens-modell?

Ett AI-modell i sig självt, utan tillhörande informationer, utgör enbart en samling siffror om man betraktar det på ett förenklat sätt. Därav kan troligen inget dataskyddsuppdrag uppstå.

Inga människor sparar ett kärnprogrammodell utan att ha möjlighet eller vilja att också använda det. De delar som behövs för att använda ett kärnprogrammodell är:

Tokeniserare: En programkod som oftast kan laddas ned i standardiserad form varje gång den har raderats.
Ordbok (ordfragment) för tokeniseringen: En textfil eller fil med övervägande tryckbara tecken.
AI-modellen: Lista över talserier (en förenklad beskrivning).
En transformer är ett programkod som oftast kan laddas ned i standardiserad form varje gång den har raderats.

En verklig sammansättning av kärnuppgifter för ett AI-modell visas här:

Dessa data tillhandahålls för att någon ska kunna ladda ner och använda AI-modellen GPT2. Den kärnfilen är pytorch_model.bin och har här en storlek på ca 3,7 GB. Filen vocab.json innehåller de ovan beskrivna tokenen. README.md-filen innehåller en instruktion om hur modellen kan användas. De andra filerna med suffixet .json är mycket små och innehåller konfigurationsuppgifter.

Med ett AI-modell fungerar det som med en ZIP-fil, där filer lagras i komprimerad form. Ingen sparar avsiktligt ZIP-filer utan att senare kunna återvända till dem. Till detta behövs ett ZIP-program som både kan skapa och återpacka dessa filer.

Analogt är det med PDF-filer: En PDF-fil kan bara öppnas av den som har en PDF-läsare. Sådana läsarprogram kan vem som helst ladda ner från var som helst. Analogt beter sig det med koden för Tokenizer och Transformer samt ordboken för ett visst AI-modell. AI-modeller erbjuds alltid tillsammans med alla nödvändiga delar, eller om inte, så tillsammans med en beskrivning av var man kan få tag i dem.

Tekniska detaljer

Endast i korthet kan här en del tekniska detaljer nämnas. I ett AI-modell sparas tokens inte bara på något sätt. Istället innehåller de också uppgifter om tokenens positioner.

Följande enkel standardprogramkod förklarar hur ett utbildat GPT-modell kan laddas och hur både tillgång till interna representation av token samt tillgång till deras positioneringsangivelser kan ske:

from transformers import GPT2LMHeadModel #import library
model = GPT2LMHeadModel.from_pretrained('gpt2') # load AI LLM
Token-embeddingar = modellen.transformer.wte.vikt # Token-embeddingar
position_embeddings = model.transformer.wpe.weight # Token Positionen Embeddings

Den använda Python-biblioteket namnet transformers är absolut standard och kan hämtas från internet när som helst. Den ligger till och med öppen källkod.

Kommentarerna vid slutet av raderna börjar med en försedd kvadrat och förklarar kort vad programkoden gör. Här används GPT2-modellen, eftersom den är fri tillgänglig i motsats till OpenAIs efterföljare. Efter att modellen har laddats kan den utvärderas. I det ovanstående exempelkodexen läses vikterna ut som intern representation av de token som lagrats i modellen. På samma sätt läses vikterna för positionerna mellan tokenen ut på likartad sätt.

Kan man använda följande kod för att ge en prompt till ett kognitivt artificiellt intelligens-modell och få svar på den:

# Convert question into Token-IDs
input_ids = tokenizer(\["Are Cookies text files?"\], return_tensors="pt")
# Convert Token-IDs into embeddings
embeds = model.transformer.wte.weight\[input_ids, :\]
# Retrieve answer from AI LLM
outputs = model(inputs_embeds=embeds)
# Convert first answer into text
antwort = tokenizer.decode(outputs\[0\])
# Output the answer
print(antwort) #Result would be at best: "No, cookies are not text files"

Koden visar de enskilda stegen för att fråga ett modell och få svaret i en form som är lätt att läsa för människor. Man programmerar vanligtvis annorlunda än här i exemplet.

Sammandrag

AI-språkmodeller sparar potentiellt personuppgiftsbehandling, eftersom de sparar hela ord, delar av ord och ordsammanhang (ordstart och tillhörande möjliga ordslut). I ett AI-modell finns åtminstone pseudonymerade data.

Moderna AI-språkmodeller som ChatGPT och andra transformer-baserade modeller sparar utbildningsdata på ord- eller till och med meningssnivå i ursprungskopiering.
Ord lagras potentiellt i komprimerad (men ofta i okomprimerad) och människoläsbar form, meningar i form av referenser till ord med positionsinformationer.

Artificiella intelligens-språkmodeller kan också återge hela meningar från indata med ord för ord. Denna förmåga är inte tillförlitlig, men den bör i tvivel accepteras.

Från ett kognitivt artificiellt intelligensmodell kan data hämtas ut genom att man använder tillhörande metadata och standardbibliotek. Utan dessa delar är ett kognitivt artificiellt intelligensmodell oanvändbart och kan egentligen inte längre kallas för ett kognitivt artificiellt intelligensmodell.

Om ett AI-modell körs lokal på en egen AI-server, kan många dataproblem avskaffas. En hög prestanda hos lokala modeller är särskilt möjlig vid Frage-Antwort-Assistenten, men även vid dokumentssökare eller bildgenererare. Vid användning av modeller från tredje part som OpenAI, Microsoft eller Google förekommer däremot problemet att indata hamnar någonstans och ingen vet var.

Daher rekommenderar sig egna språkmodeller för specifika uppgifter inom företaget. Dessa bygger vanligtvis på utbildade, offentliga och samtidigt prestandakraftiga modeller. Kvaliteten är ofta bättre än den hos ChatGPT, eftersom sistnämnda system ska kunna göra allt möjligt och därför delvis kan ses som särskilt ozuverlighet värd att notera, som enkla undersökningar visar (se länk ovan).