Hverken taler om kunstig intelligens, men ingen ved, hvad det betyder. Så vidt den første faktum. Den italienske dataskyddsdirektorat forbød brugen af ChatGPT, men søgemaskiner som Google må fortsætte med at arbejde. Hva' er kunstig intelligens i dag og hvad har det med dataskydd at gøre?
Snaresten
Sammenfatning:
Kunstig intelligens (AI) og privatlivssikkerhed er to emner, der i de seneste år har fået mere opmærksomhed. AI-systemer som ChatGPT bygger på offentlige datakilder og bruger lignende tilgange som søgemaskiner. Derfor er det ikke nødvendigvis større privatlivssikkerhedsproblemer ved AI-anvendelser end ved søgemaskiner. Men AI-systemer kan dog forårsage urheberretsproblemer, hvis de fremstiller andres indhold på en anden måde.
Svarede spørgsmål:
Hvad er kunstig intelligens i nutiden?
Svar: AI fra nuværende tid bekræfter sig til moderne AI-systemer som ChatGPT eller andre Large Language Models (LLMs), der bygger på kvalitetsmassedata og geniale matematiske modeller for at simulere menneskelignende intelligens.
Hvad har kunstig intelligens med dataskydd at gøre?
Kunstig intelligens kan især opføre sig problematisk med hensyn til privatlivets fred, når den har adgang til ikke-offentlige personrelaterede data.
Hvad er forskellen mellem kunstig intelligens og søgemaskiner i forhold til persondatabeskyttelse?
Svar: AI og søgemaskiner indsamler begge data fra offentlige kilder, men AI-systemer kan repræsentere indhold i en anden form og måske forårsage urheberretsproblemer, mens søgemaskiner i reglen kun viser korte udskæringer.
Hvad er de største problemer ved forhold til Kunstig Intellect?
Svaret: De største problemer i forbindelse med kunstig intelligens er urheberretsproblemer, AI's evne til at ersætte mennesker og mulige problematikker vedrørende persondata.
Vigtige nøgleord:
Kunstig intelligens, ChatGPT, LLMs, Store Språkmodeller, Common Crawl Dataserier, Wikipedia, Online Tekster, Vektorer, Vidensbasis, Matematisk Model, Talsætter, Cloud Computing, Python, Pytorch, TensorFlow
Podkast til artiklen:
Indledning
I flere år nu bliver begrebet Kunstig Intellect inflationært og uklar brugt. Nu i 2023 er der efter min opfattelse kommet den fuldstændige gennembrud. Fra min side som datalog er det lykkedes at kode grundprincipperne for menneskelig intellegens. Det har også lykkedes at vise, at dette er lykkedes.
Det menneskelige hjerne er en automat, hardwaren er biologisk. Vores hjerne bygger på stokastiske processer (kontrolleret tilfælde). Det er også det grundprincip for kvantefysikken, der bestemmer hele vores liv. Analog (automat, stokastik, tilfælde) opfører sig på samme måde som elektroniske AI-systemer.
Så er Turing Testen ifølge min mening blevet bestået af et computerprogram for første gang. hvad Joseph Weizenbaum med sit virtuelle psykiater Eliza tidligere kun kunne opnå, ved at have programmeret en skarp dialogteknik ind i systemet, fungerer nu lige nu, i april 2023, over en leistungsfærdig simulation af det menneskelige hjerne. Jeg havde faktisk æren at møde Herr Weizenbaum personligt på min gamle universitet, TU Ilmenau, omkring år 2000. Jeg er også stolt over, at TU Ilmenau var blandt de bedste universiteter i Europa og blev rangeret således: Cambridge, Oxford, Zürich, Eindhoven, London, Ilmenau. Hvem kender ikke Ilmenau?
Hvad er kunstig intelligens?
Kan jeg sige noget om hvad Kunstig Intellighed er, kan jeg ikke give en fuldstændig besvarelse. Men jeg kan meget vel sige noget til de aktuelle systemer som ChatGPT eller i almindelighed til LLMs (Large Language Models),.
De nuværende systemer, der helt rettighedvis skaber begejstring blandt fans, bygger i hovedsagen på to tilgange:
- Den kundelige basis: Kvalitetsstærke massedata
- Genialt matematisk model: Det tænknings- og forståelsescenter i hjernen
Kunnsbaseren til ChatGPT bygger særligt på følgende offentlige kilder:
- Fælles Crawl-datasæt (CC og CC4): Stor del af internettet (delvis tilfældigt). Kan alle downloade.
- Offentligt på Wikipedia er blevet tilgængelig i længe. Enhver kan downloades.
- Forskellige digitale bøger: Enhver kan downloade dem.
- Offentligt, tilgængelig via crawling eller gennem dumps.
Som at ses, drejer det sig ikke om hemmelige oplysninger, men om noget, som søgemaskiner som Google i virkeligheden også "graver" ud. Google graver endda mange flere kilder, såsom PDF-dokumenter, sociale medie-platforme og endnu flere hjemmesider.
De fleste data, der bruges til AI-apparater som ChatGPT, er enten offentlige eller ikke-persondata.
Dataskydd er ikke det største problem, når vi taler om AI. Det er AI's evne til at ersætte mennesker. Først kommer der rettighederne for udvikleren.
Nu bliver det spændende. Det mathematiske model, der ligger til grund for de nuværende kapable AI-systemer, fungerer i praksis således:
- Omdanne kendskabsbasen til talrækker (vectors).
- Afhængigt af opgaven til at løses: Omskriv en indgang (spørgsmål, tekst til oversættelse osv.) også i talrækker.
- Før en Lignlighedsforsøg mellem de to ovennævnte vektorer igennem. De mest lignende data-paarer er det sandsynligste resultat.
Dette forfølgende kan anvendes på alle mulige former for data, nemlig især på:
- ChatGPT, LLaMa osv., særligt tekstfremstilling, spørgsmål-til-svar-assistent, oversættelse, ligningssøgning, tekstresumé (ekstraktiv og abstraktiv: udvalgte originale setninger mod sinngemæt gendannelse i nye ord…)
- Photos: Dall-E, Midjourney etc.
- Lydfiler: Wav2Vec, GANSynth. Hvem kender eksempler?
- Videoer: Her
- Alle andre signaler, uanset om de er kontinuierlige (analoge) eller diskrete (digitale), vigtigste ting er, at en overførsel til diskrete værdier og vektorer er mulig
Kunsten bestod (!) i vektorisering af indtastedata. Dette problem er nu tilfredsstillende løst. Vi alle, især dataloger og andre teknisk interesserede mennesker, kan nu anvende disse muligheder. Alle ikke-tekniske personer må bruge forberedte systemer. Den, der har dybere kendskab til softwareteknik og moderne teknologier, kan selv bygge sådanne systemer, udvide dem og dybt omforme dem.
Jeg har prøvet det i går og skrevet et system, der giver svar på spørgsmål. Dertil bruger jeg en offentlig tilgængelig kildedatabas, også kendt som Datablokke. Som udvalgte programmeringssprog er Python blevet valgt. Som AI-frameworks kan især Pytorch og TensorFlow nævnes. Da disse frameworke er ressourcenhungrige, skader det ikke, at man kender sig til Cloud Computing. Så heldigt, at der også fra Tyskland findes datenschutzfreundlige Cloud-løsninger. ([1])
Noget særligt ved ChatGPT er den generelle tilgang. Systemet kan ikke blot udføre en opgave fremragende, men lige flere. Dette kaldes også for Artificiel General Intelligence. AGI står for Artificial General Intelligence, hvorimod AI tidligere har været Artificial Intelligence og i dansk er blevet betegnet med AI.
Mange AI-systemer kunne allerede før ChatGPT løse svære opgaver godt. Men deres evne var begrænset til et relativ stærkt defineret problemfelt. ChatGPT er meget flexibel at anvende. Eksempelvis kunne man med DYBT (en tysk virksomhed fra Cologne!) allerede oversætte tekster fantastisk godt. Med ChatGPT går det ikke blot op, men også meget mere, end hvad DEEPL overhovedet ikke ved.
Så tidssvære AI-algoritmer kan beregne hurtigere, bliver ofte Grafikkort anvendt til at gøre regningerne. I modsætning til almindelige procesorer (CPUs) har Grafikkort GPUs (Grafikprocesorer). Tilfældigt kan GPUs udføre beregningene af AI-programmer meget effektivere end CPUs.
Den populæreste Schnittstelle og platform for en GPU er efter min viden CUDA fra NVidia, en kendt grafikkortfabrikant. CUDA står for Compute Unified Device Architecture. Der er dog også Intelligente Processorer (eng. Intelligent Processing Units) fra Graphcore. IPU står for Intelligence Processing Unit, mens CPU står for Central Processing Unit og GPU står for Graphics Processing Unit. Fra Google kommer der så ud over det sædvanlige noget positivt, nemlig TPUs (Tensor Processing Units). TPUs findes nok overvejende i Google Cloud, hvilket gør dem ofte lidt interessante for den dataskyldige udvikler.
Den præstationsførende evne af sådanne AI-graphicskort følger blandt andet med antallet af deres CUDA-kerner. Graphicskort fra forbrugersegmentet har f.eks. 5888 sådanne kerner (Nvidia GeForce RTX 3070) og er endda tilgængelige for privatpersoner.
Hvis du tror, du kan følge med her er en række yderligere begreber, som du skal kende: Model, Reader, Retriever, Index, Encoder/Decoder, Transformer, Pipeline, Policy, Dataframe. Det er kun et lille stykke af de vigtige begreber, der kræves for at få en mere detaljeret forståelse af moderne AI-systemer. Den, som ønsker at forstå GPT-systemerne bedre, skal allerede have hørt lidt om (gennemgående) neurale netværk, Markov-modeller og begreber som LSTM og NLP.
Anvendelsesfaldene af lignende søger over diskrete vektorer er enorm. De alle bygger på det samme (ikke det samme) grundprincip:
- Spørgsmaal-svar-systemer. Eksempel fra min lokale installation, der kun bruger en ret lille videnbasis: „Hvad var den tidligere amerikanske præsident John F. Kennedy kendt for? For Apollo-programmet (en uge efter Kennedys død udgav Præsident Johnson et præsidialdekret, hvorved rumfartsinstitutionerne på Cape Canaveral og Apollo blev navngivet efter Kennedy)
- Oversættelse af tekst fra en kilde-sprog til et mål-sprog.
- Hvilket billede passer bedst til en given prompt?
- Oprette et billede fra en tekstpromt.
- Opret en sammenfattende tekst.
- Sammensætning af et musikstykke, der har samme karakteristik som andre værker af en komponist.
Den ligningssøgning sikrer, at fra computere med "simple middel" kan den indre struktur af den tyske sprog læres. Wow! Forklar for nogen, hvad "indre struktur" betyder, og hvordan man lærer det uden at bruge sproget i virkeligheden i år efter år.
En særlig charmanter Zug modern AI-Systemer, der bygger på LLMs: Vortrænede modeller kan ved Fine-Tuning trænes til specifikke problemer. Derfor kommer også akronymet GPT (Generative Pre-trained Transformer). Systemet blev således en gang lært og kan derefter meget hurtigt udvide sine evner på specifikke opgaver. Præcis sådan opfører det sig med en menneske, der har lært at lære.
Derfor skal man vide, at træning af et sprogmodel er meget rechenintensiv. På en normal computer tager det nogle uger, hvis de rette data sættes til rådighed. Nogenlunde kun nogle uger, må man sige. Allerede tidligere var der brug for en supercomputer til dette formål.
Man kan således gå videre og tage et LLM som udgangspunkt, der er blevet trænet af nogen anden med megen besvær. Dette LLM får derefter sin egen domænespecifikke data indtrukket i sig. Til sidst kommer et AI-system frem, der har evnerne fra det magiske LLM plus viden om sit eget problemfelt. Fine-tuningen af det magiske model er herveden blevet udført på en sekund. Det væsentlige her er en god udgangsbasis med data, som skal være maskinelt forberedt. Med de rette tekniske værktøjer kan sådan en verkstad opbygges, hvor alle mulige videnproblemer kan løses meget effektivt. Og det hele sker med et lokal installeret AI-system, der ikke har brug for internetsforbindelse og ikke kræver nogen udgifter til tredje part.
Vi har mange, der siger, at ChatGPT og andre lignende systemer kun stochastisk arbejder: Præcis sådan arbejder også vores hjerne. Vores hjerne er også bare en Automat, mere ikke. Det ser ud til, at vi selv ikke kan styre graden af tilfældighed i vores hjerne (højst gennem alkohol eller andre stoffer). I AI-systemer kan man styre tilfældigheden ved at angive den såkaldte Temperature. En højere temperatur skaber kreative svar, mens en temperatur på frysepunktet giver en deterministisk automat, der altid svarede samme svar på samme spørgsmål.
Fra ordbogen til neurowissenschaften: Stokastiske processer finder mange anvendelser ved beskrivelsen af enkelt neuroner (stokastiske svigtninger af membranpotentialet, stokastiske følger af aktionspotentialer) eller af neuronensystemer (populationsligninger for neuronale net med stokastisk aktivitet) Et menneskehjerne består o.a. af præcis disse dele og bygger på disse principper.
Kilde: Spektrum der Wissenschaft, fet skrift af mig, lige så den sidste sætning.
En bemærkning, fordi en læser har kontaktet mig på grund af denne artikel: Han har lovet at fortælle mig, hvorfor min forståelse af intelligens er kritiserbar. Jeg er spændt på hans tilbagemelding og vil indarbejde den i denne artikel så snart den er fremme.
Hvad har kunstig intelligens med dataskydd at gøre?
Lokale AI-systemer, som det netop er beskrevet, holder deres data i hvert fald ikke hos andre. De kunne dog gøre det uden at det (i særdeleshed) giver anledning til persondatabeskyttelsesproblemer. Dette gælder nemlig, hvis dataene stammer fra offentlige kilder, der er frie tilgængelige.
Den der offentliggør oplysninger om sig selv på Facebook, har tabt sin ret til privatliv vedrørende disse oplysninger.
Hvis beskyttelse af dine egne data er vigtig for dig, skal du ikke offentliggøre informationer om din tilstand, sygdomme og ferieplaner.
Hvis der kendte søgemaskiner ikke fandes, ville svaret på det privatlivsprobleme ved AI-anvendelser være lettere. Men søgemaskiner gør i første omgang kun noget andet end AI-systemer: De samler mange data. Vedrørende ChatGPT er fremgangen ligeså, hvad angår tilgængeligheden af kilderne. ChatGPT samlar nemlig lige så meget som Google eller Bing data fra offentlige kilder.
Her skal forskellen være, men det forstår jeg ikke.
Søgemaskiner giver gode, men ikke særligt intelligente svar på spørgsmål. Et spørgsmål er en søgeord eller også bare en simpel formuleret vidensfrage. AI-systemer giver ligeledes gode (eller delvist bedre) svar på språkligt eller indholdsmæssigt komplekse spørgsmål.
Qualitativ handler det sig om søgemaskiner og bestemte udgaver af AI-systemer om Spørgsmål-Svar-Systemer. ChatGPT er en sådan svarautomat, præcis som Googles eller Bing's søgemaskiner. Arten af databehandling er allerede ved klassiske søgemaskiner at betegne som ret invasiv. AI-systemer går her ikke rigtig videre, hvis man ser på de matematiske modeller, der selv om de er meget rechenintensiv, men ikke nødvendigvis er mere spændende.
Dette punkt er også kvalitativ set lig, selv om ChatGPT består af Turing-Test, men naive søgemaskiner ikke. I den ovenstående artikel fra mig er Turing-Testen kort forklaret og illustreret med et eksempel fra virkeligheden.
Ray Kurzweil havde rette som han allerede i år 2005 skrev et bog med følgende titel: "Singulæriteten nærmer sig".
Bogen havde jeg læst dengang, men ingen aning om hvor meget han havde ret i.
Svarene, som søgerobotter giver, svarer i hovedsagen til at genskabe indhold, der er blevet læst førhen. AI-anvendelser giver ofte også indhold på en anden måde igen, såsom ChatGPT. Dette er en forskel. Men dette har kun begrænset med at gøre med privatlivssikkerhed. Man kan diskutere om falske udsagn eller hallucinationer fra kunstig intelligens er et problem for privatlivssikkerhed. Jeg ser det ikke først og fremmest som sådan.
I takt med forbuddet mod ChatGPT i Italien af den lokale persondataforskningsmyndighed blev også barnesikkerheden nævnt som grund. Så vidt jeg ved, er der indhold på YouTube, Facebook, Twitter og i søgeresor fra Google og Bing tilgængeligt for enhver, der kan trykke nogle knapper. Her ser jeg ikke, hvor barnesikkerheden skal være.
Når en Kunstig Intelligenz offentlige kilder tilgås, ser jeg altså først ingen problem med persondatabeskyttelse. I hvert fald er det ikke et andet problem end for søgemaskiner, sociale netværk eller andre portaler, der gentager indhold fra tredje part. Italien har nok (ved hjælp af en data-leak) opdaget, at også brugerindgaver til ChatGPT er blevet gemt væk. Så vidt jeg ved gør større søgemaskiner det også. Det gør det ikke bedre, men stillede spørgsmålet, hvorfor ikke tidligere var taget mod søgemaskiner.
Hvor er problemet med AI?
AI-systemer kan muligvis føre til Urheberrechtsproblemer. Fordi genoptrykning af indhold i en form, der går ud over korte citater, er retligt problematisk. Dette gælder både for tekst og andre medieformer, såsom billeder. Her et eksempel på et computergenereret billede, som håber ikke at krænke Urheberretten (præcis vedkender det ingen):

Søgemaskiner viser normalt kun små uddrag (snippets) af søgeresultater. Dette anses for tilladt. Her er et eksempel på en sådan snippet:

Manchmal vises også svar til formulerede spørgsmål direkte i søgemaskinen. Her begynder problemet: Hvis jeg tager mig tid og besvær med at udgive gratis artikler, så ønsker jeg, at læserne besøger min hjemmeside. Så har jeg i det mindste chancen for, at der opstår en god kontakt af hvad som helst slags.
Men hvis en søgemaskine direkte præsenterer mine indhold, besøger nogen til sidst ikke længere min hjemmeside. Hvorfor skal jeg så overhovedet offentliggøre eller gøre mine indhold tilgængelige uden omkostninger?
Analogt og endnu ekstremere er det med AI-algoritmer og -systemer. Sådanne systemer forstår fremmede indhold, og giver dem tilbage i en anden (synonym eller med andre oplysninger kombinert) form. Mod over har jeg noget, i hvert fald hvis det er mine egne indhold, og AI-drifterne tilbyder mig ikke noget herfor (link, penge osv.). Derfor finder du en artikel på Dr. GDPR, hvor beskrevet bliver hvordan ChatGPT forhinderet bliver, at de selv suger dine egne indhold.
Konklusion
AI-systemer som ChatGPT udnyttede offentlige kilder (sådan er i hvert fald oplysningen fra OpenAI). Så gør de ikke noget andet end søgemaskiner. Til min viden har Googles søgemaskine aldrig været forbudt nogen sted i Europa, hverken i Italien eller Tyskland. Den tyske dataskyddsmyndighed har også spurgt OpenAI, hvor de data kommer fra, som ChatGPT arbejder på.
Der kunne dog opstå et ophavsretligt problem, hvis fremmede indhold bliver udnyttet af AI-systemer. Herover har jeg ikke læst meget endnu.
Jeg forstår ikke begejstringen vedrørende (bekendt) kunstig intelligens og dataskydd fra flere grunde ikke helt:
- Dataene kommer fra offentlige kilder, der også søger efter data i søgemaskiner.
- Der er enkelt måltaget, der kan løse dataskadeligheds-problemer, hvis de overhovedet findes.
Dette Åndringstræk vil jeg snart beskrive til Dr. GDPR. Min tilgang bygger på et teknisk forståelse af arbejdssætningen af AI-systemer, sammen med mit forståelse af privatlivsbeskyttelse. En kunde kunne jeg allerede hjulpet til at løse juridiske problemer med sit AI-system. Hvis datamassen i AI skulle være blevet begrænset, ville det ikke længere være arbejdsværdigt.
Jeg finder det Vedkommende af nogle myndigheder (især Italien) svært. AI-systemer skal reguleres, så menneskeheden kan eksistere lidt længere. Dog har denne regulering først og fremmest ikke med privacy at gøre, men med Urheberret og den Fare for overmagte systemer. Min prognose på grund af de nuværende udviklinger er, at Aktiebørsen snart ikke længere kan eksistere i sin nuværende form og vil blive. For med hjælp af intelligente systemer vil snart (næsten) hver enkelt være i stand til at forudsige kursen på aktiekurser tillidensværdigt nok, så man kan handle spekulativt med aktier uden større risiko.
Kun i anden række og især ved systemer, der bruger ikke-offentlige indhold, kan et privatlivsproblem opstå. Ved inhold, der beskyttes af licenser, ville dog igen rettighed til værk være den rette prøvegrundlag.
De kan jo selv prøve at have det sjovt, ved at spørge OpenAI, om data fra jeres hjemmeside findes i deres indeks og kræve sletning af dataen fra indekset og alle AI-modeller (e-mail-adressen stammer fra OpenAIspersondatapolitik). ([1])



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
