Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
✓ Ausprobieren DSGVO Website-Check sofort DSGVO-Probleme finden

Konstig intelligens: fakta och missuppfattningar. Dataskydd? Upphovsrätt?

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI

Varje människa pratar om artificiell intelligens, men ingen vet vad det egentligen innebär. Så långt den första punkten. Den italienska dataskyddsförvaltningen förbjöd användning av ChatGPT, men sökmotorer som Google får fortsätta att arbeta. Vad är artificiell intelligens i dag och vad har det med dataskydd att göra?

Snart

Sammanfattning:

Kunskapsdatorer (AI) och dataskydd är två ämnen som under de senaste åren fått allt mer uppmärksamhet. AI-system som ChatGPT bygger på offentliga datakällor och använder liknande metoder som sökmotorer. Därför är det inte nödvändigtvis ett större dataskyddsuppdrag för att använda AI-användningar än för att använda sökmotorer. Men AI-system kan orsaka upphovrättsproblem om de återger främmande innehåll i annan form.

Svarade på frågor:

Vad är artificiell intelligens i nuet?
Svar: AI för nuet hänvisar till moderna AI-system som ChatGPT eller andra stora språkmodeller (LLMs), som bygger på högkvalitativa massdata och geniala matematiska modeller för att simulera människolik intelligens.
Vad har konstig intelligens att göra med dataskydd?
Kunstig intelligens kan främst orsaka dataskyddproblem när den tillgång till icke-offentliga personuppgifter.
Vad är skillnaden mellan artificiell intelligens och sökmotorer när det gäller dataskydd?
Svar: Båda künstliche intelligens och sökmotorer samlar data från offentliga källor, men AI-system kan återge innehåll i annan form och möjligen orsaka upphovrättsproblem, medan sökmotorer vanligtvis bara visar korta snuttar.
Vad är de största problemen med artificiell intelligens?
Huvudproblem i samband med artificiell intelligens är upphovsrättsproblem, AI:s förmåga att ersätta människor och eventuella problem kring integritetsskydd.

Viktiga nyckelord:

Konstgjord intelligens, ChatGPT, LLMs, Stora Språkmodeller, Common Crawl-databaser, Wikipedia, Online-texter, Vektorer, Kunskapsbas, Matematisk modell, Talserier, Molnberäkning, Python, Pytorch, TensorFlow

Podkast till artikeln:

Inledning

Under senare år har begreppet konstig intelligens blivit inflationärt och oprecist användt. Nu, 2023, tycks det vara absolut genombrottet enligt min uppfattning. Från min synvinkel som datalog har man först och främst lyckats lösa upp grundprincipen för den mänskliga intelligensen. Därefter har man lyckats visa att detta är lyckat.

Mänskligt hjärna är en automat, där hårdvaran är biologisk. Vår hjärna bygger på stokastiska processer (kontrollerad slump). Detta är också grundprincipen för kvantfysiken, som bestämmer hela vår livsstil. Analogt (automat, stokastik, slump) beter sig med elektroniska AI-system.

Så har Turing-testen enligt min mening för första gången blivit klarad av ett datorprogram. Vad Joseph Weizenbaum med sin virtuella psykolog Eliza tidigare bara lyckades med, genom att införa en skicklig dialogteknik i sitt system, fungerar nu precis, i april 2023, över en effektiv simulering av det mänskliga hjärnan. Jag hade faktiskt äran att möta herr Weizenbaum personligen på min universitet (det var nog runt år 2000) vid TU Ilmenau. Dessutom är jag stolt över att TU Ilmenau räknades till toppuniversiteten i Europa och listades i ett rankning så här: Cambridge, Oxford, Zürich, Eindhoven, London, Ilmenau. Vem känner inte till Ilmenau?

Vad är konstig intelligens?

Vad konstig intelligens är, kan jag inte ge ett fullständigt svar på. Men jag kan säga en del om de nuvarande systemen som ChatGPT eller allmänt till LLMs (Large Language Models),.

De senaste systemen som rättfärdigt skapar begeistring, bygger i huvudsak på två tillvägagångssätt:

  1. Kunskapsbasen: Kvalitetsmässiga massdata
  2. Genialt matematiskt modell: Tank- och förståelsecentret i hjärnan

ChatGPTs kunskapsbas bygger särskilt på följande offentliga källor:

  • Vanliga Crawldatamängder (CC och CC4): Stor del av internet (delvis slumpmässigt). Kan någon ladda ner.
  • Öppen, har länge varit tillgänglig som dump. Kan någon hämta ner den.
  • Många olika digitala böcker: Alla kan ladda ner dem.
  • Öppet online-innehåll: Tillgängligt för allmänheten via crawling eller genom dumpar.

Som syns handlar det inte om hemliga uppgifter utan om det som sökmotorer som Google i huvudsak också gräver upp. Google graver till och med ytterligare många källor, såsom PDF-dokument, sociala medierplattformar och ännu fler webbplatser.

De flesta data som används för kognitivt artificiell intelligens tillämpningar som ChatGPT är antingen offentliga eller icke-personuppgifter.

Dataskydd är inte det största problemet när vi pratar om AI. Det är AI:s förmåga att ersätta människor. Innan dess kommer upphovsrättigheten.

Nu blir det spännande. Det matematiska modell, som nuvarande kraftfulla AI-systemen bygger på, fungerar ungefär så:

  • Översätt kunskapsbasen till en rad av siffror (vektorer).
  • Beroende på vilken uppgift som ska lösas: Omvandla en ingång (fråga, att översätta text osv) också till ett talserie.
  • Utför en Ähnlichkeitssökning mellan de två nyligen nämnda vektorerna. De mest lika data-paren är det sannolikt resultatet.

Detta förfarande kan användas på alla möjliga typer av data, däribland särskilt på:

  • ChatGPT, LLaMa osv., särskilt textkomplettering, fråga-svar-assistent, översättning, likhetsuppsökande, textsammanfattningar (extraktiv och abstraktiv: utvalda ursprungliga meningar mot meningsbärande återgivning i nya ord…)
  • Photos: DALL-E, Midjourney osv.
  • Ljudfiler: Wav2Vec, GANSynth. Vem känner till exempel?
  • Filmer: Här
  • Alla andra signaler, oavsett om de är kontinuerliga (analog) eller diskreta (digital), viktigast av allt att en överföring till diskreta värden och vektorer är möjlig

Konsten bestod (!) i att vektorisera indata. Detta problem är nu tillfredsställande löst. Vi alla, särskilt dataloger och andra tekniskt intresserade personer, kan nu använda dessa möjligheter. De som inte har någon erfarenhet av teknik måste använda färdiga system. Den som har djupare kunskaper om mjukvaruteknik och moderna teknologier kan bygga, utöka och djupgående ändra sådana system själv.

Jag har provat det igår och programmerat ett system som ger svar på frågor. För detta används en offentlig tillgänglig kunskapsdatabas, även kallad Datablad. Som valda programmeringsspråk har Python kommit fram. Som AI-ramverk är särskilt Pytorch och TensorFlow att nämna. Eftersom dessa ramverk är ressourcenhungriga, skadar det inte att känna till Cloud Computing. Hur bra, att det finns dataskyddsvänliga molnlösningar även från Tyskland.

Ett särskilt intressant med ChatGPT är den generella ansatsen. Systemet kan inte bara utföra en uppgift utmärkt, utan lika gärna flera. Detta kallas också för Artificiell Intelligens (AI). AGI står för Artificial General Intelligence, medan AI tidigare har stått för Artificial Intelligence och i svenska översatts till AI.

Många AI-system kunde redan tidigare lösa utmanande uppgifter med stor framgång, till exempel DJEPPL (en tysk firma från Cologne!) som kunde översätta texter på ett fantastiskt sätt. Men deras förmåga var begränsad till ett relativt starkt definierat problemområde. ChatGPT är mycket mångsidigt att använda. Till exempel kan man med DJEPPL bara översätta texter, men det går inte att göra likadant med ChatGPT, utan mycket mer än vad DEEPL ens har kännedom om.

För att Tidskrävande AI-algoritmer ska kunna beräkna snabbare, används ofta Grafikkort för beräkningarna. I motsats till vanliga processorer (CPUs) har grafikkort GPU:s (grafikprocessorer). Av en slump kan GPU:er utföra de beräkningsoperationer som AI-användningar kräver betydligt effektivare än CPUs.

Den populäraste gränssnittet och plattformen för en GPU är, efter min kännedom, CUDA från NVidia, ett välkänt tillverkare av grafikkort. CUDA står för Compute Unified Device Architecture. Det finns också Intelligenta Processorer (engelska) från leverantören Graphcore. IPU står för Intelligence Processing Unit, medan CPU står för Central Processing Unit och GPU står för Graphics Processing Unit. Från Google finns det tillfälligt något positivt att rapportera, nämligen TPUs (Tensor Processing Units). TPUs verkar främst användas i Googles moln, varför de ofta är av mindre intresse för den dataskydda utvecklaren.

Prestandan hos sådana AI-grafikkort beror bland annat på antalet CUDA-kärnor. Grafikkort från konsumentsegmentet har till exempel 5888 sådana kärnor (Nvidia GeForce RTX 3070) och är faktiskt tillgängliga för privatpersoner.

Om du tror att du kan hålla jämna steg med mig, här är några ytterligare begrepp som du borde känna till: Model, Reader, Retriever, Index, Encoder/Decoder, Transformer, Pipeline, Policy, Dataframe. Det är bara en liten del av de viktiga begrepp som krävs för ett mer detaljerat förståelse av moderna AI-system. Den som vill förstå GPT-baserade system bättre borde exempelvis ha hört talas om (rekurrenta) neuronala nätverk, Markov-modeller och begrepp som LSTM och NLP.

Användningsfallen för likhetsuppsökning över diskreta vektorer är enorma. Alla baseras på samma (inte det samma) grundprincip:

  • Fråge-svar-system. Exempel från min lokala installation, som bara använder en rätt ganska liten kunskapsbas: „Vad var den tidigare amerikanske presidenten John F. Kennedy känd för? För Apollo-programmen (en vecka efter Kennedys död utfärdade president Johnson ett prösserligt dekret, där utrymmesverken i Cape Canaveral och Apollo fick namn efter Kennedy)
  • Översättning av text från en källspråk till ett målspråk.
  • Vilket bild som bäst passar till ett givet utlåtande?
  • Skapa ett bild från en textpromt.
  • Sammanställning av en text.
  • Sättning av ett musikstycke som har samma karaktäristika som andra verk från en kompositör.

Den likhetsjakt som sker sörjer för att från datorsystem med "enkla medel" kan innre struktur av det tyska språket läras in. Wow! Förklara någon för vem detta innebär, och hur man kan lära sig detta utan att använda språket i verkligheten under flera år.

En särskilt charmanter Zug moderna AI-system, som bygger på LLMs: Tränade modeller kan genom Fine-Tuning tränas för specifika problem. Därför kommer också det akronymet GPT (Generative Pre-trained Transformer). Systemet har lärt sig en gång och kan sedan snabbt utöka sina förmågor på specifika uppgifter. Precis så beter det sig med en människa som har lärt sig att lära sig.

Man måste veta att att träna ett språkmodell är mycket datorintensivt. På en vanlig dator tar det några veckor, om man har rätt datauppsättningar tillgängliga. Någonstans mellan "bara" några veckor ska man säga. Redan tidigare behövdes en superdator för detta.

Man kan alltså gå och ta ett LLM som utgångspunkt, vilket någon annan har tränat med stor möda. Denna LLM fyller man sedan med sina egna domänspecifika data. Till slut kommer ett AI-system fram, som har förmågan hos det mäktiga LLM plus kunskap om sitt eget problemområde. Det Fine-Tuning av det mäktiga modellen är då utfört på en sekund. Väsentligt härvid är en god utgångsdatauppsättning, som borde maskinellt förberedas. Med rätta tekniska verktyg kan sådana verkställa ett arbetsbord, för att effektivt lösa alla möjliga kunskapsproblem. Och det är med ett lokal installerat AI-system, vilket inte behöver någon internetuppkoppling och som inte kräver kostnader hos tredje part.

Vi säger många att ChatGPT och andra liknande system skulle bara stochastiskt arbeta: Precis så funkar också vårt hjärna. Vårt hjärna är också bara en Maskin, ingenting mer. Tydligen menar vi dock en mycket kapabel automat. Gradet av slump i vår hjärna kan vi som hjärnanslag inte själva styra (högst genom tillförsel av alkohol eller andra droger). I AI-systemen kan slumpen styras genom att ange den så kallade Temperaturen. En högre temperatur skapar mer kreativa svar. En temperatur på fryspunkt säkerställer dock en deterministisk automat, som alltid ger samma svar för samma frågor.

Från lexikon för neurowetenskap: Stokhastiska processer hittar många tillämpningar vid beskrivning av enskilda neuroner (stokhastiska svängningar i membranpotentialen, stokhastiska följder från aktionspotentialer) eller av neuronssystem (populationsliknande ekvationer för neuronala nätverk med stokhastisk aktivitet) Ett mänskligt hjärna består av precis dessa delar och bygger på dessa principer.

Source: Spektrum der Wissenschaft, fetstil från mig, likaså den sista meningen.

En anteckning eftersom en läsare kontaktade mig på grund av denna artikel: Han lovade att berätta varför min förståelse av intelligens är kritiserbar. Jag är intresserad av hans återkoppling och kommer att införa den i detta inlägg så snart det finns tillgänglig information.

Vad har artificiell intelligens att göra med dataskydd?

Lokala AI-system, som det precis beskrivits, sparar sina data i alla fall inte hos tredje part. De kunde göra det utan att (särskilda) dataskyddproblem uppstår. Det gäller nämligen då data kommer från offentliga källor som är fritt tillgängliga.

Den som offentligt på Facebook gör uppgifter om sin person har förlorat sitt rätt till integritet vad gäller dessa uppgifter.

Om skyddandet av egna uppgifter är viktigt för dig, rapportera inte offentligt om dina känslomässiga tillstånd, sjukdomar och semesterplaner.

Om det inte fanns kända sökmotorer, skulle svaret på dataskyddsuppdraget för AI-användningar vara enklare. Men sökmotorerna gör i första hand ingenting annat än vad AI-systemen gör: de samlar många data. Vad gäller ChatGPT är tillvägagångssättet faktiskt lika, när det gäller tillgängligheten av källorna. ChatGPT samlar nämligen precis som Google eller Bing data från öppna källor.

Varför det här ska vara skillnadet förstår jag inte.

Sökmotorer ger ut bra, men inte särskilt intelligenta svar på frågor. En fråga är ett sökord eller också en enkel formulerad kunskapsfråga. AI-systemen ger lika bra (eller delvis bättre) svar på språkligt eller innehållsmässigt komplexa frågor.

Qualitativ handlar det om Frage-Antwort-System vid sökmotorer och vissa uttryck av AI-system. ChatGPT är ett sådant svarssystem, precis som Googles eller Bing:s sökmotorer. Sättet att hantera data är redan vid klassiska sökmotorer att betrakta som rätt invasivt. AI-systemen går inte alls längre om man tittar på de matematiska modellerna, som trots att de är mycket rekenintensiva, inte nödvändigtvis är mer spännande.

Denna punkt är också kvalitativ lika, även om ChatGPT klarar Turing-testet, men enkla sökmotorer inte. I den länkade artikeln av mig förklaras Turing-testet kort och illustreras med ett verkligt exempel.

Ray Kurzweil hade rätt när han redan 2005 skrev ett bok med titeln "Singuläriteten är nära".

Jag hade läst boken då, men ingen aning om hur rätt han hade.

Svar, som sökmotorer ger, motsvarar i huvudsak återgivningen av tidigare lästa innehåll. AI-användningar ger ofta även innehåll på annat sätt tillbaka, såsom ChatGPT. Det är en skillnad. Men detta har med dataskydd bara i begränsad utsträckning att göra. Man kan diskutera om falska uppgifter eller hallucinationer från konstig intelligens är ett dataskyddsproblem. Jag ser det först inte som så.

I samband med förbudet mot ChatGPT i Italien av den lokala dataskyddsförvaltningen nämndes också ungdomsskydd som skäl. Såvitt jag vet är innehåll på YouTube, Facebook, Twitter och i sökmotorer från Google och Bing tillgängligt för vem som helst som kan trycka några knappar. Där skulle ungdomsskyddet vara, ser jag inte.

När en konstig intelligens offentliga källor anslår, ser jag således först inget dataskyddsuppdrag. I alla fall är problemet inte annorlunda än för sökmotorer, sociala nätverk eller andra portaler som återger innehåll från tredje part. Italien har nog (baserat på ett dataintrång) upptäckt att även användarens inmatningar i ChatGPT sparas. Såvitt jag vet gör stora sökmotorer också detta. Det förändrar inte situationen, men ställer frågan varför inget redan tidigare gjorts mot sökmotorerna.

Vart ligger problemet med AI?

AI-system sörjer möjligtvis för Urheberrechtsproblem. För att återge innehåll i en form som går utöver korta citat är juridiskt problematiskt. Det gäller både text och andra medieformer, såsom bilder. Här ett exempel på ett bildskapad av en dator, som hoppas inte kränker några upphovsrätter (ingen vet exakt):

Bild genererad av AI över prompten "konstig intelligens, dator, internet…"."

Sökmotorer ger vanligtvis bara klipp (snippets) av sökresultat tillbaka. Det anses som tillåtet. Här är ett exempel på ett sådant snippet:

Ett sökresultat (snutt) från sökmotorn DuckDuckGo (vem använder ändå Google och ger denna företag ännu mer av sina data?).

Ibland visas även svar på formulerade frågor direkt i sökmotorn. Här börjar problemet: Om jag redan tar mig tid och besvär att publicera gratisinlägg, vill jag då att läsarna besöker min webbplats. Så har jag åtminstone chansen att det leder till ett bra samtal av vilken art som helst.

Men om en sökmotor direkt visar mina innehåll, besöker ingen senare min webbplats. Varför ska jag då göra mitt innehåll tillgängligt eller gratis?

Analogt och ännu mer extrema är det med AI-algoritmer och -system. Sådana system förstår främmande innehåll och ger det i en annan (synonym eller med andra uppgifter kombineras) form tillbaka. Däremot har jag något, åtminstone om det är mina innehåll och AI-driftarna erbjuder mig inte detta (länk, pengar etc.). Därför hittar du en artikel på Dr. GDPR, där beskrivs hur ChatGPT hindras från att suga upp dina egna innehåll. ([1])

Sammandrag

AI-system som ChatGPT använder sig av offentliga källor (åtminstone enligt OpenAIs offentliga uppgifter). Därför gör de ingenting annat än sökmotorer. Såvitt jag vet har Googles sökmotor ännu inte förbjudits någonstans i Europa, vare sig i Italien eller Tyskland. Tyska dataskyddsförvaltningar har också frågat OpenAI varifrån de data kommer som ChatGPT arbetar med.

Det kunde dock uppstå ett upphovsrättsproblem om innehåll från andra källor bearbetas av AI-system, något jag hittills inte läst mycket om.

Jag förstår inte alls upprörelsen kring (känd) artificiell intelligens och dataskydd från flera synvinklar:

  • Daten kommer från offentliga källor som även sökmotorer gräver i.
  • Det finns enkla åtgärder för att lösa dataskyddsuppgifter, om de överhuvudtagit taget finns.

Dessa åtgärder kommer jag snart att beskriva till Dr. GDPR. Min ansats bygger på ett tekniskt förstående av hur AI-system fungerar, kombinerat med mitt förstående för dataskydd. Till en kund kunde jag redan hjälpa till att lösa juridiska problem med hans AI-system. Om man hade behövt begränsa den datamängd som lagrades i AI:et skulle systemet inte längre ha fungerat.

Jag håller det förfaringssätt som vissa myndigheter (särskilt Italien) för svårt. AI-system måste regleras så att mänskligheten kan existera en aning längre. Dock har denna reglering främst ingenting med dataskydd att göra, utan med upphovsrätt och faran för övermäktiga system. Min prognos på grund av de nuvarande utvecklingarna är att aktiemarknaden snart inte längre kan existera i sin nuvarande form och kommer inte att kunna göra det. För då kommer (snart) varje människa att kunna förutsäga kursutvecklingen på aktiekurser tillförlitligt nog, så att man kan handla med aktier utan någon som helst risk i enbart spekulerande syfte.

Först och främst i andra hand och framför allt vid system som använder icke-offentliga innehåll kan ett dataskyddsuppdrag uppstå. Vid licensierade innehåll skulle dock återigen upphovsrätten vara rätt utgångspunkt.

Ni kan ju testa att fråga OpenAI om data från er webbplats finns i deras index och begära att de tas bort från indexet samt alla AI-modeller (den länkade e-postadressen kommer från OpenAIs integritetspolicy). ([1])

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Konstgjord intelligens inom säkerhetsområdet: Grundläggande principer och möjligheter