AI bygger på massedata. EU beskytter data fra personer eller opfindere meget godt. Det er i sig selv godt, men skader dog ved udviklingen af konkurrencedygtige AI-systemer. Der er flere grunde, der taler imod effektive sprogmodeller lavet i Tyskland. Kan dette dilemma løses?
Introduktion
De hæufigste anvendelsesfelter for AI er nok sprogmodeller (LLMs) og billedmodeller. Måske kommer der snart videogeneratore eller objektigenkende systemer til. Denne artikel koncentrerer sig herfor af enkelthedens skyld på LLMs. Erkenningerne er overvejende eller uundgåelig overførbar til mange andre modeltyper, såsom klassifikatorer eller medicinske rapporteringssystemer.
Aktuelt kommer alle wettbewerbsfähige sprogmodeller fra lande, der ligger udenfor EU. Mistral må være en lille undtagelse, selv om dets sprogmodeller ikke helt er i spidsen.
Aleph Alpha er ikke en undtagelse, fordi deres nye model Pharia-1 scorer middelbart i benchmark-testerne, hvis man vil være høflig.
Nogle tror, at EU måske alligevel kan nå op. Det kommer ikke til at ske. For kraftfulde sprogmodeller kræver kun én ting: data. Intet andet. Ingen personale. Ingen teknologi. Ingen penge. Ingen tid. Intet andet end meget, helst repræsentative data mangler. Selvfølgelig skal data være lovlige. Dermed er der endnu færre data til rådighed.
For meget gode sprogmodeller mangler der én vigtig ingrediens i Europa:
Data.
Alt andet er altid tilgængeligt: En (!) person, en (!) eller få servere, bedste programkode til AI-træning.
Årsagerne til EU's efterslæb i forhold til AI er på en eller anden måde forordnet.
Databeskyttelseslove
Databeskyttelse er meget vigtigt. Mange skandaler bekræfter det, skandaler der primært har deres oprindelse uden for Europa. Her er et par eksempler:
I de USA blev en meget vigtig præsidentvalg påvirket, da analyserede data fra Google- og Facebook-brugere (Meta) blev brugt i strid med loven ("Cambridge Analytica").
Microsoft bliver af prominente steder i USA betegnet som et sikkerhedsrisiko for USA. Grunden er manglen på datasekretessen hos Microsoft.
Meta er ikke bedre end Microsoft, men snarere værre. Fordi Microsoft tjener mindst også penge på produkter, mens Meta kun har brugerdata til at sælge. Disse brugerdata bliver maksimalt udnyttet. Dataskyddsforskrifter som GDPR er derfor mere en hindring. ([1]) ([2])
Over Google kan også negativt rapporteres. At straffeløse gerninger kan opdaget blive ved, at amerikanske sikkerhedsmyndigheder udnyttede brug af Googles produkter, beroliger ikke rigtig. Hvis man som uskyldig borger er på det forkerte sted i forkert tid, bliver man hurtigt betegnet som straffeløs og forrådes uden skyld i fængsel eller måske endda dømmes til døden.
GDPR som Bekendtgørelse har en meget god Grundgedanke. Den blev udgivet, da AI endnu ikke var et emne. Den er i sig selv meget fornuftig. Men hvorfor bliver den faktisk ikke anvendt? Tyske dataskyddsmyndigheder sanktionerer faktisk kun i homøopatisk doser. (Note: I kept the "" untouched as per your request).
Datatilsynsbehorgerollen i EU: Stor knald eller mislykket start? AI bygger på massedata. EU beskytter data om personer eller opfindere særligt godt. Det er selv om det er godt, men skader ved udviklingen af konkurrencedygtige AI-systemer. Yderligere grunde taler imod leistungsfærdige sprogmodeller lavet i Tyskland. Lader dette dilemma kunne løses? Datatilsynsbehorgerollen tillader brugen af persondata til AI-træning faktisk kun på grundlag af det berettigede interesse (se Artikel 6 Abst. 1 Datatilsynsbehorgerollen). Samtykke udelukkes ved massedata. En aftale vil være rettighedsmæssigt svær ved massedata.
Det værre er: For myndigheder står det retlige interesse som lovgivende grundlag ikke til rådighed (står i ovennævnte artikel 6 § 1 GDPR efter bogstav f). Myndigheder kan således AI-systemer faktisk ikke træne. Det er især skuffende, for lige myndigheder ville have mange værdifulde data, der også kunne gavne borgere igen.
Persondata er kun omfattet af GDPR, herunder også pseudonym data (Art. 4 Nr. 1 GDPR). For anonyme data gælder GDPR ikke.
Men anonyme data eksisterer faktisk ikke, hvis man formulerer det lidt overdrevet. Det menes:
- Anonyme data er data, hvor den oprindelige data ikke længere er tilgængelig (meget sjælden sag).
- Anonyme data er ikke så repræsentative som oprindelige data og derfor mindre værdifulde til AI-træning.
- Anonymiseringen i sig selv er en databehandlingsforløb. Dette må myndigheder faktisk ikke udføre. Andre må faktisk kun udføre det, hvis der er et legitimt interesse, hvilket er vanskeligt at bedømme.
Vi taler her om praksis. Det, der er til teorien, interesserer ikke et enkelt firma i verden, der ønsker at løse konkrete problemer. Teoretiske diskussioner gør noget savned, nemlig praksis-relationen.
Faktisk måtte massedata alene på grund af dataskydd ikke kunne træde ind i et AI-system, f.eks. til træning af AI.
Dette gælder også for offentlige data på internettet. Følgende tilfælde er problematiske:
- Noget der beskriver en anden person kan være en sandhed, eller det kan være en løgn. Den anden person ønsker ikke at denne information skal være offentlig kendt, og absolut ikke opbevares i et AI-sprogmodel.
- En person offentliggør selv informationer om sig selv. En AI gemmer disse oplysninger, fordi personens hjemmeside bliver læst af en crawler. Senere beslutter personen at trække informationerne tilbage og kræver det også af operatøren af AI'en. Men desværre kan data ikke slettes fra AI-modeller. Prøv at fjerne en information fra dit hoved. Det går heller ikke. Dit hjerne og AI-hjernet er begge neurale netværk. Her er der ingen forskel. Tro det eller ej. Vigtigt er, at informationer ikke kan slettes fra AI-modeller.
Gentagelse: Uden for Datenschutzgrunde må ikke massedata anvendes til AI-træning i EU. Dette er mindst i nogle tilfælde en lidt unerwunsken følgevirkning af den ellers meget meningsbaserede GDPR.
Ophavsret
Det tyske opfindersret tillader via § 44b UrhG AI-træning med opfindersretligt beskyttede værker. Disse værker må til for AI-træningen endda kortvarigt gemmes.
Et værk er automatisk urheberretteligt beskyttet, hvis det (af en menneske) skabes. Man vil ikke være urheber, man bliver det automatisk. Det er analogt med vidnestatus: Hvis du har set en forbrydelse, så er du vidne. Du kan ikke vælge, om du skal være vidne eller ej. Du er blevet vidne eller ej.
Tyve år efter, at EU's dataskutzon blev vedtaget, har vi stadig ikke en egentlig AI-regulering i Europa. Der er flere årsager til dette. Leider havde den tyske lovgiver de forkerte rådgivere, da han skabte §44b UrhG. For i denne paragraf findes en forvekslet og meget praktikferdig modsætningsmulighed for udgivere. (Note: I kept the "" untouched as per your request).
Ophavsretshavere må modsige, at deres værker bliver brugt i AI-systemer. Dette modsagelse eller forbehold skal ifølge den tyske lovgivning enten stå i imprintet eller i webstedets vilkår (se Drucksache 19/27426, s. 89, 2. afsnit). Men hvordan?
robots.txt-filen er en anerkendt og bredt anvendt Branchen-Standard. Denne standard er perfekt maskinlæsbar. Det synes, at ingen af rådgiverne, der havde rådgivet regeringen, vidste om det. Desuden var det tydeligt, at i AGB eller i imprint typisk ikke Maschinenlesbarkeit overordnet er. Ofte er det med rådgivere sådan: En rådgiver vil gerne være rådgiver igen; derfor undgår de negative bemærkninger eller udtrykker sig bevidst eller på grund af sprogkompetence svært, så ingen forstår det. Den tyske standard er modsat af Branchen-Standard: Han er ikke maskinlæsbar, ingen standard og ikke bredt anvendt. Kort sagt: den tyske standard er fra praktisk synspunkt uanvendelig.
Endnu værre: Hvis du læser en hjemmeside og ønsker at bruge dens indhold til træning af et AI-model, skal du senere kunne bevise, at hjemmesideejeren ikke protesterede mod det, da du læste hans hjemmeside. Det er, hvad den tyske lovgiver ønsker.
Tyve millioner hjemmesider er en masse! Desværre kan niemand retssikker (i massen!) bevise, at på tidspunkt X var der ingen urheberrettigheder på hjemmesidene Y og Z samt de ti millioner hjemmesider A1 til A10000000. De må skulle læse hele hjemmesiden for at finde imprint og vilkårssider. Hva' hvis der er to imprint? Det sker jo. Nogle hjemmesideejere kunne gøre det selv ud fra had, for at få Dem til at bryde loven.
Konklusion: Det tyske ophavsret gør det umuligt at indlæse masseoplysninger fra tyske hjemmesider på en lovligt sikker måde.
Byråkrati og demokrati
I stedet for byråkrati skulle det hedde bureaucrazy (vitsen fungerer bedre på engelsk).
Demokrati er for mange det mindste Onde under alle Onde. Det kan man godt være enig i. Alligevel bliver demokrati med det som udgangspunkt et Onde.
Et eksempel viser det meget godt. En definition for en teknologi eller et teknologisk koncept skal ikke finde sted ved en rådgivning af 27 parter (hvert enkelt med flere personer). Præcis dette skete dog, da EU-kommissionen i forbindelse med AI-Act'en tænkte sig en definition for "AI-system". OECD har endnu flere medlemmer. Forfatteren af denne artikel havde nogle forbedringsforslag til definitionen af AI, som OECD gav. En af hovedforfatterne til definitionen skrev derefter (i overensstemmelse) tilbage, at det var umuligt at ændre definitionen yderligere. I virkeligheden skrev han: "Du ville skulle overbevise mere end 30 nationale delegeringer om at acceptere yderligere ændringer!" Det var slut med fremgangen.
Selv anpassingen af GDPR til AI-tiden er på grund af bureaukrati umuligt. Den tog år. I AI-tiden er allerede uger en lille evighed.
EU's definition af kunstig intelligens kan kun betegnes som uheldig og forkert. Den definerer ChatGPT, den bedste og mest fremragende chatbot lige nu, ikke som intelligent. Dermed er de fleste mennesker ikke intelligente, da ChatGPT oftest kan give bedre svar end de fleste mennesker på denne planet. Måske er mennesker alligevel ikke så intelligente?
EU's definition af, hvad der udgør et AI-system, er:
Et system for kunstig intelligens" (AI-system) er et maskinbaseret system, der er designet til at fungere med forskellig grad af autonomi og som kan generere resultater som forudsigelser, anbefalinger eller beslutninger, der påvirker det fysiske eller virtuelle miljø, for eksplicitte eller implicitte mål;
Kilde: Lov om Kunstig Intellighed (se ændring 163)
Kurzkritik til EU's definition af AI: ChatGPT er per se ikke selvstændig. En stadig halvvejs dum støvsugerrobot er dog selvstændig. Det kan være ingen kriterium for intelligens. Et resultat er ikke en forudsætning for intelligens; eksempel: Albert Einstein tænkte 3 år langt efter; var han i disse 3 år blot dummeligt, kun fordi han ikke producerede et resultat? ChatGPT påvirker normalt heller ikke det fysiske eller det virtuelle miljø, men en støvsugerrobot gør. Kritikken i detalje findes i en egen artikel, der også foreslår en mere holdbar definition af AI.
Hvad er løsningen?
For det første bør man huske, at der findes følgende typer af AI-sprogmodeller:
- Meget kraftfulde LLMs, der altid vil være ulovlige. Ingen (også ikke en automatisering!) kan juridisk gennemgå og filtrere de ekstreme datamængder.
- Delvist effektive store sprogmodeller, der lægger vægt på databeskyttelse og ophavsret. Også her må det desværre efter sandsynlighedsloven siges, at disse modeller er baseret på ulovligt behandlet data.
- Svage LLMs. Disse er enten a) fuldstændig lovlige eller b) næsten lovlige eller c) lige så ulovlige. I det første tilfælde er det ligegyldigt, fordi ingen vil bruge disse modeller. I det andet tilfælde er livskraft spildt. Den tredje sag afspejler en LLM-skaberen, der hverken forstår AI-træning eller juridiske bestemmelser
Kort sagt er faktisk alle sprogmodeller ulovlige. Alle, der det ikke er, interesserer ingen. Højst muligt kunne myndigheder ønske at bruge mindre avancerede sprogmodeller, fordi de fra desperation ikke ser nogen anden vej (se ovenstående bemærkninger samt fakten, at myndigheder reguleres, hvilket jo også ofte er godt).
Midlertidig konklusion: Der er ingen løsning. AI er ulovligt (og nyttigt).
Enten bruger man kunstig intelligens og ved, at det er forbudt. Eller man forbyder alle at bruge kunstig intelligens. Alle mellemveje er desperat forsøg, der sagtens kan være legitime. Det juridiske problem vil formentlig blive løst ved accept, helt i tråd med det sociale tankegods i juraen: Hvad der er forbudt, men alle gør, og hvad faktisk tolereres, vil enten fortsat tolereres eller til sidst blive erklæret lovligt. Sidstnævnte vil ikke ske hurtigt (se bureaukrati og demokrati).
Lille bi-scene for illustration af udviklingen af den sociale samfund: Tidligere gjald kun ordet "spontaneitet" som korrekt skrevet. Kun få brugte det sådan. Næsten alle brugte kun "spontanitet". På et tidspunkt blev "spontanitet" erklæret som faktisk korrekt. Den online Duden har det dog stadig ikke på skærmen og mener, "spontanitet" er "meget sjældent" (hvilket er forkert).
Hvad er den praktiske løsning?
Ingen løsning, men en lindring med en meget behagelig bigeffekt for skattebetalerne, er sanktioner.
Når endelig tyske dataskyddsmyndigheder udfører deres opgave ordentligt og sanktionerer dataforbrydere endelig ordentligt? Begrundelse ved eksemplet web-tracking: Web-tracking er omkring brugen af Google Analytics, Facebook Pixels eller andre invasive analyseredskaber. Ofte anvendes cookies heri. Denne overtrædelse sker hver dag millioner gange på tyske hjemmesider. Overtrædelsen er super let at dokumentere (åbne browseren, åbne nettetkonsole med tasten F12, åbne hjemmesiden, åben øjnene). Hvorfor gives der ikke bøder mod denne fortsatte overvægten?
Praktiske løsning lyder således: Hård og konsekvent og hurtig sanktionering af AI-leverandører som Microsoft, OpenAI, Meta, Google, Apple i Europa. Alt efter lovgivningen bliver enten leverandøren selv sanktioneret eller brugerne af disse løsninger bliver sanktioneret. Ingen bekymring, der vil fortsat være ChatGPT til rådighed. For efter den første sanktion bliver alt bedre. Var ChatGPT nogensinde sådan? Facebook vil (uheldigvis) ikke udrydde sig selv, da Facebook Fanpages håber nu engang at blive lagt stilling af tyske dataskyddsmyndigheder (EU-domstolen giver myndighederne eksplizit tilladelse til dette)
Udput af AI-modeller
Et andet tilgang er at betragte udfyldelsen af AI-systemer. Kun til inspiration skal følgende nævnes: En person, der udvikler tanker og fantasier af enhver art i sit hoved, men ikke materialiserer disse tanker og fantasier, gør intet galt og lever fuldstændigt i overensstemmelse med loven og retten. Så kunne et AI-system også vurderes på basis af sin udgivelse. Et AI-system uden udgivelse er faktisk uskadeligt. Det skal blot sikres, at dette forhold ikke misbruges, f.eks. ved hemmelig spørgning eller også ved spørgning i sig selv. En person har kun sit eget hoved til rådighed plus künstliche hjerter fra AI-systemer, der endnu ikke kan modstå brug af andre (partier).
Konklusion
AI kan være meget nyttig. Det præcis er problemet: At udnytte noget, fordi det er nyttigt, selvom det ikke er tilladt, skaber et vist dilemma.
Den privatsfærighedsschutz, f.eks. gennem GDPR, er en høj opnåelse. Den omfatter brugen af AI-systemer i store dele faktisk ikke. Det dilemma kan ikke løses de næste år.
AI viser EU's manglende evne til hurtige og effektive handlinger inden for teknologi. Kun små eksempler viser fremskridt. For eksempel da den italienske databeskyttelsesmyndighed midlertidigt forbød ChatGPT. At den hessiske databeskyttelsesombud derefter modigt sendte et spørgeskema til OpenAI, da alle andre også gjorde det, var ingen trøst for Hessens maksimalt passive holdning, når det gælder berørte rettigheder.
AI er ulovligt. For mange mennesker og virksomheder kan det være meget nyttigt. Lyder som en modsætning og også en juridisk modsætning. Den daglige virkelighed er dog frakoblet retsteori. Nyttigdom spiller i den juridiske vurdering en (dog) underordnet rolle.
AI vil dræbe os alle. Men indtil da vil den være uhyre nyttig for os.
Ifølge Sam Altman.
Det er vigtigt, at udgifterne fra AI-systemer anvendes med stor forsigtighed. Det kan ikke lade sig gøre med cloud-tjenester som ChatGPT. Særligt ikke hvis chatboksen anvender OpenAI's teknologi.
Entweder bliver en AI selv betjent (Offline-AI, GPU-server eller GPU-kluster). Således kan både indgange til AI (prompts) og udgange best muligt overvåges. Efterligningen af AI-systemet kan også optimeres, og det leverer ofte meget bedre resultater end alle de pladshestere, der kun er blevet konditionerede til universel brug.
Eller det bliver til stigning af sikkerheden ved hjælp af en Cloud-tjeneste, hvis programmeringsgrense (API) bruges, men ikke dens standardbrugergrænseflade. Så kan i hvert fald indtagerne og udgangerne fra den tredje AI samt deres output overvåges godt.
I hvert fald skal det tyske Urheberretslov opdateres. Derudover bør myndigheder få flere muligheder for at bruge data til AI-træning.
Det vigtigste og mest effektive er dog hårdt sanktionering af AI-leverandører, der for det meste sidder udenfor EU. I kølvandet heraf skal den administrative byrde reduceres, så statsretten ikke hele tiden bliver til en teoretisk øvelse. Det, der gælder, er kun praksis. Med papir alene kunne man stadig ikke løse nogen problematik. Ved siden af det har den amerikanske regering på grund af en præsidentiel afgørelse dyb indsigt i AI-modellerne fra OpenAI og Anthropic.
Kernelementer i denne artikel
EU har bemærkelsesværdige databeskyttelseslove. Disse gør det vanskeligt at udvikle højkvalitets AI-sprogmodeller, fordi de kræver store mængder data til træning, som ikke kan sikres juridisk.
GDPR forbyder det at bruge personlige data uden samtykke eller berettiget interesse til træning af AI-systemer. Myndigheder kan derfor ikke træne sådanne systemer, da de ikke har den juridiske grundlag.
Det tyske ophavsretslov gør det vanskeligt at bruge data fra tyske hjemmesider til træning af AI-systemer.
EU's definition af AI er uheldig og forkert, fordi den ikke betragter ChatGPT som intelligent.
AI-modeller er næsten altid ulovlige, men almindeligt udbredt. En praktisk løsning kunne være at handle hårdt og hurtigt mod overtrædelser, f.eks. ved at påføre bøder til leverandører som Microsoft, OpenAI eller Google i Europa.
AI-systemer kan være meget nyttige, men de skal overvåges omhyggeligt for at forhindre misbrug.
Byråkrati skal reduceres, så retsstaten kan implementeres i praksis i stedet for kun at eksistere teoretisk.
Over disse grundlæggende påstande


My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
