AI bygger på massdata. EU skyddar särskilt uppgifter om personer eller upphovsmän. Det är bra i sig, men skadar utvecklingen av konkurrenskraftiga AI-system. Ytterligare anledningar talar emot effektiva språkmodeller tillverkade i Tyskland. Kan detta dilemma lösas?
Introduktion
De vanligaste tillämpningarna för AI är nog språkmodeller (LLMs) och bildmodeller. Möjligen kommer snart videogeneratörer eller objektidentifierare att lägga till sig. Denna artikel koncentrerar sig därför enkelt sagt på LLMs. Resultaten är övervägande eller helt överförbara till många andra modelltyper, som exempelvis klassifikatorer eller medicinska rapportsystem.
Aktuellt kommer alla wettbewerbsfähiga språkmodeller från länder som ligger utanför EU. Mistral kan vara en liten undantag, även om deras språkmodeller inte är allra bästa.
Aleph Alpha är inte ett undantag, eftersom deras nya modell Pharia-1 presterar medelbart i benchmarkningstester, för att uttrycka sig artigt.
Vissa tror att EU kanske ändå kan komma ikapp. Det kommer inte att hända. För kraftfulla språkmodeller behövs nämligen bara en sak: data. Ingenting annat. Ingen personal. Ingen teknologi. Ingen pengar. Ingen tid. Ingenting annat saknas än väldigt mycket, helst representativa data. Naturligtvis bör data vara rättskonforma. Därmed finns det ännu färre data tillgängliga.
För mycket bra språkmodeller saknas det en viktig ingrediens i Europa:
Data.
Allt annat finns alltid tillgängligt: En (!) person, en (!) eller några få servrar, bästa programkoden för AI-träningen.
Anledningarna till att EU faller efter när det gäller AI är på riktigt förordnade.
Dataskyddsförordningar
Dataskydd är mycket viktigt. Många skandaler bevisar det, skandaler som främst har sitt ursprung utanför Europa. Här är några exempel:
I USA påverkades en mycket viktig presidentvalet på ett sätt, att analyserade data från Googles och Facebooks (Meta) användare användes på ett lagligt felaktigt sätt ("Cambridge Analytica").
Microsoft betraktas av framstående källor i USA som ett säkerhetsproblem för USA. Orsaken är bristande dataskydd hos Microsoft.
Meta är inte bättre än Microsoft, utan snarare sämre. För Microsoft tjänar man åtminstone pengar på produkter, inte bara på data. Meta har ingenting annat än användardata. Dessa användardata marknadsförs maximalt. Dataskyddslagar som GDPR är därmed mer ett hinder. ([1]) ([2])
Man kan rapportera liknande negativa saker om Google. Att ibland kan straffördas genom att amerikanska säkerhetsmyndigheter analyserar användningen av Googles produkter, ger inte riktigt lugn. Den oskyldige medborgaren som är på fel plats vid fel tidpunkt, blir snabbt dömd och förbrutits i fängelse eller måste till och med räkna med dödsstraffet.
Dataskyddsförordningen som förordning har ett mycket bra grundtanke. Den utfärdades innan AI var ett ämne, och den är i sig själv mycket meningsfull. Men varför tillämpas den faktiskt inte? Tyska dataskyddsförvaltningar sanktionerar faktiskt bara i homöopatiskt mätbara doser.
Dataskyddsförordningen (GDPR) tillåter användning av personuppgifter för AI-träning i praktiken endast på grundval av berättigat intresse (se Artikel 6 Abst. 1 GDPR). Samtycke utgår vid massuppgifter. En överenskommelse blir rättsligt svår att genomföra för massuppgifter.
Det värre är: För myndigheter står det berättigade intresset som rättslig grund inte tillgängligt (finns i den artikel 6 § 1 GDPR efter bokstaven f). Myndigheter kan således AI-system faktiskt inte träna. Det är särskilt beklagligt, eftersom just myndigheter hade många värdefulla data som också kunde gagna medborgare igen.
Dataskyddsförordningen gäller "bara" för personuppgifter, till vilka även pseudonymer uppgifter hör (Artikel 4 Nr. 1 GDPR). För anonyma data gäller inte dataskyddsförordningen.
Men anonyma data finns faktiskt inte, om man uttrycker det lite överdrivet. Det avses:
- Anonyma data är data där originaldata inte längre är tillgängliga (ett mycket sällsynt fall).
- Okända data är inte lika representativa som ursprungsdator och därmed mindre värdefulla för AI-träning.
- Anonymiseringen i sig är en databearbetningsprocess. Denna får egentligen inte utföras av myndigheter. Andra får egentligen bara utföra den om det finns ett berättigat intresse, vilket är svårt att bedöma.
Vi pratar om praktiken. Vad som gäller i teorin intresserar inget företag i världen som vill lösa konkreta problem. Teoretiska diskussioner saknar en praktisk anknytning.
Faktiskt får man alltså inte låta massdata ensamt på grund av dataskyddsskäl flyga in i ett AI-system, till exempel för träningen av AI.
Det gäller även för offentliga data på internet. Följande fall är problematiska:
- Någon skriver något om en annan person. Det kan vara en sanningsenlig påstående, eller också en förtal. Den andra personen vill inte att denna information ska vara offentlig, och ännu mindre att den sparas i ett AI-språkmodell.
- En person publicerar själv information om sig själv. En AI lagrar denna information eftersom personens webbplats läsas in av en crawler. Senare bestämmer personen sig för att ta tillbaka informationen och begär detta även från operatören av AI:n. Men tyvärr kan data från AI-modeller inte raderas. Försök ta bort en information ur ditt huvud. Går inte heller. Ditt hjärn och AI:s hjärn är båda neuronala nätverk. Här finns ingen skillnad. Tro det eller ej. Viktigt är att information inte kan tas bort från AI-modeller.
Återkomst: Av dataskyddsskäl får man inte använda massdata för AI-träning i EU. Detta är åtminstone i några fall en mer ofördelaktig bieffekt av den annars mycket meningsfulla GDPR.
Upphovsrätt
Det tyska upphovsrätten tillåter enligt § 44b UrhG utbildning av AI med verk som skyddas av upphovsrätt. Dessa verk får även lagras kortvarigt för AI-utbildningen.
Ett verk är automatiskt urheberrättsligt skyddat, när det (av en människa) skapas. Man vill inte bli urhäber, man blir det automatiskt. Det är analogt med vittnesskap: När du sett en gärning, är du vittne. Du kan inte välja om du vill vara vittne eller ej. Du har blivit vittne eller ej.
Tyvärr har den tyska lagstiftaren haft fel rådgivare när han utarbetade §44b UrhG, för att i detta paragraf finns en snedvriden och mycket praktikfrämmande motsägelsemöjlighet för upphovsmän.
Upphovsrättsinnehavare får motsäga att deras verk hamnar i AI-system. Denna invändning eller reservation måste enligt tysk lagkommentar antingen finnas i företagets uppgifter eller villkor på webbplatsen formulerad (se Drucksache 19/27426, s. 89, 2. stycke). Men hur?
robots.txt-filen är en erkänd och vida spridd branschstandard. Denna standard är perfekt läsbar för maskiner. Tydligen visste ingen av rådgivarna som hade berättat till regeringen om detta. Dessutom tycktes det vara okänt att i villkor eller i kontaktuppgifter typiskt sett inte läsbarhet för maskiner förekommer. Många gånger är det med rådgivare så: En rådgivare vill fortsätta vara rådgivare; därför undviker han negativa synpunkter eller uttrycker sig avsiktligt eller på grund av språklig oförmåga så komplicerat att ingen förstår. Den tyska standarden är det motsatta av en branschstandard: den är inte läsbar för maskiner, inget standard och inte vida spridd. Kort sagt: den tyska standarden är från praktisk synvinkel oanvändbar.
Ännu värre: Om du läser innehållet på en webbplats och vill använda det för att träna ett AI-modell, måste du senare kunna styrka att webbplatsens ägare inte motsatte sig detta när du läste in deras webbplats. Det är vad den tyska lagstiftaren föreslår.
Tyvärr kan ingens rättsligt säkerställda (i massen!) bevisa att på tidpunkt X fanns det ingen upphovsrätt på webbplatserna Y, Z samt de tio miljonerna webbplatser A1 till A10000000. De skulle behöva läsa in hela webbsidan, för att hitta sidor med information om förlagor och villkor. Vad händer om det finns två uppgifter om förlagor? Det kan faktiskt hända. Vissa webbplatsägare kunde göra detta rentav av syfte att locka till rättsbruk.
Slutsats: Tyska upphovsrätten gör det omöjligt att läsa in stora mängder data från svenska webbplatser på ett rättsligt säkert sätt.
Byråkrati och demokrati
Istället för byråkrati borde det heta byråcrazy (ordleken fungerar bättre på engelska).
Demokrati är för många det minsta Övergrepp under alla övergrepp. Man kan hålla med om det. Ändå kvarstår demokratin som ett övergrepp.
Ett exempel visar det mycket tydligt. En definition för en teknik eller ett teknologiskt begrepp bör inte fastställas genom att 27 parter (var och en med flera personer) rådgjort har. Precis detta hände dock när EU-kommissionen i samband med AI-aktet tänkte ut en definition för "AI-system". OECD har ännu fler medlemmar. Artikelförfattaren hade några förslag till förbättringar av KIs definition, som OECD gav. En av huvudförfattarna till definitionen skrev därefter (i korthet) att det var omöjligt att ändra definitionen ytterligare. Han skrev i stället: "Du skulle behöva övertyga mer än 30 nationella delegationer om att acceptera några ytterligare ändringar!" Det var slut med framstegen.
Även anpassningen av GDPR till AI-åldern är på grund av byråkrati omöjlig. Den tog år. I AI-åldern är redan veckor en liten evighet.
EU:s definition av artificiell intelligens kan bara beskrivas som olycklig och felaktig. Den klassificerar ChatGPT, den bästa och mest framstående chatboten just nu, inte som intelligent. Därmed är de flesta människor inte intelligenta, eftersom ChatGPT ofta kan ge bättre svar än de flesta människor på denna planet. Kanske är människor ändå inte så intelligenta?
EU:s definition av vad ett AI-system är, är:
System för artificiell intelligens" (AI-system) är ett maskinbaserat system som är utformat för att fungera med olika nivåer av autonomi och som kan generera resultat som förutsägelser, rekommendationer eller beslut som påverkar det fysiska eller virtuella miljön, för uttryckliga eller implicita mål;
Source: Lag om konstig intelligens (se ändring 163)
Kort kritik mot EU:s definition av AI: ChatGPT är i sig inte autonom. En fortfarande ganska dumm städrobot är dock autonom. Det kan inte vara ett kriterium för intelligens. Ett resultat är ingen förutsättning för intelligens; exempel: Albert Einstein tänkte 3 år på en gång; var han under dessa 3 år kanske dum, bara för att han inte producerade något resultat? ChatGPT påverkar vanligtvis inte det fysiska eller virtuella omgivningen, men en städrobot gör det. Kritiken i detalj finns i ett eget inlägg, som också föreslår en hållbar definition av AI.
Vad är lösningen?
Först bör man konstatera att det finns följande typer av AI-språkmodeller:
- Mycket kraftfulla LLMs som alltid kan betecknas som olagliga. Ingen (inte ens en automatisering!) kan juridiskt granska och filtrera de extremt stora datamängderna.
- Delvis kapabla LLMs som värnar om dataskydd och upphovsrätt. Även här måste man tyvärr, enligt sannolikhetslagen, säga att dessa modeller baseras på olagligt behandlade data.
- Svagt presterande LLMs. Dessa är antingen a) helt rättskonforma, b) nästan rättskonforma eller c) lika olagliga. I det första fallet spelar det ingen roll eftersom ingen vill använda dessa modeller. I det andra fallet har man slösat bort energi. Det tredje fallet speglar en LLM-skapare som inte har någon koll på antingen AI-träning eller rättsliga föreskrifter
I princip är alla språkmodeller lagligt felaktiga. Alla som inte är det intresserar ingen. Kanske kunde myndigheter vilja använda mindre kapabla språkmodeller, eftersom de ser inget annat alternativ (se ovanstående utlägg samt faktum att myndigheter regleras, vilket också ofta är bra).
Sammanfattning: Det finns ingen lösning. AI är lagligt fel (och nyttigt).
Antingen använder man AI och vet att det är förbjudet, eller så förbjuder man alla att använda AI. Alla mellanvägar är desperata åtgärder som kan vara fullt legitima. Rättsproblemet kommer förmodligen att lösas genom acceptans, helt i linje med det sociala tänkandet inom juridiken: Det som är förbjudet men som alla gör och som faktiskt tolereras, kommer antingen att fortsätta tolereras eller förr eller senare deklareras som lagligt. Sistnämnda kommer inte att ske så snabbt (se byråkrati och demokrati).
En liten sidospår för att illustrera utvecklingen av samhällslivet: Tidigare ansågs bara ordet "spontaneitet" vara korrekt skrivet. Nästan ingen använde det så. Nästan alla använde bara "spontanitet". Vid ett tillfälle blev "spontanitet" faktiskt utnämnt till korrekt. Online-Duden har dock fortfarande inte detta på kartan och menar att "spontanitet" är "färre sällsynt" (vilket är fel).
Vad är den praktiska lösningen?
Ingen lösning, men en lindring med en mycket trevlig biprodukt för skattebetalarna, är sanktioner.
När ska tyska dataskyddsmyndigheterna äntligen fullfölja sin uppgift på rätt sätt och sanktionera datalagringen tillräckligt? Ett exempel är webbtracking: Webbtracking innebär att använda Google Analytics, Facebook Pixels eller andra inkräktande analyser. Mestadels används cookies för detta. Denna överträdelse sker dagligen miljonvis på tyska webbsidor. Överträdelsen är lätt att upptäcka (öppna en browser, öppna nätverkskonsolen med tangenten F12, öppna en sida, öppna ögonen). Varför finns det inga bötesbelopp mot denna pågående överträdelse?
Praktiska lösningen är: Hård och konsekvent och snabb sanktionering av AI-leverantörer som Microsoft, OpenAI, Meta, Google, Apple i Europa. Beroende på rättslig situation blir antingen leverantören direkt sanktionerad eller användarna av dessa lösningar sanktioneras. Ingen oro, det kommer fortfarande att finnas ChatGPT. För att ChatGPT ska bli bättre efter den första sanktionen. Även Facebook kommer inte att utrotas, eftersom hoppningsvis en dag kommer Facebooks fanprenumeranter att stängas av av tyska dataskyddsförvaltningar (EU-domstolen tillåter detta uttryckligen för förvaltningarna)
Utskrift från AI-modeller
Ett annat tillvägagångssätt är att betrakta utgången från AI-systemen. Bara för inspirationens skull ska följande nämnas: En människa som utvecklar tankar och fantasier av vilken art som helst i sitt huvud, men inte materialiserar dem, gör ingenting felaktigt och lever helt i överensstämmelse med rätt och lag. Så kunde ett AI-system också bedömas på grundval av sina utgångar. Ett AI-system utan utgång är faktiskt oskadligt. Det måste säkerställas att detta förhållande inte missbrukas, till exempel genom hemlig fråga eller också genom frågor i sig själva. En människa har bara sitt eget huvud i sin kontroll plus künstliga hjärnor från AI-systemen som ännu inte kan försvara sig mot användning av tredje part.
Slutsats
AI kan vara mycket användbar. Det är precis problemet: Att utnyttja något för att det är användbart, även om det inte är tillåtet, skapar ett visst dilemma.
Personuppgiftsskyddet, till exempel genom GDPR, är en hög uppnåelse. Detta utgör i stort sett ett faktiskt hinder för användningen av AI-system inom området. Detta dilemma kan inte lösas under de närmaste åren.
AI avslöjar EU:s oförmåga till snabba och effektiva åtgärder inom teknikområdet. Endast små exempel visar framsteg. Till exempel när den italienska dataskyddsmyndigheten tillfälligt förbjöd ChatGPT. Att den hessiska datainspektören sedan modigt skickade en frågalista till OpenAI, när alla andra också gjorde det, var ingen tröst för Hessens maximala passivitet när det gäller berörda rättigheter.
AI är olagligt. För många människor och företag kan det vara mycket användbart. Lyser som ett motsatsförhållande och är också en rättslig motsägelse. Den verkliga livssituationen är dock avkoppad från teorierna om rätt. Nyttan spelar i den juridiska bedömningen en (ännu) underordnad roll.
AI kommer att döda oss alla. Men tills dess kommer den att göra hemskt användbara saker för oss.
Enligt Sam Altman.
Det är viktigt att utgifterna från AI-system används med stor försiktighet. Det kan inte lyckas med molntjänster som ChatGPT. Särskilt inte om chatboten från OpenAI används.
Antingen drivs en AI själv (Offline-AI, GPU-server eller GPU-kluster). Då kan både ingångarna till AI (promt) och utgångarna övervakas på bästa sätt. Likaså kan AI-systemet optimeras och ger ofta betydligt bättre resultat än alla platshirser som bara har konditionerats för allmänt bruk.
Eller det används för ökad säkerhet en molntjänst via dess programbibeli (API) istället för dess standardanvändargräffyta. Då kan i alla fall de inmatningar som skickas till den tredje AI:en samt deras utgångar övervakas på ett bra sätt.
Varje fall bör det tyska upphovsrättslagen anpassas. Dessutom bör myndigheterna få fler möjligheter att använda data för AI-utbildning.
Det viktigaste och effektivaste är dock hård sanktionering av AI-leverantörer, som oftast sitter utanför EU. I samband med detta bör byråkratin nedmonteras så att rättsstaten inte alltid mer blir en teoretisk övning. Vad som gäller är bara praktiken. Med papper ensamt kunde inget problem lösas. För övrigt har den amerikanska regeringen på grund av en präsidial förordning djup insikt i AI-modellerna från OpenAI och Anthropic.
Huvudpunkter i denna artikel
EU har utmärkta dataskyddslagstiftningar. Detta gör det svårt att utveckla högkvalitativa AI-språkmodeller eftersom de kräver stora mängder träningsdata som inte kan säkras rättsligt.
GDPR förhindrar användning av personuppgifter utan samtycke eller berättigat intresse för träning av AI-system. Myndigheter kan därför inte träna sådana system eftersom de saknar rättslig grund.
Det svenska upphovsrätten gör det svårt att använda data från svenska webbplatser för träning av AI-system.
EU:s definition av AI är olycklig och felaktig eftersom den inte betraktar ChatGPT som intelligent.
AI-modeller är i princip alltid olagliga, men vanliga. En praktisk lösning kan vara att agera hårt och snabbt mot överträdelser, till exempel genom böter mot leverantörer som Microsoft, OpenAI eller Google i Europa.
AI-systemer kan vara mycket användbara, men de måste övervakas noggrant för att förhindra missbruk.
Byråkratin måste reduceras för att rättsstaten ska kunna tillämpas praktiskt, snarare än att bara förbli teoretisk.
Om dessa huvudpoänger


My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
