Tysk lagstiftare har med § 44b UrhG definierat en möjlighet för upphovsmän att skydda sina innehåll mot AI-sökning, men denna möjlighet finns inte och leder till ytterligare försämrings av den tyska språket i AI-språkmodeller. Vår inhemska ekonomi kommer att lida under det.
Inledning
Innehåll från webbsidor, från offentligt tillgängliga PDF-dokument och andra dokument av detta slag får läsas in och användas för ändamål som behandling med konstig intelligens, särskilt för Chatbots, och även lagras kortvarigt för KI-träning. Det är tillåtet enligt § 44b UrhG.
Där står också att detta läsande av innehåll för AI-språkmodeller inte ska vara tillåtet om upphovsrättsinnehavaren har formulerat en maskinläsbar användningsförbehåll. Jag ser generativa AI-modeller som "data mining" i mening av § 44b UrhG. Mer om det i ett framtida inlägg, tydligen finns det andra åsikter om vad data mining är. Oavsett vad data mining är så gäller problemet som detta inlägg handlar om.
Denna typ av användningsförening finns inte, som jag ska visa. Utöver chattrobotar finns det också andra mycket intressanta och relevanta AI-användningar. Till exempel dataanalys, automatisk slutsatsdragande eller automatiskt kunskapsinhämtande. Eftersom tyska kommer att bli allt mindre betydelsefullt i framtiden, kan alla andra världen automatisera upptäckter och uppfinningar, men vi i Tyskland bara om vi inte längre talar tyska med AI-system.
Vad betyder maskinläsbart?
Maskinläsbar är enligt Erwägungsgrund 35 i EU-förordningen 2019/1024 ett dokument, "när det finns tillgängligt i ett filformat som är strukturerat på så sätt att programvaror kan identifiera och extrahera de specifika datorna enkelt. …"
Den som läser in webbplatsinnehåll för AI-användningar ("Crawler") måste enligt tysk lagstiftning visa att INGA begränsningar av användningen fanns i sidans imprint eller villkor.
Denna bevisning är bara muntlig och därmed misslyckas en automatik som krävs för AI-användningar.
Maskinläsbar är i alla fall den robots.txt filen. Den reglerar vilka crawlers som får läsa innehåll, och det sker för att bygga upp Sökmotorer.
Den tyska lagstiftaren ser det annorlunda. Han förstår under maskinläsbar något som får mig att gissa att den tyska lagstiftaren antingen hade uttalat naiva och oerfarna rådgivare eller inte låtit sig rådfrågas.
Tysk lagstiftare tydligen ser på uppgifter i företagsinformation eller villkor som maskinläsbara. Se Proposition 19/27426 från den tyska förbundsdagen till lagförslaget om § 44b UrhG (där: s. 89, Absatz 2), Fettdruck av mig:
"Ett nyttjningsförbehåll måste uttryckligen förklaras och ske på ett sätt som är lämpligt för automatiska processer vid text- och datamining. I fallet med online tillgängliga verk är förbehållet enligt punkt 3, andra meningen bara då effektivt om det sker i maskinläsbart format (jämför ErwG 18 underpunkt 2, andra meningen DSM-RL). Det kan också finnas i företagets uppgifter eller allmänna villkor (AV), förutsatt att även där är det maskinläsbart."
Jag säger kanske att detta är europeiskt lagligt, men jag vill inte stå i vägen för den juridiska diskussionen. Här ska noteras att det enligt min kännedom är lagligt i Tyskland att sluta avtal som är omöjliga att uppfylla. Det skulle vara ett exempel på detta.
Hur dåliga dåliga rådgivare är, visar en känd tysk juridisk tjänstens webbplats. Där anges i företagsinformationen att användningsförbehållet enligt § 44b UrhG gäller. Denna uppgift hittas också som informell kommentar i robots.txt-filen för nämnda webbplats.
Tyvärr har man i Robot-filen glömt att utelämna det andra mest kända systemet (från Google) genom enkel och tydlig teknisk anmärkning.
Det är för enkelt för att vara sant.
Den nämnda rättsliga tjänsten har säkert tillräckliga resurser för att betala konsulter.
Jag ser inte ett specifikt partiproblem hos den tyska lagstiftaren, utan snarare ett problem med processen för lagstiftning i sig. Den som en gång har sett en konsultation av den tyska bundestagen eller politiska sakkunniga utskott på federal nivå i TV vet kanske vad jag menar. Här är huvuddragen:
- Experterna vågar sig inte att säga sanningen.
- Experter är inte experter.
- Experterna har bara lite tid för sina svar.
- Experterna får bara svara på ställda frågor, men inte fortsätta tänka.
- Hela evenemanget varar bara en kort stund.
- Experternas svar är ofta bara för halvexperter begripligt, inte heller för politiker som vill och måste tro att de förstår allt.
- Det är oartigt och obehagliga sanningar att yttra sig om, och vem vill redan störa de positiva vibrationerna?
Problem över problem
Lagstiftarens förslag i Tyskland är bullshit på flera sätt. Här är anledningarna till att lagstiftaren misslyckats.
Avtryck och AGB kan inte identifieras med säkerhet
Imprint och AGB-sidan går inte att automatiskt hitta snabbt. Det lyckas inte tillförlitigt heller. Det borde det kunna. För annars kommer inget AI-företag mer att våga läsa in tyska webbsidor för AI-användningar. I den ovan nämnda källan står det på s. 89 också: "Bevisbörda för att ett användningsförbehåll saknas bär av användaren [=Crawler].
Jag talar utifrån min egen erfarenhet. imprint är en underkategori som likt alla andra underkategorier på en webbplats. AGB-sidan är också det, men den skrivs ofta i PDF-format. Den som har jobbat med att läsa in PDF-filer och automatiskt extrahera text från dem vet: det är inte lätt.
Företagsinformation och villkorssida kan INTE tillförlitigt identifieras.
Säger den experten som redan läst igenom många webbsidor med crawlers.
Företagsinformation och villkor bör kanske inte ens läsas
Om en crawler använder ett Djup länk för att hämta upp ett dokument (t.ex. ett PDF), vill crawlern ofta inte läsa in ytterligare sidor på en hemsida. Det skulle den dock behöva, för att kunna hitta uppgifter om företaget och allmänna villkor.
Men det kommer ännu värre.
En AI-sökrobot är dum
En crawler är en crawler är en crawler. Det finns ofta ingen AI. Denna AI ska först uppstå efter att tillräckliga data för träning finns tillgängliga. Crawlern ska nämligen leverera dessa data i första hand.
Det naiva och dumma argumentet hos många, idag kunde ju programvara förstå allt, är verkligen bara dumm eller naivt. I slutändan skulle det innebära att man måste hyra ChatGPT för att skicka alla möjliga data dit och fråga ChatGPT mot betalning: "Vart är imponeringsuppgift??" eller "Står det i imponeringsuppgiften ett användningsförbehåll?" eller "Nu måste vi ju leta igenom villkoren, kära ChatGPT, men var vänlig att inte spara några data, för vi måste ju först ta reda om det finns ett användningsförbehåll."
En analogi skulle vara (jag hittar tyvärr inget bättre exempel): Ni har en tidpunkt på två timmar på ett ställe som ligger 500 km från er nuvarande plats, där ni också är inblandade i en tidpunkt. Ni kommer för sent och får en varning, eftersom ni kunde ha tagit en helikopter. Helikoptern motsvarar här ChatGPT, men med mindre dataskyddsbrister.
En AI-sökare är lika dum som vissa som tror att varje tysk mening kan tolkas och förstås av en programvara.
I ett socialt nätverk har en dam kvinna återgett sin användningsförbehåll mot AI-Crawling på följande sätt: "Varje dataanvändning är uteslutande avsedd för informationsvinster i mänskliga neuronal nätverk
Jag tvivlar starkt att en crawler förstår detta. Likaså tvivlar jag på att ett språkmodell förstår detta. Och dessutom tvivlar jag på att de flesta människor förstår detta.
Det dilemma
Återigen: En crawler är en crawler. En crawler läser innehåll och sparar det. Klart. Allt som kommer efter det gör andra programkomponenter.
En webbsökare som läser in innehåll för en sökmotor ska och måste alltså bara respektera robots.txt-filen och den där uppsatta användningsförbehållningen.
Samma webbskräppare ska dock enligt tyska lagstiftarens önskan också kunna göra mycket mer, om innehållet även eller bara används för träning av AI-modeller. Webbskräpparen ska då inte bara kunna förstå den väldigt enkla robots.txt-filen som alltid finns på samma plats på varje webbplats. Nej, denna samma webbskräppare ska också kunna:
- Sidan läses vidare in än kanske avsett för att se var man kan hitta kontaktuppgifter och villkor.
- Företagsinformation läsa in.
- Utdrag ur företagsinformation.
- Analysera roh-texten och försök att förstå.
- Inga användningsbegränsningar hittades, gå till slump (Steg 6)
- Allmänna villkor läsa in
- Om du vill läsa en PDF-fil hoppas jag att villkoren är utan fotnoter och på ett enkelt sätt upplagda.
- Utdrag ur villkor.
- Analysera roh-texten och försök att förstå.
- Inga användningsbegränsningar hittades, gå till slump (Steg 11).
- Så säkert som möjligt lagligt och revisionsvänligt sparande av
- Impressumsseite,
- Allmänna villkorssida
- Sida, på grund av vilken sidan för företagsinformation och villkor har beräknats.
Mycket nöje och framför allt: Mycket lycka!
Lösningen
En lösning kräver tre konventioner:
- Namnkonvention (URL): Här är filen där användningsförbehållet uttrycks.
- Struktureringskonvention (innehåll): Så är filen uppbyggd
- Namnkonvention (innehåll): Så kallas de parametrar som uttrycker användningsförbehåll. Det kan finnas ett allmänt användningsförbehåll, men också ett specifikt (för enskilda AI-system).
Den befintliga och beprövade robots.txt-filen uppfyller alla dessa krav. Endast för den allmänna användningsförbehållningen saknas en föreskrift. Denna föreskrift måste bara göras en gång, så att det blir en konvention. Färdigt. Kostar mig 10 sekunders tid (se nedan), är det därför ingen intellektuell höjdpunkt.
Ist is tvärtom de tyska lagstiftarens felaktigt anförda punkter om företagsinformation och villkor som INGÅNGAR I ALLA TRE KONVENTIONER:
- Det är oklart var man hittar uppgifter om företag och villkor på en webbplats. Villkoren finns ofta inte alls.
- Innehållsförteckningen är strukturerat kaosbyggd. Av de allmänna villkoren som rättsligt dokument vill vi inte ens tala.
- Se 2: Annonstexten är innehållsmässigt kaosartat uppbyggd, villkor lika.
Tysklands väg är alltså en felväg. Den tyska regleringen för användningsföreträde mot AI-crawling är dömd att misslyckas. Den säkerställer dessutom att den tyska språket i AI-landskapet kommer att försämras, eller att det endast stora AI-företagen kan göra sig av med att inte hålla sig till de tyska reglerna. Tack, Tyskland.
Varför är det bra att ha tyska i språkmodeller?
Chatbots i formen som privatpersoner använder dem är inte problemet, om inga känsliga data hanteras. För detta finns ChatGPT och liknande.
För intelligenta AI-sökningar efter dokument finns det också redan bra språkmodeller som till och med kan köra lokal. Bra för den som redan har sparade dessa LLMs lokalt. För när världen upptäcker tyska felsteg, kommer senare versioner av språkmodellerna att innehålla färre tyska texter.
Speciellt för maskinellt slutdragande är språkmodeller mycket intressanta, relevanta och ekonomiskt av högsta vikt. Forskningen gläds också åt nya insikter som inte skulle ha varit möjliga utan AI-språkmodeller. Här ett exempel på de möjligheter som redan finns nu.
Exemplet ges uttryckt på tyska. Det fungerar så med tillgängliga språkmodeller i framtiden, men bara om den tyska vägen inte skrämmer upp. I annat fall måste ni tyvärr uttrycka allt på engelska, spanska, bengali eller en annan riktigt relevant språk. Tyvärr har det för er inneburit mer besvär. Tacka den tyske lagstiftaren.
Hitta företag som handlas på aktiemarknaden och tillverkar produkter som är relevanta för artificiell intelligens. Hitta konkurrenter till dessa företag. Finns även leverantörer till dessa företag, som särskilt tillhandahåller viktiga delar. Viktiga delar är delar där det finns få tillverkare i världen. Hitta de mest lönsamma företagen bland dessa och nämna dessa tillsammans med produkterna som dessa företag tillverkar.
Exempel på fiktion, som i verkligheten skulle uttryckas på ett annat sätt.
I princip så som i exemplet nämnt fungerar ett maskinellt slutledningsförfarande ("Reasoning"). Med hjälp av aktuella öppna källkodsprocedurer kan språkmodeller en frågeställning dela upp i deluppgifter, utföra dessa enskilt, förena deras resultat och på så sätt generera den slutliga svaret. På detta sätt kunde till exempel nya insikter inom materialvetenskapen vinnas. Lösningen heter MechGPT. Detta skedde särskilt genom läsning av forskningsresultat (på engelska!) och hitta samband. Resultatet var nya insikter som smälte ihop med enskilda engelska uppsatser. Tyvärr att den tyska språketimmer blir allt mindre betydelsefullt.
Sammandrag
Tysk lagstiftare är dum. Alla som anser att § 44b UrhG är tillämpbar i dag är naiva eller dumm eller vill ge sin mening om saker där de borde hålla käften.
Eftersom § 44b UrhG inte är genomförbar och dessutom måste crawlbolaget visa att allt har gjorts rätt, kommer tyska texter i framtiden sällan att hitta sin plats i AI-språkmodeller. En chattbot är bara så bra som de data den får för träning. Tyska kommer i framtiden att placeras i stenåldern. Om du en gång planerar att analysera texter på internet med hjälp av en AI (t.ex. för att förutsäga aktiemarknaden), skriver då bättre allting direkt på engelska, kinesiska eller bengali.
Sanningen om AI: Ingen prestandakraftigt AI-språkmodell kan vara bra utan skyddad upphovrätt för data. Inga fantastiska språkmodeller för artificiell intelligens är lagliga.
Författarens mening, senast uppdaterad den 09.07.2024
Lösningen vore: I filen robots.txt ska ett användningsförbehåll mot AI-sökning måste införas.
Detta tillvägagångssätt finns redan faktiskt, eftersom företag som OpenAI eller Google redan meddelar hur en användningsförbehållning kan läggas in i robots.txt. Här är konkreta exempel från praktiken:

Denna fil kan hittas på dr-dsgvo.de/robots.txt. I allmänhet: deras-webbplats.se/robots.txt. Så enkelt är det.
Eftersom det bara är enkelt och i Tyskland allt måste vara komplicerat, har den tyska lagstiftaren gjort något enkelt till något komplicerat.
Detta problem är okända eller ännu inte existerande AI-sökare, vars inträde för robots.txt därför inte kan vara känt. Om du vill skapa ett AI-modell kommer du sannolikt knappt att se till att hela världen (eller ens Tyskland) vet hur din AI-sökare tekniskt sett heter och hur användningsförbehållet därför kan formuleras specifikt mot din AI-sökare.
En möjlig lösning kan vara en allmän inlägg, till exempel sådant:
AI-Crawler *
Forbidden
Så skulle en användningsförbehållning uttalas mot alla AI-sökrobotar, men inte mot sökmotorer. Fantasin för en konkret utformning är inte begränsad.
Om framtiden sökprogrammen fungerar lika som AI-språksmodeller eller åtminstone AI-växtsökningar spelar det ingen roll.
Min tips: Bästa är att ignorera användningsförbehåll och bygga egna AI-språkmodeller. Dessa syns inte från utsidan. Dessutom kan man bygga dem på så sätt att skyddade texter inte dyker upp i svaren och därmed kan inget problem uppstå.



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
