Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Kunstig intelligens: Den brugervilkår, der ikke findes

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Artikel som PDF (kun for abonnenter på nyhedsbrevet)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Den tyske lovgiver har med § 44b UrhG defineret en mulighed for udgivere, hvordan de kan beskytte deres indhold mod AI-scraping. Men denne mulighed eksisterer ikke og fører til yderligere underkæledning af den tyske sprogbrug i AI-sprogsmodeller. Vores hjemlige økonomi vil lide under det.

Indledning

Indhold fra websteder, fra offentligt tilgængelige PDF-dokumenter og lignende dokumenter må læses ind og anvendes til formål for behandling af kunstig intelligens, især til Chatbots,. De må endda kortvarigt gemmes til AI-træning. Det tillader § 44b UrhG.

Der står også, at dette læsning af indhold for AI-sprogmodeller ikke skal være tilladt, hvis udgiveren har formuleret en maskinlæsbar brugervilkårsbetingelse. Jeg ser generative AI-modeller som "data mining" i betydningen af § 44b UrhG. Der er flere meninger om dette, og jeg vil tale mere om det senere. Uafhængig af hvad data mining skal være, består problemet, der handler om her.

Der slags brugsfrihed findes ikke, som jeg vil vise. Ved siden af chatbots er der også andre meget interessante og relevante AI-anvendelser. Dette omfatter dataanalyse, automatisk slutning eller automatisk opdaging. Eftersom tysk i fremtiden bliver mindre betydende, kan alle andre verden over automatisk opdage og opfinde, men vi i Tyskland kun, hvis vi ikke mere taler tysk med AI-systemer.

Hvad betyder maskinlæsbart?

Maskinlæsbar er ifølge Erwägungsgrund 35 af EU-direktiv 2019/1024 et dokument, "når det forefindes i en filformat, der sådan struktureret er, at softwareanwendinger kan identificere, genkende og udtrække de konkrete data let. …"

Hvis en hjemmeside-indehold for AI-anvendelser skal læses ind ("Crawler") må efter tysk lovgivning bevises, at der ikke var en brugervilkår i hjemmesiden eller dens vilkår.

Dette bevis kan kun opnås manuelt, så en automatik, der er nødvendig for AI-anvendelser, mislykker.

Maskiner kan læse den robots.txt fil. Den regulerer, hvilke crawlere, der må læse indholdet af en hjemmeside, og det er til formålet med at opbygge søgemaskiner.

Den tyske lovgiver ser det anderledes ud. Han forstår under maschinenlesbar noget, der får mig til at gætte, at den tyske lovgiver enten har haft utrolig naive og uerfarne rådgivere eller ikke har fået nogen rådighed.

Tysk lovstifter synes at se på oplysninger i imprint eller AGB som maskinlæsbare. Se Drucksache 19/27426 fra den tyske Bundestag om lovforslag til § 44b UrhG (der: S. 89, Absatz 2), Fettdruck af mig:

"En brugsvilkår skal udtrykkeligt erklæres og foregå på en måde, der passer til automatisk processe ved tekst- og data mining. I tilfælde af online tilgængelige værker er brugsvilkåret kun gyldig, hvis det sker i maskinlæsbar form (se ErwG 18 Undersætning 2 Satz 2 DSM-RL). Den kan også være indeholdt i imprintet eller i de Almindelige Forretningsbetingelser (AFB), så længe den også er maskinlæsbar der."

Jeg siger blot, at dette er ulovligt ifølge europarets prinsipper, men jeg ønsker ikke at stå i vejen for den juridiske diskurs. Her skal det bemærkes, at det efter min viden er lovligt i Tyskland også at indgå umulige aftaler. Det ville være et eksempel.

Hvor dårlige dårlige rådgivere er, viser hjemmesiden af et kendt tysk retsadvokatfirma. Der står forsigtigt i "Om os" om brugen af § 44b UrhG. Denne oplysning finder man også som en informel kommentar i robots.txt-filen til den nævnte hjemmeside.

Men desværre er der i Roboterlisten glemt at udelukke det næstbedste system (fra Google) ved en enkel og ubestridelig teknisk angivelse, sammen med det mest kendte AI-system (ChatGPT).

Det er bare for enkelt.

Den nævnte rettigheds service har sikkert nok ressourcer til at betale konsulenter.

Jeg ser ikke et særligt partiproblem hos den tyske lovgiver, men snarere et problem med lovgivningsprocessen i sig selv. Den, der har set en konsultation af det tyske forsamling eller politiske fagudvalg på nationalt niveau på tv, måske ved, hvad jeg mener. Her er essensen:

  • Ekspertene tør ikke sige sandheden ud.
  • Ekspert er ikke ekspert.
  • Ekspertene har kun lidt tid til at svare.
  • Eksperternes må kun svare på stillede spørgsmål, men ikke videre tanker.
  • Den hele begivenhed varer kun en kort tid.
  • Eksperternes svar er ofte kun for halv-eksperter at forstå, ikke dog for politikere, der vil og mener at skulle forstå alt.
  • Det er ufin at sige ubehagelige sandheder ud og hvem vil gerne støre de positive vibrationer?

Problemer over problemer

Tilsvarende bestemmelse fra den tyske lovgiver er en masse skidt. Her er årsagerne til, at den tyske lovgiver har mislykkes.

Imprint og AGB-siden kan ikke blot hurtigt automatisk opspores. I hvert fald lykkes det ikke tilfredsstillende. Det skulle være muligt. For ellers vil ingen AI-firma mere tage sig af at læse tyske websteder for AI-anvendelser. I ovennævnte kilde står der på s. 89 også: "Bevisbyrden for manglende brugstilladelse bærer bruger [=Crawler].".

Jeg taler ud fra erfaring. Det er en underside som alle andre sider på en hjemmeside. AGB-siden er også det, men ofte i PDF-form. Den, der har beskæftiget sig med at læse ind og automatisk udtrække tekst fra PDF'er, ved godt: Det er ikke let.

Forside og AGB-siden kan IKKE tilføjes med tillid.

Siger eksperten, der med krawler allerede har læst mange hjemmesider.

Forsideinformation og vilkår skal muligvis ikke læses overhovedet

Når en crawler bruger et Dyb link, til at hente et dokument (f.eks. et PDF), så vil ofte ikke kraveren også ønske at læse videre på hjemmesiden. Det skulle han dog, for at finde kontaktinformation og vilkår.

Men det bliver endnu værre.

En AI-crawler er dum

En crawler er en crawler er en crawler. Der er ofte ingen AI. Denne AI skal først opstå, efter at der er tilstrækkelige data til træning til rådighed. Crawleren skal selv leverer disse data.

Det naive og dumme argument fra nogle, man kunne i dag jo selv forstå software, er virkelig bare dummert eller naivt. I sidste konsekvens ville det betyde, at man skulle leje ChatGPT for at sende alle mulige data derhen og spørge ChatGPT mod pengene: "Hvor er imprintet?" eller "Står der i imprintet en brugsvilkårsbetingelse?" eller "Nu må vi jo selv igennemgå AGB, kære ChatGPT, men beder venligst ikke om at gemme data, fordi vi må først finde ud af, om der er en brugsvilkårsbetingelse."

En Lignelse ville være (det går mig heldigvis ikke op): De har en aftale i to timer på et sted, der ligger 500 km fra dit nuværende sted, hvor de også er involveret i en aftale. De kommer for sent og får en skarp tilbagevisning, fordi de kunne have taget en helikopter. Helikopteren svarer her til ChatGPT, men med mindre sikkerhedsløb på plads.

En AI-surfervæske er lige så dum som nogle, der tror, at hver eneste tysk sætning kan tolkes og forstås af en software.

I et socialt netværk har en dame gengivet sin brugsvilkår mod AI-Crawling således: "Enhver datanytning er udelukkende bestemt til formålet med at opnå information i menneskelige neurale netværk

Jeg tvivler meget stærkt, at en crawler forstår dette. Lige så meget tvivler jeg på, at et sprogmodel forstår det. Og desuden tvivler jeg også på, at de fleste mennesker forstår det.

Det Dilemma

Igen: En crawler er en crawler. En crawler læser indhold og gemmer det væk. Færdig. Alt hvad der kommer efter, gør andre softwarekomponenter.

En Crawler, der indlader indhold til en Søgemaskine, skal og må således kun respektere robots.txt-filen og den der indeholder begrænsning af brug.

Samme Crawler skal dog efter ønske fra den tyske lovgiver også være i stand til at gøre meget mere, hvis indholdet også eller kun bruges til træning af AI-modeller. Samme Crawler skal ikke bare kunne forstå den meget simple robots.txt-fil, der desuden altid ligger på samme sted på hver hjemmeside. Nej, denne samme Crawler skal så også endnu mere:

  1. Webstedet læses videre end måske var meningen, for at finde ud af hvor man kan finde imprint og vilkår.
  2. Læs venligst forsiden.
  3. Tekst fra imprint udtrække.
  4. Analyser roh tekst og prøve at forstå.
  5. Ingen brugerværn fundet, så gå til Løs (Trin 6)
  6. Læse vilkår
  7. Hvis du har en PDF-fil: Tilslut en PDF-læser. Jeg håber, at vilkårene er uden fødsedato og bedst på én side.
  8. Tekst fra AGB udtrække.
  9. Analyser roh tekst og prøve at forstå.
  10. Ingen brugerværn fundet, så gå til Løs (Trin 11).
  11. Muligvis retssikker og revisjonssikker lagring af
    • Om os
    • Vilkårsside
    • Side, på grund af hvilken side for imprint og AGB er blevet fundet.

Mange sjove øjeblikke og især: Mange succesfulde øjeblikke!

Løsningen

En løsning kræver tre konventioner:

  1. Navnskonvention (URL): Her er filen, hvor brugerværdsætningen er udtrykt.
  2. Strukturkonvention (Indhold): Sådan er filen opbygget
  3. Navnskonvention (Indhold): Så hedder de parametre, der udtrykker brugsværdsbevillinger. Der kan være en generel brugsværdsbevilling, men også en specifik (for individuelle AI-systemer).

Den aktuelle tilstand for den allment kendte og prøvede robots.txt-fil opfylder alle disse krav. Kun for den generelle brugsvilkår mangler en bestemmelse. Denne bestemmelse skal blot gøres én gang, så det bliver en konvention. Færdigt. Koster mig 10 sekunders tid (se nedenfor), er derfor ikke noget intellektuelt højdepunkt.

Im overensstemmende med det tyske lovgiver forkerte steder, som er nævnt i imprint og AGB, opfylder ALLE TRE konventioner IKKE:

  1. Det er usikkert, hvor man finder imprint og vilkår på en hjemmeside. Vilkår findes ofte simpelthen ikke.
  2. Impresummet er struktureret kaotisk opbygget. Fra de vilkår, som er juridiske tekstværker, ønsker vi ikke engang at tale om dem.
  3. Se 2: Det er ikke ordnet indholdsmæssigt, vilkår tilsvarende.

Der tyske vej er således en Irrweg. Den tyske reglementering for brugsværn mod AI-Crawling er til at falde i graven. Den sørger desuden for, at den tyske sprog i AI-landskabet bliver fattig, eller det kun er de store AI-selskaber, der kan tillade sig ikke at følge de tyske regler. Tak, Tyskland.

Hvad er det gode ved at bruge den tyske sprog i sprogmodeller?

Chatbots i formen, som den private bruger har tilgang til, er ikke problemet, hvis der ikke behandles følsomme data. Derfor findes ChatGPT og lignende.

Für den intelligente AI-Søgning efter dokumenter er der også allerede gode sprogmodeller, der selvom lokal kan køre. Godt for den, der har gemt disse LLMs lokalt. For så snart verden bliver bevidst om det tyske mislykkelser, vil de nyere versioner af sprogmodellerne indeholde færre tyske tekster.

Vor allem aber für det Maskinelt slutdrøftelse er sprachmodeller meget interessante, relevante og økonomisk meget betydningsfulde. Forskningen glæder sig også over nye oplysninger, der ikke ville være muligt uden AI-sprogmaler. Her et eksempel på de muligheder, der allerede nu er til rådighed.

Eksemplet er på tysk sprog givet. Det fungerer så med frit tilgængelige sprogmodeller fremover, men kun hvis den tyske fejl ikke skræmmer væk. I ellers må du desværre udtrykke dig på engelsk, spansk, bengali eller en anden rigtig relevant sprog. Det er jeg ked af, at det ville være mere besværligt for dig. Tak til den tyske lovgiver.

Find virksomheder, der handlet på aktiemarkedet og producerer produkter, der er relevante for anvendelse af kunstig intelligens. Find konkurrente til disse virksomheder. Find også leverandørerne til alle disse virksomheder, som leverer særligt værdifulde dele. Værdifulde dele er dele, hvor der kun findes få fabrikanter i hele verden. Find de mest lønsomme virksomheder blandt dem og navngiv dem sammen med produkterne, de producerer.

Eksempel på fiktiv tekst, der i virkeligheden ville være formuleret anderledes.

Grundsätzlich sådan som i eksemplet blot nævnt, fungerer en maskinelt slutkonklusion ("Reasoning"). Med hjælp af aktuel gængende Open Source-procedurer kan sprogmodeller en spørgsmålstillinger dele i delopgaver, disse hverken udføre, deres resultater forene og så den endelige svar generere. På denne måde kunne nye erkendelser i materialkundskaben opnås. Løsningen hedder MechGPT. Dette skete især ved at læse forskningsergebnisser (på engelsk!) og finde sammenhængende. Det resultat var nye erkendelser, der over enkelte engelske artikler smittede. Skade, at den tyske sprog bliver immer mindre betydningsfuld.

Konklusion

Den tyske lovgiver er dum. Alle, der mener, at § 44b UrhG kan gennemføres i dag, er naiv eller dum eller ønsker at give sin mening til ting, hvor de bedst ville være tavs.

Da § 44b af UrhG ikke er realiserbar og desuden skal crawler-ejeren bevise, at alt var korrekt gjort, vil tyske tekster i fremtiden være endnu sjældere i AI-sprogmodeller. En chatbot er kun så god, som de data, den modtager til træning. Tysk vil i fremtiden være placeret i stenalderen. Hvis du en gang har planer om at analysere tekst på internettet med hjælp af AI (f.eks. til at forudsige aktiekursen), så skriv bedre alt sammen på engelsk, kinesisk eller bengali.

Sandheden om AI: Ingen effektivt AI-sprogmodel kan være godt uden beskyttede rettigheder data. Ingen fantastisk AI-sprogmodel er lovligt.

Forfatterens mening, opdateret til 09.07.2024

Løsningen ville være: I robots.txt-filen skal en brugerværdsætning mod AI-crawling indsættes.

Derneover findes denne tilgang faktisk allerede, fordi selskaber som OpenAI eller Google allerede meddeleler, hvordan en brugervilkår kan indsættes i robots.txt. Her konkrete eksempler fra praksis:

Nutzungsvorbehalt gegen KI-Crawler, ungleich der Vorgabe des deutschen Gesetzgebers.

Denne fil kan findes under dr-dsgvo.de/robots.txt. Almindeligvis: deres-websted.dk/robots.txt. Så enkelt er det.

Da det bare er ligeglad og i Tyskland alt må være komplikerede, har den tyske lovgiver gjort noget simpelt til noget komplekst.

Det er et problem med ukendte eller endnu ikke eksisterende AI-surfere, hvis indgang til robots.txt derfor ikke kan være kendt. Hvis du ønsker at oprette en AI-model, vil du slet ikke kunne eller ville sikre, at hele verden (eller også kun Tyskland) ved, hvordan din AI-surfer teknisk hedder og hvordan brugsvilkåret derfor kan formuleres særligt mod din AI-surfer.

En mulig løsning kan være en universel indgang, f.eks.:

AI-agent *
Deny

Så ville en brugervilkår være udstedt mod alle AI-surfere, men ikke mod søgemaskiner. Fantasi for en concret udformning er uden grænser.

Når fremtidens søgemaskiner er lige så intelligente som språkmodeller eller i det mindste søger efter intelligente vektorer, spiller det ingen rolle.

Min anbefaling: Bedst er at ignorere brugsvilkåret og opbygge egne AI-sprogmodeller. Disse ser ingen fra udenfor. Desuden kan man dem opbygge på en måde, så de ikke indeholder urheberretteligt beskyttede tekster og dermed ikke kan føre til problemer.

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Praktiske løsninger overgår juridiske og administrative regler: To eksempler