ChatGPT: beskytte intellektuelt ejendom og forhindre egne indhold fra at blive crawlet

Revolutionen er allerede sket og går med en hastighed, der ligner en rumfærge med tachyonmotor fremad. For content-creators som mig findes flere effektive måder at forhindre, at egenindhold bliver "sugt op" af ChatGPT og andre kunstige intelligenser.

Snaresten

Sammenfatning:

Teksten omhandler emnet kunstig intelligens (AI), især ChatGPT fra OpenAI, og persondataskab. ChatGPT er et AI-system, der består Turing-testen og leverer menneskelignende svar på spørgsmål. Dette fører til bekymringer vedrørende beskyttelse af indhold, der er oprettet af content-creators, da AI-systemer som ChatGPT kan bruge disse indhold.

Diskuteres forskellige muligheder for at beskytte egne indhold mod AI-systemer.

Svarede spørgsmål:

Spørgsmål: Hvad er ChatGPT og hvilken revolution har det udløst? Svar: ChatGPT er en kunstig intelligens-system fra OpenAI, der består Turing-testen og forårsager massive ændringer i samfundet.

Hvordan kan udgiverne af indhold beskytte deres indhold mod kunstig intelligens som ChatGPT? Indholdsskabere kan beskytte deres indhold ved at bruge betalingsbarrer, anti-bot-sikring, dedikerede brugeradgang og tekniske blokeringer mod crawlere.

Spørgsmål: Hvad er Turing-testen? Svar 3: Turing-testen tjekker, om en kunstig intelligens opfører sig på en måde, hvor den ikke længere kan skelnes fra en menneske.

Spørgsmål: Hvilke eksempler på beskyttende tiltag mod AI-surfere er der? Svar: Eksempler på beskyttelsesåtgærder er betalingsautomater, Captchas, begrænsninger af adgang for registrerede brugere og blokeren af IP-adresser eller User-Agents.

Spørgsmål: Hvad er Common Crawl Index og hvordan kan man blokere det? Svar: Den fælles køringsindeks er en database, som afbilder dele af internettet; man kan blokere den ved at spærre CCBot i robots.txt-filen.

De vigtigste nøgleord:

Kunstig intelligens, ChatGPT, Turing-test, indholdsskaber, betalingsbegrænsning, anti-bot-sikring, dedikerede brugere, teknisk blokering, blød blokering, hård blokering.

Indledning

Den største revolution i de seneste årtier vil føre til massive ændringer i samfundet. Det drejer sig om kunstig intelligens, og især ChatGPT. ChatGPT er et produkt af OpenAI. Mange kender allerede dette AI-system.

ChatGPT består den Turing-Test. Så vidt jeg ved, er dette den første AI, der lykkedes med det. I hvert fald ser jeg det sådan ud. Wikipedia synes at være forældet i denne henseende. Turing-testen prøver, om en AI opfører sig på en måde, hvor hun ikke længere kan skilles fra en menneske. Derfor bliver i et rum en menneskelig prøveperson placeret, der stillede spørgsmål til testobjektet gennem en gennemsigtig rør, uden at se, om prøveløberen er menneskelig eller ej. Prøveløberen besvarede spørgsmålene.

Google har allerede i længere tid sørget for at bestemte (enkle) spørgsmål bliver besvaret direkte i søgemaskinen. Derfor trækker Google Andet indhold fra dig og mig. Vinderen er Google, brugeren glæder sig, Content Creator er den Dumme. Den der har gjort flest arbejde kommer dårligst af det hele. Han får ikke engang en tak (såsom i form af et besøg på hjemmesiden, som selv om det ikke bringer meget, er bedre end ingenting).

ChatGPT har Frage-Antwortspillet bragt til et nyt niveau, der aldrig er set før. Svarerne er delvist bedre end det, en menneske kunne levere og ofte mindst lige så godt som det fra en intelligent person. Det er faktisk forkert at ChatGPT i hovedsagen bygger på et stokastisk model. Dette må også være en del af det. Logisk følge har dog ikke meget med stokastik at gøre. I hvert fald ikke mere end dette princip er indlejret i vores eget hjerne.

Eksempel:

Spørgsmål:
Tjek om følgende påstand er sandsynlig: Sven er en bedre håndværksmand end Mareike. Mareike er en bedre håndværksmand end Sven.
ChatGPT:
Udækkelsen er ikke sandsynlig, da den indeholder en modsætning. Det er umuligt, at Sven er bedre end Mareike og samtidig er Mareike bedre end Sven. Denne udækkelse er logisk inkonsistent og derfor umulig.
Vurdering:
Præcisere svar (det ville jeg også have givet; men min bekendte var smartere).
Spørgsmål:
Kan det ikke være, at der er to personer ved navn Mareike?
ChatGPT:
Yes, det er teoretisk muligt, at der er to personer med navnet Mareike, hvoraf den ene er bedre til håndværk end Sven, mens den anden er dårligere end Sven. I dette tilfælde ville udsagnet være plausibelt og ikke modsætning.
Men det ville være meningsfuldt i dette tilfælde at formulere udsagnet tydeligere for at undgå misforståelser. Eksempelvis kunne man sige: "Mareike A er en bedre håndværker end Sven, mens Mareike B er dårligere end Sven."."
Vurdering:
If jeg synes, er dette en perfekt svar, hvor intet behøver tilføjes.

En mere omfattende dialog med en dårligere ChatGPT-version end den nuværende har jeg vist i et tidligere indlæg. Der var også programmer som DEEPL nævnt. Med hjælp af programmer som DALL-E eller Midjourney kan nye og uendeligt billeder skabes i en kvalitet, der aldrig før er set. Over denne billeddannende Kunstig Intelligen havde jeg også rapporteret. Det billede oven på dette indlæg blev også skabt på den måde.

Beskyd dine egne indhold

Allerede for et par måneder siden har nogen fra Tyskland beskrevet, at han havde taget skridt til at beskytte Indhold på sin hjemmeside mod at blive af en AI sugget.

Jeg ser i hovedsagen følgende muligheder for at beskytte mine egne indhold mod AI's som ChatGPT. Hva' har jeg at vinde på, hvis andre bruger min indsats uden at jeg får noget?

Bliver jorden snart styret af en Kunstig Intellighed? Billedet er fra en AI.

Mulighederne for at beskytte mod crawlere er især:

Betalingsgrænse: Kommer også til at blive brugt af mindre hjemmesider for mere kvalitetsindhold; Store nyhedswebsites bruger allerede dette model.
Antibotsikkerhed: Eksempelvis Captchas. Der går jeg (endnu) ikke nærmere ind på, da det teknisk er meget krævende og vi Google reCAPTCHA (i den usynlige version) ser på som et meget datatilgængeligt værktøj, der ikke ønskes brugt. Desuden er en sådan beskyttelse ikke fuldstændig effektiv.
Tildelte brugere vs. Gæster: Kun registrerede brugere kan læse alle indhold.
Teknisk adgangsbesæringer mod Crawler.
- Blød spærre: Vær venlig, dejlige ChatGPT, tråd ikke af min hjemmeside.
- Harte Spær: Portvagt, der ChatGPT og OpenAI-servere hårdt spærres ud.

Til betalingsgrænsen vil jeg ikke give nogen anbefaling i øjeblikket. Indhold, der var gratis, skal for den menneskelige læser blot blive det første gang. Der kommer også juridiske problemer tilbage ved købsprocesser (vilkår, knap-løsning, rettighed til at trække tilbage osv.).

Et login til brugere, der kan læse alle indhold, er en ganske god beskyttelse mod bots. I hvert fald skulle en bot skulle opnå et gratis (eller hvordan som helst konfigureret) kunde-konto for at kunne læse indholdet. Dette er muligt, men det vil sikre, at store crawlers bliver udenfor. Hvilken crawler-firma kan eller ønsker allerede at have konti på alle mulige hjemmesider? Alt sammen kan så kombinere med en bot-beskyttelse.

Det menneskelige hjerne er også "bare" en automat, selv om den er (i forhold til andre) meget kapabel.
ChatGPT gør mange ting kvalitativ ligesom mennesket. Nogle tror dog, det er anderledes, fordi de ikke erkender, at mennesket ikke har en sjæl, men kun en simulation af hvad nogle kalder en sjæl.

En teknisk spærre kan let og effektivt opbygges. Jeg beskriver nedenstående trin for at gøre det.

Blød spæring

Der ChatGPT Crawler kan over en anvisning i filen robots.txt blive instrueret til at ignorere hjemmesiden. Følgende anvisning sørger for det:

User-agent: ChatGPT-User
Disallow: /
User-agent: GPTBot
Disallow: /

Om Crawleren til AI holder sig eller ej, er det en tillidssag. Hvorfor skulle man ønske at stole på en AI, når man ikke selv kan stole på sine egne øjne? Alene ved den faktum, at OpenAI bruger flere User-Agents, der ikke er transparente beskrevet på én side, bliver problemet for fremtiden tydeligt:

Slette af ChatGPT-plug-ins ([1])
Åben GPT-Bot: Blokering af OpenAIs webcrawlers

Vildtreservat

En anden mulighed er at blokkeere serveradgang via deres netværksadresser. Dette kræver, at en adresseområde deklareres, hvor adgang til hjemmesiden skal være teknisk underlagt.

Adressområdet er ifølge information fra OpenAI følgende: `23.98.142.176/28

Den tekniske blokering må implementeres på serveren selv på din egen webserver. Med hjælp af plugins som WordFence til WordPress-websteder er det en let opgave. I WordFence findes der en integreret Brandvæggen. For firewallsystemet skal nu en regel tilføjes, så man kan blokke IP-blokken.

Det gør man i menuen "Firewall" under afsnittet "Opret en blokerende regel".

Blockér adgang til ChatGPT via IP-adresseområde med WordFence. (billedet blev automatisk oversat).

Som blockerings-type vælges "Custom Pattern". I feltet "IP Address Range" kan den adresseområde af ChatGPT-serveren angives.

Analog kan desuden en serverbaseret regel til at blokere brugerens agent fra ChatGPT oprettes. Dette gøres ved at i feltet "Browser User Agent" sættes værdien "ChatGPT" og alle andre felter, bortset fra "Block Reason", forbliver tomme. Stjernerne i navnet på ChatGPT står for joker-tegn, da crawler-kenningspræfiksene kan indeholde præfiks- og postfiks.

Konfigurationen for blokering af adresseområde og brugeragent ser sådan ud:

OpenAI og ChatGPT bliver blokeret via en IP-adresseområde og gennem crawler-id'et. (billedet blev automatisk oversat).

Den blokkeering sikrer i teorien også, at ChatGPT Plugins bliver blokeret, der graver på websteder for at hente og kombinere oplysninger til spørgsmål.

Et stykke tid efter kan man se denne statistik igen. I kolonnen "Block Count" er så de besøg, der blev blokeret, opregnet. De mindste hjemmesider vil sandsynligvis kun meget sjældent eller aldrig blive besøgt af ChatGPT og OpenAI. Kendte hjemmesider eller dem med mange backlinks vil dog mere sandsynligvis få glæde af, at deres indhold forsvinder i den sorte boks ved navn ChatGPT og sandsynligvis aldrig igen kan hentes tilbage.

Yderligere bots

Common Crawl

ChatGPT bruger allerede eksisterende dataarkiver fra andre crawlere som Common Crawl eller kendsgerningsdatabaser som Wikipedia. Det, der er allerede opført på Wikipedia, vil sandsynligvis ikke kunne tilbagehentes, da det ikke er en præcis genoptrykning af egen indhold, men snarere en sammenfattelse af andres arbejde. Som en læser i kommentaren korrekt meldte, bruger ChatGPT også Common Crawl Index (Language Models are Few-Shot Learners fra OpenAI, Tabel på S. 9).

Den fælles Crawl-database er en udskrift af en del af internettet, der allerede længe og uafhængigt af ChatGPT eller OpenAI er blevet lavet. Hvis man vil vide, om sin hjemmeside findes i Common Crawl Index, kan man downloade alle filer der og søge efter dem. Med et Python-script går det måske nemmere. Endnu nemmere, i hvert fald ved min test, går det med værktøjet gau (get all URLs), der ikke kun tager CommnCrawl, men også Wayback Machine (archive.org), AlienVault's Open Threat Exchance og URLScan i betragtning.

Ofte bruges i stedet for den oprindelige Common Crawl-database C4-databasen. C4 står for Colossal and Cleaned version of Common Crawl, dvs. en rensket Common Crawl-database.

For at lukke Crawleren fra Common Crawl Index, er følgende oplysning i filen robots.txt (Vær opmærksom: Navnene på bruger-agenterne synes at ændre sig let regelmæssigt!)

User-agent: CCBot
Disallow: /
User-agent: CCBot/1.0
Disallow: /
User-agent: CCBot/2.0
Disallow: /
User-agent: CCBot/3.0
Disallow: /

Hvis man vil forbedre sikkerheden og ikke blive "gecrawlt", kunne man bloccere sin server mod adgang fra IP-adresserne 38.107.191.66 til 38.107.191.119. Crawleren kører nu på AWS og har derfor åbenbart ændrende netværksadresser.

Internettet Arkiv (Tidsmaskinen)

Adresse Archive.org viser historiske data fra websitet-scans. Den, som ikke vil lande her, skal meddele dette Wayback-Roboter ved følgende indgang i robots.txt filen:

User-agent: ia_archiver
Tillad ikke: /

Hvis en hjemmeside er blevet indlæst af Wayback Machine, så finder den sig i deres indeks. Den nævnte Robots-anvisning skal sørge for, at den ikke længere kan tilgås offentligt fra indekset. For at slette dataene helt og holdbart, skal en DMCA-ansøgning sendes via e-mail til Internet Archiv.

Konklusion

Tro ikke på nogen AI, som du selv ikke har deaktiveret. Hvis du selv skaber og tilbyder indhold, skal du beskytte det. Hvorfor leverer vi så meget gratis indhold til koncerner som Google, Meta, Microsoft eller OpenAI?

Såsom søgerobotterne fra Google vil tabe i betydning, når andre som Microsoft tilbyder svarrobotter. Derved skifter problemet fra et nuværende onde til et andet nuværende og fremtidigt onde. Microsoft stjæler allerede konstant data fra os. Det ville være nemt for Microsoft at ikke udlede telemetri-data fra jeres Windows-computer, men i stedet bede om tilladelse til det. Ved Microsoft får begrebet "tilladelsessætning" en helt ny betydning.

Daher anbefaler jeg, alle bots at udskyde, som I ikke har brug for i din rolle som hjemmeside-ejer. Her til hører ifølge min mening helt sikkert ChatGPT samt Microsoft med Bing, hvorved ChatGPT jo er integreret blevet/will blive/bliver skal.

For den nærmeste fremtid kunne man overveje følgende: I stedet for at helt udrydde en AI-surfemaskine som ChatGPT, bliver nur bestemte indhold tilbagekoblet. Disse indhold indeholder så anvisninger om, hvordan ChatGPT kan blokeres. Så bidrager OpenAI-surfemaskinen selv til, at andre bedre ved, hvordan surfemaskinen kan blokeres.

Spændende vil det være, hvis vi blot beder OpenAI eller Microsoft om at slette vores egne indhold fra AI'en. Det Ret til at glemme skal vi snart prøve ud. Så må AI-udbyderen i værste fald konstant opdaterer sin AI-model.

Bedre er Lokale AI-modeller, der kører på intranettet eller på en enkelt computer. Derved kan man løse problemer, der er specifikke for en bestemt domæne, uden at datakrællerne får endnu flere data.