Hur kan Common Crawl Index blockeras?

Man kan blockera Common Crawl Index genom att spärra CCBot i robots.txt-filen för att förhindra att den hämtar innehåll från webbplatsen.

Hur kan jag förhindra att ChatGPT scrapar min webbplats?

Du kan blockera ChatGPT genom att blockera användaragenten 'ChatGPT-User' och/eller IP-adressintervallet 23.98.142.176/28. Alternativt kan du skapa en brandväggsregel för att blockera användaragenten 'ChatGPT'.

Vilka datakällor använder ChatGPT förutom internet?

ChatGPT baserar sig på datamängder som Common Crawl Index och Wikipedia. Dessa data skapas av tredje parter och används som grund för AI:s svar, vilket är sammanfattningar.

Hur kan jag förhindra att AI-system indexerar min webbplats?

Använd robots.txt-filen och ange användaren 'CCBot' för att blockera åtkomst från Common Crawl. Alternativt kan du blockera serveråtkomst från specifika IP-adresser.

Vad kan jag göra om en webbplats redan är sparad i Internet Archives Wayback Machine?

robots.txt-filen med användaren 'ia_archiver' kan förhindra att sidan fortsätter att vara offentligt tillgänglig i Wayback Archives index. En DMCA-förfrågan till Internet Archive krävs för att fullständigt ta bort datan.

Sichere KI, digitaler Datenschutz & Website-Compliance

Q: Vilka är de viktigaste åtgärderna mot AI-crawler?

Innehållsskapare kan använda betalväggar, CAPTCHAs, åtkomstbegränsningar för registrerade användare och blockering av IP-adressintervall eller användaragentnamn för att skydda sitt innehåll från AI-räddare.

Revolutionen har redan inträffat och går med en hastighet som är lika snabb som ett rymdskepp med tachyonmotor framåt. För innehållsskapare som jag finns det flera effektiva sätt att förhindra att egna innehåll "sugs upp" av ChatGPT och andra artificiella intelligenser.

Snart

Sammanfattning:

Texten behandlar ämnet artificiell intelligens (AI), särskilt chattprogrammet ChatGPT från OpenAI, och dataskydd. ChatGPT är ett AI-system som klarar Turingtestet och ger människoliknande svar på frågor. Detta leder till oro beträffande skydd av innehåll skapat av content creators, eftersom AI-system som ChatGPT kan använda dessa innehåll.

Diskuteras olika sätt att skydda egna innehåll från kärnprogrammeringssystem.

Svarade på frågor:

Fråga: Vad är ChatGPT och vilken revolution har det utlöst? Svar: ChatGPT är ett künstligt intelligenssystem från OpenAI, som klarar Turingtestet och orsakar stora förändringar i samhället.

Hur kan innehållsskapare skydda sina innehåll från konstig intelligens som till exempel ChatGPT? Innehållsskapare kan skydda sina innehåll genom att använda betalväggar, anti-bot-skydd, dedikerade användaruppgifter och tekniska spärrar mot crawlers.

Fråga: Vad är Turingtesten? Svar 3: Turing-testen prövar om en artificiell intelligens beter sig på ett sätt som inte längre kan skiljas från en människa.

Fråga: Vilka är några exempel på skyddsmått mot AI-surfare? Svar: Exempel på skyddsmått är betalhallar, Captchas, begränsningar för registrerade användare och blockering av IP-adressområden eller User-Agents.

Fråga: Vad är Common Crawl Index och hur kan man blockera det? Svar: Common Crawl Index är en datamängd som avbildar delar av internet; man kan blockera den genom att spärra in CCBot i robots.txt-filen.

De viktigaste nyckelorden:

Konstig intelligens, ChatGPT, Turing-test, innehållsskapare, betalvägg, anti-bot-skydd, dedikerade användare, teknisk spärr, mjuk spärr, hård spärr.

Inledning

Den största revolutionen under de senaste decennierna kommer att föra med sig massiva förändringar i samhället. Med det menas artificiell intelligens, och särskilt ChatGPT. ChatGPT är ett produkt av OpenAI-företaget. Många känner till detta AI-system redan.

ChatGPT klarar Turing-testen. Såvitt jag vet är det första exemplet på en AI som lyckats med detta. I alla fall ser jag det så. Wikipedia verkar vara uppdaterad i denna fråga. Turing-testen prövar om en AI beter sig på ett sätt som inte längre kan skiljas från ett mänskligt beteende. För att göra detta placeras en människlig testare i ett rum, och ställs frågor till det undersökta objektet via en genomgång, utan att se om testaren är människa eller inte. Testaren svarar på frågorna.

Redan länge sedan ser Google till att vissa (enkel) frågor direkt i sökmotorn besvaras. För detta tar Google Annorlunda innehåll från dig och mig. Vinnaren är Google, användaren gläds åt, Content Creator är dummen. Den som hade mest arbete kommer sämst undan. Han får inte ens en tack (i form av ett besök på webbplatsen, som visserligen inte betyder så mycket, men är bättre än ingenting).

ChatGPT har tagit Frage-Antwortspel till ett aldrig tidigare skådat nivå. Svar är delvis bättre än vad en människa skulle kunna ge och ofta minst lika bra som det från en intelligent person. Det är faktiskt fel att tro att ChatGPT i grunden bygger på ett slumpmässigt modell. Denna kan också vara en del av det. Logiskt dra slutsatser har för övrigt inte mycket med slumpen att göra. I varje fall inte mer än detta princip är inbyggt i vårt eget hjärna.

Exempel:

Fråga:
Pröva följande påstående på sannolikhet: Sven är en bättre hantverkare än Mareike. Mareike är en bättre hantverkare än Sven.
ChatGPT:
Utsagan är inte sannolik eftersom den innehåller en motsägelse. Det är inte möjligt att Sven är bättre än Mareike och samtidigt att Mareike är bättre än Sven. Denna utsaga är logiskt inkonsistent och därmed inte möjlig.
Värdering:
Nästan perfekt svar (det hade jag också gett; min bekant var dock smartare).
Fråga:
Kan det inte vara att det finns två personer som heter Mareike?
ChatGPT:
Yes, det är teoretiskt möjligt att det finns två personer med namnet Mareike, varav en är bättre på handverk än Sven, medan den andra är sämre än Sven. I så fall vore uttalandet trovärdigt och inte motsägande.
Det vore i detta fall meningsfullt att formulera uttalandet tydligare för att undvika missförstånd. Till exempel kunde man säga: "Mareike A är en bättre hantverkare än Sven, medan Mareike B är sämre än Sven."."
Värdering:
Enligt min (spontana) mening är detta en perfekt svar som inte behöver något tillägg.

Jag har tidigare i en annan artikel beskrivit en mer omfattande dialog med en sämre version av ChatGPT än den nuvarande. I den artikeln nämndes också program som DEEPL. Med hjälp av program som DALL-E eller Midjourney kan man fortfarande skapa nya och oändligt många bilder i aldrig tidigare uppnådd kvalitet. Över dessa bildskapande artificiella intelligenser hade jag också rapporterat. Även det bild som visas ovan i denna artikel är skapat med hjälp av en sådan artificiell intelligens.

Egna innehåll skydda

Redan ett par månader sedan har någon från Tyskland beskrivit att han tagit åtgärder för att skydda innehåll på sin webbplats mot att bli av en AI sugen.

Jag ser i huvudsak följande möjligheter att skydda egna innehåll mot AI:s som ChatGPT. Vad har jag för nytta av att andra använder min prestation utan att jag får någotdera?

Skall jorden snart bli underkuvad av en konstig intelligens? Detta bild kommer från en kI.

Möjligheterna att skydda sig mot crawlor är särskilt:

Betalningsgräns: Kommer även för mer kvalitativa innehåll på mindre webbplatser; Stora nyhetswebbplatser använder redan detta modell.
Botbehandlingsskydd: Som exempel nämns Captchas. Därutöver vill jag inte gå in mer i detalj, eftersom det är tekniskt mycket krävande och vi Google reCAPTCHA (i den osynliga versionen) ser som ett verktyg som strider mot dataskyddet. Dessutom är en sådan skydd inte fullständigt effektivt.
Registrerade användare vs Gäster: Endast registrerade användare kan läsa alla innehåll.
Teknisk spärr mot crawlers.
- Lätt blockering: Vänliga ChatGPT, låt min webbplats vara kvar som den är.
- Hart spärrning: Portvakt, som stänger av ChatGPT och OpenAI-servern.

Jag kommer inte att ge någon rekommendation för betalningsgränsen i nuläget. Innehåll som varit gratis ska för den mänskliga läsaren förblir det först och främst. Dessutom kommer vid köpprocesser juridiska problem till, som måste lösas (villkor, knapplösning, ångerrätt etc.).

Ett inloggning för användare som kan läsa alla innehåll är en bra skydd mot botar. I varje fall måste en bot få ett gratis (eller hur det än formgivits) kundkonto för att kunna läsa innehållet. Detta är möjligt, men kommer då att göra att stora crawlers hålls utanför. Vilken crawler-firma kan eller vill redan ha konton på alla möjliga webbplatser? Allt detta kan sedan kombineras med en bot-skydd.

Mänskligt hjärna är också "bara" en maskin, även om den är (relativt sett) fortfarande mycket kapabel.
ChatGPT gör många saker kvalitativ lika människan. Vissa tror dock att det är annorlunda, eftersom de inte erkänner att människan inte har en själ, utan bara en simulering av vad vissa kallar för själ.

En teknisk spärr kan lätt och effektivt uppföras. Jag beskriver i följande de nödvändiga åtgärderna.

Mjuk spärr

ChatGPT Crawler kan via en anvisning i filen robots.txt få instruktioner att ignorera webbsidan. Följande anvisning säkerställer detta:

User-agent: ChatGPT-User
Disallow: /
User-agent: GPTBot
Disallow: /

Om Crawlern för AI håller sig till sina regler eller inte är en förtroendefråga. Vem vill ju tro på en AI när man redan inte kan lita på sina egna ögon? Att OpenAI använder flera användaragenter som inte transparent beskrivs på en och samma sida, tydliggör problemet för framtiden:

Inaktivera ChatGPT-plugget ([1])
ÖppnaI-webbsökare blockerad av GPTBot

Viltfångstförbud

En annan möjlighet är att spärra serveråtkomsten via deras nätverksadresser. För detta måste en adressintervall deklareras, för vilken ett åtkomst till webbplatsen ska vara tekniskt blockerad.

Adressområdet är enligt information från OpenAI följande: `23.98.142.176/28

Den tekniska spärren måste implementeras på servern på din egen webbserver. Med hjälp av tillägg som WordFence för WordPress-webbsidor är det enkelt att genomföra. I WordFence finns en integrerad Brandvägg. För firewalls regler måste nu en ny regel läggas till, för att spärra ut IP-området.

Detta görs i menyfliken "Brandvägg" under rubriken "Skapa en blockeringssats".

Blockera åtkomst via IP-adressintervall med WordFence i ChatGPT. (bilden översattes automatiskt).

Som blocktyp väljs "Anpassad mönster" ut. I fältet "IP-adressintervall" kan IP-adressområdet för ChatGPT-servern anges.

Analog kan dessutom en serverbaserad regel skapas för att blockera User-Agent från ChatGPT. För detta anges värdet "ChatGPT" i fältet "Webbläsarens User Agent" och alla andra fält, utom "Blockeringens orsak", lämnas tomma. Stjärnorna i namnet på ChatGPT står för joker-tecken, eftersom crawler-identifieringen kan ha prefix och postfix.

Konfigurationen för blockering över adressområde och användaragent ser då ut såhär:

OpenAI och ChatGPT får åtkomst blockerad via en IP-adressintervall och via crawler-identifiering. (bilden översattes automatiskt).

Den här blockeringen ska också säkerställa att ChatGPT-plugget utelämnas, som granskar webbplatser för att hämta och kombinera information för frågor.

Efter en tid kan man titta på denna statistik igen. I kolumnen "Block Count" är då de anrop som blockerats räknade upp. De minsta webbplatserna kommer sannolikt bara mycket sällan eller aldrig att besökas av ChatGPT och OpenAI. Kända webbplatser eller sådana med många inlänkar kommer dock snarare att få nytta av att deras innehåll försvinner i den svarta lådan som heter ChatGPT och sannolikt aldrig kan återfås igen.

Ytterligare bud

Common Crawl

ChatGPT använder redan befintliga datauppsättningar från andra crawlers som Common Crawl eller kunskapsdatabaser som Wikipedia. Vad som redan är uppräknat på Wikipedia kommer sannolikt inte att kunna återhämtas, eftersom det inte är en exakt återgivning av egna innehåll utan snarare en sammanfattning genom tredje part. Som en läsare i kommentaren rätt och riktigt meddelade använder ChatGPT också Common Crawl Index (Language Models are Few-Shot Learners från OpenAI, Tabell på s. 9).

Den här Common Crawl-databasen är en kopia av en del av internet som redan länge och helt oberoende av ChatGPT eller OpenAI har skapats. Om man vill veta om sin webbplats finns i Common Crawl-index, kan man ladda ner alla filer där och söka igenom dem. Med ett Python-skript kanske det går lättare. Ännu enklare, åtminstone vid min testning, är att använda verktyget gau (get all URLs), som utöver Common Crawl även tar hänsyn till Wayback Machine (archive.org), AlienVault's Open Threat Exchange och URLScan.

Tidvis används i stället för den ursprungliga Common Crawl-databasen C4-databasen. C4 står för Colossal and Cleaned version of Common Crawl, det vill säga en renskad Common Crawl-databas.

För att spärra in Crawler från Common Crawl Index, räcker följande uppgift i filen robots.txt (Varning: Namnen på User-Agents verkar ändras lite regelbundet!)

User-agent: CCBot
Disallow: /
User-agent: CCBot/1.0
Disallow: /
User-agent: CCBot/2.0
Disallow: /
User-agent: CCBot/3.0
Disallow: /

Om man vill öka säkerheten och inte vill crawlas, kan man blockera servern mot IP-adresserna 38.107.191.66 till 38.107.191.119 för att nå den. Crawlern kör nu på AWS och har alltså tydligen växlande nätadresser.

Internetarkivet (Waybackmaskinen)

Den här adressen visar historiska data från webbsidor som har blivit scannade. Om du inte vill landa på den här sidan, bör du meddela Wayback-Roboten genom att lägga in följande rad i din robots.txt-fil:

User-agent: ia_archiver
Förhindra: /

Om en webbplats redan har hämtats av Wayback Machine så finns den i deras index. Den nämnda Robots-anvisningen borde se till att den inte längre är offentligt åtkomlig från indexet. För att ta bort data helt och hållet måste en DMCAnämndan skickas via e-post till Internetarkivet.

Sammandrag

Förtrösta dig aldrig på en AI som du inte själv har inaktiverat. Den som skapar och tillhandahåller egna innehåll bör skydda det. Varför lämnar vi alltid så många innehåll gratis till företag som Google, Meta, Microsoft eller OpenAI?

Så kallade sökmotorer som Googles kommer att förlora betydelse när andra, som Microsoft, tillhandahåller svarsmaskiner. Därmed skiftar problemet från ett nuvarande onda till ett annat nuvarande och framtida onda. Microsoft stjäl redan hela tiden data från oss. Det skulle vara lätt för Microsoft att inte hämta telemetriuppgifter från er Windows-dator, utan istället be om ert samtycke till det. Vid Microsoft får begreppet "samtyckesvillkor" en helt ny betydelse.

Jag rekommenderar starkt att alla botar utestängs, som ni inte har nytta av i ert arbete som webbplatsägare. Här tillhör jag helt säkert ChatGPT samt Microsoft med Bing, där ChatGPT ju ska integreras/finnas/ska finnas.

För den närmaste framtiden kunde man tänka sig följande: Istället för att helt spärra av en AI-sökare som ChatGPT, bara vissa innehåll återges. Dessa innehåll innehåller sedan anvisningar om hur ChatGPT kan blockeras. Så bidrar OpenAIs sökare själv till att andra får bättre kunskap om hur sökaren kan blockeras.

Det blir spännande när vi ber OpenAI eller Microsoft att ta bort våra egna innehåll från AI. Vi borde snart utnyttja rätten till att glömmas. Då måste AI-ägaren i det sämsta fall träna om sitt AI-modell pågående.

Bättre är lokala AI-modeller, som kör på intranätet eller på en enda dator. Då kan man lösa problem som är specifika för domänen, utan att datakrigare får tillgång till ännu mer data.