Quali sono le principali misure di protezione contro i crawler basati sull'IA?

I creatori di contenuti possono utilizzare gateway a pagamento, Captchas, restrizioni di accesso per utenti registrati e il blocco di intervalli di indirizzi IP o user agent per proteggere i propri contenuti dai crawler basati sull'intelligenza artificiale.

Come bloccare l'indice Common Crawl?

È possibile bloccare l'indice Common Crawl impedendo al CCBot di essere bloccato nel file robots.txt per evitare che scarichi contenuti dal sito web.

Come posso impedire a ChatGPT di scraping il mio sito web?

Puoi bloccare ChatGPT bloccando l'User-Agent 'ChatGPT-User' e/o l'intervallo di indirizzi IP 23.98.142.176/28. In alternativa, puoi creare una regola del firewall per bloccare l'User-Agent 'ChatGPT'.

Quali fonti di dati utilizza ChatGPT oltre a Internet?

ChatGPT si basa su database come l'Index di Common Crawl e Wikipedia. Questi dati sono creati da terze parti e fungono da base per le risposte dell'IA, che sono riassunti.

Come posso impedire che i sistemi di IA crawlino il mio sito web?

Utilizzi il file robots.txt e specifica l'User-Agent 'CCBot' per bloccare l'accesso di Common Crawl. In alternativa, puoi bloccare gli accessi del server da indirizzi IP specifici.

Cosa posso fare se un sito web è già stato salvato nell'Archivio Wayback Machine dell'Internet Archive?

Il file robots.txt con l'User-Agent 'ia_archiver' può impedire che la pagina rimanga accessibile pubblicamente nell'indice di Wayback Machine. È necessaria una richiesta DMCA all'Internet Archive per eliminare completamente i dati.

Sichere KI, digitaler Datenschutz & Website-Compliance

La rivoluzione è già avvenuta e procede con la velocità di un razzo a tachioni. Per i creatori di contenuti come me esistono diverse possibilità efficaci per impedire l'aspirazione dei propri contenuti da parte di ChatGPT e altre intelligenze artificiali.

In breve

Riassunto:

Il testo affronta il tema dell'intelligenza artificiale (IA), in particolare ChatGPT di OpenAI, e la protezione dei dati personali. ChatGPT è un sistema di IA che supera il test di Turing e fornisce risposte umanizzate alle domande. Ciò porta a preoccupazioni riguardo alla tutela dei contenuti creati da creatori di contenuti, poiché i sistemi di IA come ChatGPT possono utilizzare questi contenuti.

Vengono discusse diverse possibilità per proteggere i propri contenuti dai sistemi di intelligenza artificiale.

Domande risposte:

Domanda: Cosa è ChatGPT e quale rivoluzione ha scatenato? Risposta: ChatGPT è un sistema di Intelligenza Artificiale di OpenAI che supera il test di Turing e provoca profondi cambiamenti nella società.

Come possono i creatori di contenuti proteggere i loro contenuti dalle intelligenze artificiali come ChatGPT? I creatori di contenuti possono proteggere i loro contenuti utilizzando barriere di pagamento, protezione contro i bot, accessi dedicati agli utenti e blocchi tecnici contro i crawler.

Domanda: Cosa è il test di Turing? Risposta 3: Il test di Turing verifica se un'intelligenza artificiale si comporta in modo tale da non essere più distinguibile da un essere umano.

Domanda: Quali sono alcuni esempi di misure di protezione contro i crawler di intelligenza artificiale? Risposta: Esempi di misure di protezione sono le barriere pagamentesche, i Captchas, le restrizioni di accesso per gli utenti registrati e il blocco degli intervalli di indirizzi IP o degli agenti utente.

Domanda: Qual è l'indice di Common Crawl e come si può bloccarlo? Risposta: Il Common Crawl Index è un insieme di dati che rappresenta parti del web; si può bloccarlo inserendo il CCBot nella robots.txt e facendolo bloccare.

I parole chiave più importanti:

Intelligenza Artificiale, ChatGPT, Test di Turing, Creatore di contenuti, Barriera di pagamento, Protezione anti-bot, Utenti dedicati, Blocco tecnico, Blocco morbido, Blocco duro.

Introduzione

La rivoluzione più grande degli ultimi decenni produrrà cambiamenti massicci nella società. Si intende la Intelligenza Artificiale, e in particolare ChatGPT. ChatGPT è un prodotto della ditta OpenAI. A molti è già nota questa macchina di tipo AI.

ChatGPT supera il test di Turing. A quanto ne so, è la prima IA a riuscirci. Comunque lo vedo così. Wikipedia sembra essere obsoleta in questo senso. Il test di Turing verifica se un'IA si comporta in modo tale da non poter più essere distinta da un umano. Per farlo, in una stanza viene posizionato un esaminatore umano che pone domande all'oggetto sottoposto al test attraverso una passerella, senza vedere se l'esaminatore sia umano o meno. L'esaminatore risponde alle domande.

Già da tempo Google si occupa di far sì che certe (facili) domande vengano risposte direttamente all'interno della barra di ricerca. Per questo scopo Google utilizza contenuti di te e di me. Il vincitore è Google, l'utente si rallegra, il creatore del contenuto è il poveraccio. Quel che ha fatto la maggior parte del lavoro viene messo in cattiva luce. Non riceve nemmeno un ringraziamento (ad esempio sotto forma di visita al sito web, che non porta molto ma è meglio di nulla).

ChatGPT ha portato il gioco di domande e risposte a un livello mai visto prima. Le risposte sono in parte migliori di quelle che potrebbe fornire un essere umano e spesso almeno altrettanto buone di quelle di una persona intelligente. È comunque sbagliato dire che ChatGPT si basa principalmente su un modello stocastico. Questo può anche farne parte. Il ragionamento logico in ogni caso ha poco a che fare con la stocasticità. In ogni caso non più di quanto questo principio sia radicato nel nostro stesso cervello.

Esempio:

Domanda:
Verifica la seguente affermazione sulla sua plausibilità: Sven è un migliore artigiano di Mareike. Mareike è un migliore artigiano di Sven.
ChatGPT:
La affermazione non è plausibile, in quanto contiene un paradosso. Non è possibile che Sven sia meglio di Mareike e allo stesso tempo Mareike sia migliore di Sven. Questa affermazione è logicamente inconsistente e quindi impossibile.
Valutazione:
Risposta quasi perfetta (che anch'io avrei dato; la mia amica era però più astuta).
Domanda:
Non può essere che ci siano due persone chiamate Mareike?
ChatGPT:
Sì, è teorizzabile che ci siano due persone con il nome di Mareike, una delle quali sia più brava nel mestiere rispetto a Sven, mentre l'altra sia meno brava di Sven. In questo caso la dichiarazione sarebbe plausibile e non contraddittoria.
Tuttavia in questo caso sarebbe utile formulare la dichiarazione in modo più chiaro per evitare malintesi. Ad esempio si potrebbe dire: "Mareike A è un migliore artigiano di Sven, mentre Mareike B è peggiore di lui"."
Valutazione:
Secondo la mia opinione (spontanea) questa è una risposta perfetta, a cui non si può aggiungere nulla.

Ho avuto un dialogo più ampio con una versione peggiorata di ChatGPT rispetto a quella attuale, che ho descritto in un mio precedente articolo. In esso sono stati menzionati anche programmi come DEEPL. Con l'aiuto di programmi come DALL-E o Midjourney possono essere create immagini nuove e infinite di qualità mai vista prima. Sui sistemi di intelligenza artificiale per la creazione di immagini avevo anch'io già riferito. Anche l'immagine in alto in questo articolo è stata creata con questo metodo.

Proteggi i tuoi contenuti

Già alcuni mesi fa qualcuno dalla Germania ha descritto che aveva preso misure per proteggere i contenuti del suo sito web da essere suggeriti da un'intelligenza artificiale.

Vedo in sostanza le seguenti possibilità per proteggere i miei contenuti contro le AI come ChatGPT. Cosa mi porta a non fare nulla se altri utilizzano la mia prestazione?

Sarà presto la Terra a essere governata da una Intelligenza Artificiale? Questa immagine proviene da una AI.

Le possibilità di protezione contro i crawler sono in particolare:

Limite di pagamento: Arriverà anche per contenuti di alta qualità delle piccole pagine web; già le grandi testate di notizie utilizzano questo modello.
Protezione contro i bot: Per esempio, si possono citare i Captchas. Ciò non lo affronterò (ancora) in modo più approfondito, poiché tecnicamente molto impegnativo e noi Google reCAPTCHA (nella versione invisibile) consideriamo un dispositivo molto ostile ai dati che non vogliamo utilizzare. Inoltre, un tale tipo di protezione non è efficace in modo completo.
Utenti registrati vsospiti: solo gli utenti registrati possono leggere tutti i contenuti.
Blocco tecnico contro i crawler.
- Blocco gentile: Per favore per favore, caro ChatGPT, non cancellare il mio sito web.
- Blocco di emergenza: il portiere, ChatGPT e server OpenAI bloccano duramente.

Non darò attualmente alcuna raccomandazione per la soglia di pagamento. I contenuti che erano gratuiti dovrebbero rimanere tali per il lettore umano almeno per ora. Inoltre, durante i processi di acquisto si aggiungono problemi giuridici da risolvere (condizioni generali d'uso, soluzione del bottone, diritto di recesso ecc.).

Un login per utenti che possono leggere tutti i contenuti è un buon protezione contro i bot. Almeno, un bot dovrebbe ottenere un account gratuito (o di qualsiasi altra forma) per poter leggere i contenuti. Ciò è possibile, ma farà sì che enormi crawler rimangano fuori. Quale azienda di crawler può o vuole già gestire conti su tutte le possibili siti web? Tutto ciò può poi essere combinato con un protezione contro i bot.

Il cervello umano è anche "solo" un automa, benché un (rispetto a esso) ancora molto performante.
ChatGPT fa molte cose di qualità simile a quella umana. Alcuni pensano però che sia diverso perché non riconoscono che l'uomo non ha anima, ma solo una simulazione di ciò che alcuni chiamano anima.

Una spera tecnica può essere facilmente e efficacemente costruita. Nella seguente descrizione sono indicate le misure necessarie.

Barriera mobile

Il crawler ChatGPT può essere istruito a ignorare il sito web tramite una direttiva nella file robots.txt. La seguente direttiva assicura che:

User-agent: ChatGPT-User
Non permettere: /
User-agent: GPTBot
Non permettere: /

La questione di fidarsi o meno del crawler della AI è una faccenda di fiducia. Chi vuole ancora fidarsi di una AI, quando ormai non si può nemmeno fidare degli occhi propri? Solo il fatto che OpenAI utilizza più agenti utente non trasparenti descritti su un'unica pagina, rende chiaro il problema per il futuro:

Blocco di plugin di ChatGPT ([1])
Blocco del web crawler di OpenAI da parte di GPTBot ([1])

Chiusura del parco naturale

Un'altra possibilità è bloccare gli accessi ai server attraverso le loro indirizzi di rete. Per farlo, deve essere dichiarato un intervallo di indirizzi per cui l'accesso al sito web debba essere tecnicamente impedito.

L'area di indirizzo è secondo l'informazione di OpenAI la seguente: `23.98.142.176/28

La barriera tecnica deve essere realizzata sul proprio server web. Con l'aiuto di plugin come WordFence per le pagine WordPress, la sua implementazione è semplice. In WordFence c'è una Firewall integrata. Ora bisogna aggiungere una regola alla Firewall per bloccare un intervallo di IP.

Si trova nel punto del menu "Firewall" nella sezione "Crea una regola di blocco".

Bloccare l'accesso a ChatGPT tramite il range di indirizzi IP con WordFence. (l'immagine è stata tradotta automaticamente).

Come tipo di blocco viene selezionato "Schema personalizzato". Nel campo "Intervallo di indirizzi IP" può essere indicato l'intervallo degli indirizzi del server ChatGPT.

Analogamente può essere creata una regola server-side per bloccare l'User-Agent di ChatGPT. Per farlo, nel campo "Browser User Agent" viene inserito il valore "*ChatGPT*" e tutti gli altri campi, ad eccezione di "Block Reason", rimangono vuoti. Le stelle nel nome di ChatGPT rappresentano i caratteri jolly, poiché l'identificatore del crawler può avere prefissi e suffissi.

La configurazione per la blocco dell'area di indirizzo e l'agente utente è quindi la seguente:

OpenAI e ChatGPT sono bloccati tramite un range di indirizzi IP e attraverso l'identificazione dei crawler. (l'immagine è stata tradotta automaticamente).

La sospensione garantisce idealmente anche che i plugin di ChatGPT vengano bloccati, che scannino le pagine web per ottenere e combinare informazioni per le richieste.

Qualche tempo dopo si può rivedere questa statistica. Nella colonna "Block Count" sono elencati gli accessi bloccati. Probabilmente solo le piccole pagine web vengono rare o mai visitate da ChatGPT e OpenAI. Le pagine web note o quelle con molti collegamenti verso di loro avranno invece più probabilità di essere dimenticate, in quanto i contenuti verranno cancellati nella "Black Box" chiamata ChatGPT e probabilmente non potranno mai essere recuperati nuovamente.

Ulteriori messaggi

Common Crawl

ChatGPT utilizza già i dati esistenti di altri crawler come Common Crawl o banche dati come Wikipedia. Ciò che è già registrato su Wikipedia non potrà essere recuperato, in quanto non si tratta di una riproduzione fedele dei propri contenuti, ma piuttosto di un riassunto fornito da terzi. Come ha notificato correttamente un lettore nel commento, ChatGPT utilizza anche l'indice del Common Crawl (Language Models are Few-Shot Learners di OpenAI, Tavola alla pag. 9).

Il dataset Common Crawl è un estratto di una parte dell'Internet che viene realizzato da molto tempo e indipendentemente da ChatGPT o OpenAI. Chi vuole sapere se il suo sito web è presente nell'Indice del Common Crawl, può scaricare tutte le file e cercarle. Con uno script Python potrebbe essere più facile. Ancora più semplice, almeno nel mio test, è utilizzare l'utensile gau (prendi tutti gli URL), che considera anche i fornitori Wayback Machine (archive.org), AlienVault's Open Threat Exchange e URLScan.

Spesso viene utilizzato al posto del dataset originale di Common Crawl il C4-dataset. C4 sta per Colossal and Cleaned version of Common Crawl, è quindi un set di dati Common Crawl pulito.

Per bloccare il crawler del Common Crawl Index, basta inserire la seguente dichiarazione nel file robots.txt (attenzione: i nomi degli agenti utente sembrano cambiarsi leggermente regolarmente!)

User-agent: CCBot
Disallow: /
User-agent: CCBot/1.0
Disallow: /
User-agent: CCBot/2.0
Disallow: /
User-agent: CCBot/3.0
Disallow: /

Chi vuole aumentare la sicurezza e non essere "scavato" potrebbe bloccare l'accesso al suo server utilizzando le IP 38.107.191.66 fino a 38.107.191.119. Intanto il crawler funziona su AWS e quindi ha indirizzi di rete apparentemente variabili.

Archivio Internet (Macchina del tempo)

L'indirizzo Archive.org mostra dati storici di scansione delle pagine web. Chi non vuole finire qui dovrebbe comunicare questo al robot Wayback inserendo il seguente comando nella file robots.txt:

User-agent: ia_archiver
Non permettere: /

Se una pagina web è stata già recuperata dalla Wayback machine, essa si trova nel suo indice. La menzionata Robots-Anweisung dovrebbe assicurarsi che non sia più accessibile pubblicamente dall'indice. Per cancellare completamente i dati, occorre inviare una Richiesta DMCA via e-mail all'Internet Archivio.

Conclusione

Non fidarti mai di una AI che non hai tu stesso disattivato. Chi crea e gestisce contenuti dovrebbe proteggerli. Perché forniamo sempre così tanti contenuti gratis a conglomerati come Google, Meta, Microsoft o OpenAI?

Le ricerche come quelle di Google perderanno importanza se altri, come Microsoft, forniranno risposte alle domande. In questo modo il problema si sposterà da un cattivo attuale a un altro attuale e futuro cattivo. Microsoft sta già rubando continuamente i nostri dati. Sarebbe facile per Microsoft non prelevare i dati di telemetria dal suo computer Windows, ma chiedere la nostra autorizzazione per farlo. Al Microsoft il concetto di "autorizzazione" assume un significato completamente nuovo.

Suggerisco di espellere tutti i bot che non sono necessari per il vostro ruolo come gestori del sito web. Tra questi, a mio avviso, sicuramente rientra ChatGPT e Microsoft con Bing, in cui è infatti integrato ChatGPT.

Per il futuro prossimo si potrebbe pensare di: invece di bloccare completamente un crawler basato su intelligenza artificiale come ChatGPT, solo certi contenuti vengono riprodotti. Questi contenuti contengono istruzioni su come bloccare ChatGPT. In questo modo il crawler di OpenAI contribuisce a far sì che altri ne sappiano sempre meglio come bloccarlo.

Sarà interessante quando chiederemo a OpenAI o Microsoft di cancellare i nostri contenuti dalla loro AI. Il diritto all'oblio dovremmo sfruttarlo presto. Allora il gestore dell'AI dovrà, nel peggiore dei casi, riaddestrare continuamente il suo modello di AI.

Meglio sono modelli di intelligenza artificiale locali, che si svolgono nel intranet o su un solo computer. Con questi è possibile risolvere problemi specifici per la propria area, senza che i "datagranchi" ottengano ulteriori dati.

Messaggi chiave

L'intelligenza artificiale, come ChatGPT, sta rivoluzionando la società e pone sfide alla protezione dei contenuti creati dagli umani.

ChatGPT e altre IA possono rispondere a domande in modo molto simile a un essere umano, ma questo crea problemi per gli autori di contenuti online, perché le IA utilizzano i loro contenuti senza riconoscerli o ricompensarli.

Per proteggere i siti web dai crawler di intelligenza artificiale, si possono usare diverse strategie, come limitare l'accesso a contenuti, utilizzare Captchas, richiedere un login o bloccare gli indirizzi IP dei crawler.

Per bloccare ChatGPT e OpenAI sul proprio sito web, si può utilizzare un plugin come WordFence per creare regole di blocco basate sull'indirizzo IP e sull'User-Agent di ChatGPT.

È importante proteggere i propri contenuti online e controllare chi può accedervi.

Ulteriori informazioni