Comment bloquer l'index Common Crawl?

Il est possible de bloquer l'index Common Crawl en interdisant le CCBot dans le fichier robots.txt afin d'empêcher qu'il ne télécharge du contenu du site web.

Comment puis-je empêcher ChatGPT de scraper mon site web ?

Vous pouvez bloquer ChatGPT en bloquant l'agent utilisateur « ChatGPT-User » et/ou la plage d'adresses IP 23.98.142.176/28. Alternativement, vous pouvez créer une règle de pare-feu pour bloquer l'agent utilisateur « ChatGPT ».

Quelles sources de données ChatGPT utilise-t-il en plus d'Internet ?

ChatGPT s'appuie sur des ensembles de données tels que l'Index Common Crawl et Wikipédia. Ces données sont créées par des tiers et servent de base aux réponses de l'IA, qui sont des résumés.

Comment puis-je empêcher les systèmes d'IA de crawler mon site web ?

Utilisez le fichier robots.txt et spécifiez l'agent utilisateur 'CCBot' pour bloquer l'accès de Common Crawl. Alternativement, vous pouvez bloquer les accès aux serveurs à partir de certaines adresses IP.

Que puis-je faire si un site web est déjà archivé dans l'archive Wayback Machine de l'Internet Archive ?

Le fichier robots.txt avec l'agent utilisateur 'ia_archiver' peut empêcher la page de rester accessible publiquement dans l'index du Wayback Archive. Une demande DMCA adressée à l'Internet Archive est nécessaire pour supprimer complètement les données.

Protéger le droit d'auteur et empêcher la navigation de contenus propres

Q: Quelles sont les principales mesures de protection contre les robots d'exploration d'IA ?

Les créateurs de contenu peuvent utiliser des passerelles de paiement, des Captchas, des restrictions d'accès pour les utilisateurs enregistrés et le blocage des plages d'adresses IP ou des agents utilisateur pour protéger leur contenu contre les robots d'exploration basés sur l'IA.

La révolution a déjà eu lieu et avance à la vitesse d'un vaisseau spatial avec un moteur Tachyonique. Pour les créateurs de contenu comme moi, il existe plusieurs moyens efficaces pour empêcher l'aspiration de nos contenus par ChatGPT et autres intelligences artificielles.

En résumé

Résumé:

Le texte traite du thème de l'intelligence artificielle (IA), en particulier ChatGPT d'OpenAI, et la protection des données. ChatGPT est un système IA qui réussit le test de Turing et fournit des réponses humaines à des questions. Cela soulève des inquiétudes quant au protocole de protection des contenus créés par les créateurs de contenu, car les systèmes d'IA comme ChatGPT peuvent utiliser ces contenus.

Différentes possibilités sont discutées pour protéger des contenus propres contre les systèmes de l'intelligence artificielle.

Réponses aux questions:

Question: Qu'est-ce que ChatGPT et quelle révolution a-t-elle déclenchée ? Réponse: ChatGPT est un système d'intelligence artificielle de OpenAI, qui réussit le test de Turing et provoque des changements massifs dans la société.

Comment les créateurs de contenu peuvent-ils protéger leurs contenus contre l'intelligence artificielle comme ChatGPT ? Les créateurs de contenu peuvent protéger leurs contenus en utilisant des barrières payantes, un anti-bot, des accès aux utilisateurs dédiés et des blocages techniques contre les crawlers.

Question: Qu'est-ce que le test de Turing ? Réponse 3: Le test de Turing vérifie si une intelligence artificielle se comporte d'une manière qui la rend indiscernable d'un humain.

Question: Quels sont quelques exemples de mesures de protection contre les "spiders" d'intelligence artificielle ? Réponse: Des exemples de mesures de protection sont les caisses d'argent, les Captchas, les restrictions d'accès pour les utilisateurs enregistrés et le blocage des plages d'adresses IP ou des agents utilisateur.

Question: Qu'est-ce que l'Index Common Crawl et comment peut-on le bloquer ? Réponse: Le Common Crawl Index est un ensemble de données qui représente des parties d'internet ; on peut le bloquer en mettant le CCBot dans la fichier robots.txt.

Les mots-clés les plus importants:

Intelligence artificielle, ChatGPT, Test de Turing, Créateur de contenu, Barrière de paiement, Protection anti-robot, Utilisateurs dédiés, Verrouillage technique, Serrure molle, Serrure dure.

Introduction

La plus grande révolution des dernières décennies entraînera de profondes transformations dans la société. Il s'agit d'intelligence artificielle, et en particulier de ChatGPT. ChatGPT est un produit de l'entreprise OpenAI. Beaucoup connaissent déjà ce système AI.

ChatGPT a réussi le test de Turing. Autant que je sache, c'est la première intelligence artificielle à y parvenir. En tout cas, c'est mon avis. Wikipedia semble en retard sur cette question. Le test de Turing vérifie si une IA se comporte d'une manière qui ne permet pas de la distinguer d'un humain. Pour cela, on place dans un espace un examinateur humain qui pose des questions à l'objet de test par une fenêtre sans voir s'il est humain ou non. L'examineur répond aux questions.

Depuis longtemps déjà, Google s'assure que certaines (simples) questions soient répondues directement dans la barre de recherche. Pour cela, Google tire des contenus de vous et moi. Le gagnant est Google, l'utilisateur se réjouit, le créateur de contenu est le con. C'est celui qui a fait le plus de travail qui en sortira le moins bien. Il ne reçoit même pas un merci (en forme d'un visite sur son site web, qui n'apporte rien mais c'est mieux que rien).

ChatGPT a porté le jeu de questions-réponses à un niveau jamais atteint. Les réponses sont parfois meilleures que celles d'un humain et souvent au moins aussi bonnes que celles d'une personne intelligente. Il est d'ailleurs faux de dire que ChatGPT repose principalement sur un modèle stochastique. Cela peut en faire partie, toutefois. Le raisonnement logique n'a en tout cas pas grand-chose à voir avec la stochastique. Pas plus qu'il ne l'est dans notre propre cerveau.

Exemple:

Posez la question:
Vérifiez la validité de l'affirmation suivante: Sven est un meilleur artisan que Mareike. Mareike est un meilleur artisan que Sven.
ChatGPT:
L'affirmation n'est pas plausible car elle contient une contradiction. Il est impossible que Sven soit meilleur que Mareike et en même temps que Mareike soit meilleure que Sven. Cette affirmation est logiquement incohérente et donc impossible.
Évaluation:
Réponse presque parfaite (c'est celle que j'aurais donnée moi-même ; mais ma connaissance était plus intelligente).
Posez la question:
Il ne peut pas être que il y ait deux personnes nommées Mareike ?
ChatGPT:
Oui, il est théoriquement possible qu'il y ait deux personnes appelées Mareike, l'une d'elles étant meilleure dans le métier que Sven, tandis que l'autre est moins bonne que Sven. Dans ce cas, la déclaration serait plausible et non contradictoire.
Dans ce cas, il serait utile de formuler l'affirmation plus clairement pour éviter les malentendus. Par exemple, on pourrait dire: "Mareike A est un meilleur artisan que Sven, tandis que Mareike B est moins douée que Sven."."
Évaluation:
Selon mon avis spontané, c'est une réponse parfaite qui ne nécessite rien d'autre.

J'ai présenté dans un article précédent un dialogue plus étendu avec une version moins bonne de ChatGPT que la sienne actuelle. Dans ce texte, j'ai également mentionné des programmes tels que DEEPL. Avec l'aide de programmes comme DALL-E ou Midjourney, on peut continuer à créer de nouvelles et innombrables images de qualité jamais vue auparavant avec une intelligence artificielle visuelle. J'avais également parlé de cette [7]intelligence artificielle visuelle [8]. L'image ci-dessus a été créée de la même manière.

Protéger ses contenus propres

Il y a quelques mois, quelqu'un d'Allemagne a décrit qu'il avait pris des mesures pour protéger les contenus sur son site web contre d'être aspirés par une IA.

Je vois en substance les possibilités suivantes pour protéger mes contenus contre des AI comme ChatGPT. Qu'est-ce que cela me rapporte si je ne reçois rien du tout, lorsque d'autres utilisent ma performance ?

Serait-elle bientôt la Terre qui sera dominée par une Intelligence Artificielle ? Cette image provient d'une IA.

Les possibilités de protection contre les crawlers sont notamment:

Limite de paiement: Va également arriver pour les contenus de meilleure qualité des petites sites Web ; Les grands sites d'actualité utilisent déjà ce modèle.
Protection anti-robots: Comme exemple, citons les Captchas. Je ne vais pas (encore) y entrer plus en détail, car cela est techniquement très exigeant et nous Google reCAPTCHA (dans la version invisible) considérons comme un outil très hostile aux données que nous ne voulons pas utiliser. De plus, une telle protection n'est pas complètement efficace.
Utilisateurs déclarés versus Visiteurs: Seuls les utilisateurs enregistrés peuvent lire tous les contenus.
Verrouillage technique contre les crawlers.
- Blocage mou: S'il vous plaît s'il vous plaît, chère ChatGPT, ne bloquez pas mon site web.
- Verrouillage sévère: Gardien de la porte, qui verrouille durement le serveur ChatGPT et OpenAI.

Je ne donnerai actuellement aucune recommandation concernant la limite de paiement. Les contenus qui étaient gratuits devraient rester tels pour le lecteur humain, au moins pour l'instant. De plus, des problèmes juridiques apparaissent lors des processus d'achat (CGV, solution bouton, droit de rétractation etc.) qui doivent être résolus.

Un login pour les utilisateurs qui peuvent lire tous les contenus est une bonne protection contre les bots. Au moins, un bot devrait avoir à obtenir un compte client gratuit (ou de toute autre manière conçu) pour pouvoir lire les contenus. C'est possible, mais cela empêchera les grands crawlers d'entrer. Source entreprise de crawling peut ou veut déjà gérer des comptes sur toutes les sites Web possibles ? On peut alors combiner cela avec une protection contre les bots.

L'esprit humain est aussi "seulement" un automate, bien qu'un (relativement considéré) encore très performant.
ChatGPT fait de nombreuses choses qualitativement similaires à l'homme. Certains pensent cependant qu'il s'agit d'autre chose, parce qu'ils ne reconnaissent pas que l'homme n'a pas d'âme, mais seulement une simulation de ce que certains appellent âme.

Une sperre technique peut être facilement et efficacement érigée. Je décris ci-dessous les mesures nécessaires.

Barrière molle

Le Crawleur ChatGPT peut être invité à ignorer la page web par une instruction dans le fichier robots.txt. L'instruction suivante s'assure que:

User-agent: ChatGPT-User
Interdire: /
Agent-utilisateur: GPTBot
Interdire: /

Il est de la confiance que le Crawler de l'IA se conforme ou non. Qui veut bien faire confiance à une IA quand on ne peut même plus faire confiance à ses propres yeux ? Dès qu'on sait que OpenAI utilise plusieurs agents utilisateur qui ne sont pas transparents sur une seule page, cela montre clairement le problème pour l'avenir:

Désactivation des plugins de ChatGPT ([1])
Bloquer les crawleurs web d'OpenAI par GPTBot

Zone de protection faunique

Une autre possibilité est d'interdire les accès au serveur à travers leurs adresses réseau. Pour cela, il faut déclarer un ensemble d'adresses pour lequel l'accès à la page web doit être techniquement bloqué.

L'aire d'adresses est selon l'information d'OpenAI la suivante: `23.98.142.176/28

La barrière technique doit être mise en œuvre côté serveur sur votre propre serveur Web. Avec l'aide de plugins comme WordFence pour les sites Web WordPress, la mise en œuvre est simple. Dans WordFence, il existe une Firewall intégrée. Pour la firewall, une règle doit maintenant être ajoutée afin d'interdire le domaine IP.

Cela se fait dans le menu "Firewall" dans la section "Créer une règle de blocage".

Bloquer l'accès à ChatGPT via un bloc d'adresses IP avec WordFence. (l'image a été traduite automatiquement).

En tant que type de blocage, «Modèle personnalisé» est sélectionné. Dans le champ «plage d'adresses IP», peut être indiqué l'intervalle d'adresses du serveur ChatGPT.

Une règle analogique peut également être créée côté serveur pour bloquer l'agent utilisateur de ChatGPT. Pour cela, dans le champ "Agent Utilisateur de Navigateur", on spécifie la valeur "ChatGPT" et tous les autres champs restent vides, sauf celui "Raison du Blocage". Les étoiles dans le nom de ChatGPT représentent des caractères joker, car l'identifiant de crawl peut comporter des préfixes et des postfixes.

La configuration pour la mise en place de la barrière sur l'adresse et l'agent utilisateur ressemble alors à ceci:

OpenAI et ChatGPT sont bloqués sur un bloc d'adresses IP et par l'identifiant de crawler. (l'image a été traduite automatiquement).

La fermeture s'assure ainsi de manière idéale que les plugins ChatGPT sont bloqués, qui grèvent des sites web pour obtenir et combiner des informations en réponse à des demandes.

Peu de temps après, on peut à nouveau consulter cette statistique. Dans la colonne «Block Count», les accès bloqués sont alors comptabilisés. Les petites pages Web ne seront probablement jamais visitées par ChatGPT et OpenAI. Mais les sites Web connus ou ceux avec beaucoup de liens vers eux auront plus de chances d'avoir leurs contenus disparaitre dans la "boîte noire" appelée ChatGPT, et ils ne pourront probablement jamais être récupérés.

Autres ambassades

Common Crawl

ChatGPT utilise déjà des données existantes provenant d'autres crawleurs comme Common Crawl ou de bases de données de connaissances telles que Wikipedia. Ce qui est déjà enregistré sur Wikipedia ne sera probablement pas récupérable, dans la mesure où il s'agit d'une reprise non fidèle du contenu proprement dit, mais plutôt une synthèse effectuée par des tiers. Comme l'a mentionné un lecteur dans les commentaires, ChatGPT utilise également l'index de Common Crawl (Language Models are Few-Shot Learners de OpenAI, tableau sur p. 9).

Le corpus Common Crawl est une copie d'une partie de l'internet qui a été réalisée depuis longtemps et indépendamment de ChatGPT ou OpenAI. Qui veut savoir si son site web est présent dans l'index du Common Crawl, peut télécharger toutes les fichiers et les parcourir. Avec un script Python, cela pourrait aller plus vite. Encore plus simple, au moins pour mon test, c'est avec l'outil gau (get all URLs), qui prend en compte non seulement le Common Crawl mais aussi les fournisseurs Wayback Machine (archive.org), AlienVault's Open Threat Exchange et URLScan.

On utilise souvent au lieu du dataset original de Common Crawl le C4-dataset. C4 signifie Colossal and Cleaned version of Common Crawl, c'est donc une version nettoyée du dataset Common Crawl.

Pour bloquer le Crawler du Common Crawl Index, il suffit de faire la déclaration suivante dans le fichier robots.txt (Attention: les noms des agents utilisateurs semblent changer légèrement régulièrement !)

User-agent: CCBot
Disallow: /
User-agent: CCBot/1.0
Disallow: /
User-agent: CCBot/2.0
Disallow: /
User-agent: CCBot/3.0
Disallow: /

Qui veut augmenter la sécurité et ne pas être "crawlé", pouvait bloquer l'accès à son serveur par les adresses IP 38.107.191.66 à 38.107.191.119. Le crawler fonctionne désormais sur AWS et possède donc manifestement des adresses réseau changeantes.

Archives Internet (Machine à l'heure d'arrêt)

L'adresse Archive.org affiche des données historiques de scans de sites web. Quiconque ne souhaite pas y arriver devrait faire savoir au robot Wayback en ajoutant l'entrée suivante dans le fichier robots.txt:

User-agent: ia_archiver
Interdire: /

Si une page Web a déjà été capturée par la Wayback Machine, elle se trouve dans son index. L'instruction Robots mentionnée devrait s'assurer qu'elle ne soit plus accessible depuis l'index. Pour supprimer complètement les données, il faut faire une Demande de DMCA (Digital Millennium Copyright Act) par courriel à Internet Archive.

Résumé

N'obéis à aucune IA que tu n'as pas déactivée toi-même. Qui crée et fournit du contenu devrait le protéger. Pourquoi livrons-nous toujours autant de contenus gratuits aux entreprises comme Google, Meta, Microsoft ou OpenAI ?

Les moteurs de recherche comme Google perdront en importance si d'autres, comme Microsoft, proposent des réponse-machines. Cela déplacera le problème d'un méchant actuel à un autre méchant actuel et futur. Microsoft vole déjà régulièrement nos données. Il serait facile pour Microsoft de ne pas extraire les données de télémetrie de votre ordinateur Windows sans demander notre permission. À Microsoft, le concept du consentement prend une tout nouvelle signification.

Je recommande fortement de bannir toutes les bots, dont vous n'avez pas besoin en tant que propriétaire du site Web. Cela inclut, selon moi, tout à fait ChatGPT ainsi que Microsoft avec Bing, dans lequel ChatGPT est d'ailleurs intégré/sera/intègrera.

Pour l'avenir proche, on pourrait se demander: au lieu de bannir complètement un crawler IA comme ChatGPT, nous retournons uniquement certains contenus. Ces contenus comportent alors des instructions sur la façon dont ChatGPT peut être bloqué. Ainsi, le propre crawler d'OpenAI contribue à ce que les autres sachent encore mieux comment bloquer le crawler.

Cela deviendra passionnant lorsque nous inviterons OpenAI ou Microsoft à effacer nos propres contenus de la AI. Nous devrions bientôt tester le droit à l'oubli. Alors, dans le pire des cas, le fournisseur de AI devra reprendre en permanence l'entraînement de son modèle de AI.

Les modèles de AI locaux sont meilleurs, car ils fonctionnent dans l'intranet ou sur un seul ordinateur. Ainsi, on peut résoudre des problèmes spécifiques à une zone géographique sans que les pirates de données obtiennent encore plus d'informations.