¿Cómo se puede bloquear el índice Common Crawl?

Se puede bloquear el Common Crawl Index impidiendo que el CCBot sea rastreado en el archivo robots.txt para evitar que descargue contenido del sitio web.

¿Cómo puedo evitar que ChatGPT rastree mi sitio web?

Puede bloquear ChatGPT bloqueando el User-Agent 'ChatGPT-User' y/o el rango de direcciones IP 23.98.142.176/28. Alternativamente, puede crear una regla de firewall para bloquear el User-Agent 'ChatGPT'.

¿Qué fuentes de datos utiliza ChatGPT además de Internet?

ChatGPT se basa en conjuntos de datos como el Common Crawl Index y Wikipedia. Estos datos son creados por terceros y sirven como base para las respuestas de la IA, que son resúmenes.

¿Cómo puedo evitar que los sistemas de IA rastreen mi sitio web?

Utilice el archivo robots.txt y especifique el User-Agent 'CCBot' para bloquear el acceso de Common Crawl. Alternativamente, puede bloquear los accesos al servidor de direcciones IP específicas.

¿Qué puedo hacer si un sitio web ya está guardado en el archivo Wayback Machine del Internet Archive?

El archivo robots.txt con el User-Agent 'ia_archiver' puede impedir que la página siga siendo accesible públicamente en el índice del Wayback Archive. Se requiere una solicitud de DMCA al Internet Archive para eliminar completamente los datos.

Proteger la propiedad intelectual y evitar el rastreo de contenido propio

Q: ¿Cuáles son las principales medidas de protección contra los rastreadores de IA?

Los creadores de contenido pueden utilizar pasarelas de pago, Captchas, restricciones de acceso para usuarios registrados y el bloqueo de rangos de direcciones IP o User-Agents para proteger su contenido de los rastreadores de IA.

La revolución ya ha ocurrido y avanza a la velocidad de un cohete con motor de tachión. Para creadores de contenido como yo, existen varias formas efectivas para evitar que nuestros contenidos sean absorbidos por ChatGPT y otras inteligencias artificiales.

En resumen

Resumen:

El texto trata el tema de la Inteligencia Artificial (IA), especialmente ChatGPT de OpenAI, y la protección de datos. ChatGPT es un sistema de IA que supera el test de Turing y proporciona respuestas humanas a las preguntas. Esto suscita preocupaciones en cuanto al protección de los contenidos creados por los creadores de contenido, ya que sistemas de IA como ChatGPT pueden utilizar estos contenidos.

Se discuten diversas posibilidades para proteger contenidos propios frente a sistemas de Inteligencia Artificial.

Preguntas respondidas:

Pregunta: ¿Qué es ChatGPT y qué revolución ha desatado? Respuesta: ChatGPT es un sistema de Inteligencia Artificial de OpenAI que supera el Test de Turing y provoca cambios masivos en la sociedad.

¿Cómo pueden los creadores de contenido proteger sus contenidos frente a la Inteligencia Artificial como ChatGPT? Los creadores de contenido pueden proteger sus contenidos utilizando barreras de pago, protección contra bots, accesos de usuario dedicados y bloqueos técnicos contra crawlers.

Pregunta: ¿Qué es el Test de Turing? Respuesta 3: El Test de Turing verifica si una Inteligencia Artificial se comporta de tal manera que no puede distinguirse de un ser humano.

Pregunta: ¿Cuáles son algunos ejemplos de medidas de protección contra rastreadores de Inteligencia Artificial? Respuesta: Ejemplos de medidas de protección son cajeros automáticos, captchas, restricciones de acceso para usuarios registrados y el bloqueo de rangos de direcciones IP o agentes de usuario.

Pregunta: ¿Qué es el índice de Common Crawl y cómo se puede bloquear? Respuesta: El índice de Common Crawl es un conjunto de datos que refleja partes de Internet; se puede bloquear agregando al CCBot en el archivo robots.txt.

Las palabras clave más importantes:

Inteligencia artificial, ChatGPT, Prueba de Turing, Creador de contenido, Límite de pago, Protección contra bots, Usuarios dedicados, Bloqueo técnico, Bloqueo suave, Bloqueo duro.

Introducción

La mayor revolución de las últimas décadas provocará cambios masivos en la sociedad. Se refiere a la Inteligencia Artificial, y especialmente a ChatGPT. ChatGPT es un producto de la empresa OpenAI. A muchos les es ya conocido este sistema AI.

ChatGPT superó el Test de Turing. A lo que yo sé, es la primera inteligencia artificial en lograrlo. Al menos eso es lo que pienso. Wikipedia parece estar desactualizada en este sentido. El Test de Turing verifica si una IA se comporta de tal manera que no puede distinguirse de un ser humano. Para ello, en un espacio se coloca un examinador humano, quien a través de una ranura le hace preguntas al objeto de prueba sin ver si el examinado es humano o no. El examinado responde las preguntas.

Ya desde hace tiempo Google se asegura de que ciertas (fáciles) preguntas sean respondidas directamente en la máquina de búsqueda. Para ello, Google recupera contenidos de usted y mío. El ganador es Google, el usuario se alegra, el creador del contenido es el tonto. El que tuvo más trabajo viene peor parado. No recibe ni siquiera un agradecimiento (por ejemplo, en forma de visita a la página web, que aunque no trae mucho, es mejor que nada).

ChatGPT ha llevado el Juego de Preguntas y Respuestas a un nivel nunca visto antes. Las respuestas son en parte mejores que las que podría proporcionar una persona y a menudo al menos tan buenas como las de alguien inteligente. Es incorrecto, por cierto, que ChatGPT se base principalmente en un modelo estocástico. Este puede ser también parte de él. El razonamiento lógico , en cualquier caso, tiene poco que ver con la estadística. En absoluto más que este principio está arraigado en nuestro propio cerebro.

Ejemplo:

Pregúntale:
Verifica la siguiente afirmación de plausibilidad: Sven es un mejor artesano que Mareike. Mareike es un mejor artesano que Sven.
ChatGPT:
La afirmación no es plausible porque contiene una contradicción. No es posible que Sven sea mejor que Mareike y al mismo tiempo que Mareike sea mejor que Sven. Esta afirmación es lógicamente inconsistente y por lo tanto imposible.
Evaluación:
Respuesta casi perfecta (que también habría dado yo; pero mi amiga era más astuta).
Pregúntale:
No puede ser que haya dos personas llamadas Mareike
ChatGPT:
Sí, es es teóricamente posible que haya dos personas con el nombre de Mareike, una de las cuales sea mejor en la artesanía que Sven, mientras que la otra es peor que Sven. En este caso, la afirmación sería plausible y no contradictoria.
Sin embargo, en este caso sería útil formular la afirmación de manera más clara para evitar malentendidos. Por ejemplo, se podría decir: "Mareike A es un mejor artesano que Sven, mientras que Mareike B es peor que Sven."
Evaluación:
Según mi opinión (espontánea), esta es una respuesta perfecta a la que no se le puede agregar nada más.

He tenido un diálogo más extenso con una versión peor de ChatGPT que la actual en un artículo anterior, donde también mencioné programas como DEEPL. Con ayuda de programas como DALL-E o Midjourney se pueden seguir creando imágenes innovadoras y personalizadas de calidad nunca antes vista. Sobre esta inteligencia artificial visual había informado también. La imagen que hay arriba en este artículo fue creada así.

Proteger contenidos propios

Hace unos meses alguien de Alemania describió que había tomado medidas para proteger sus contenidos en su página web contra ser absorbidos por una IA.

Veo básicamente las siguientes posibilidades para proteger mis contenidos contra AI's como ChatGPT. ¿Qué me beneficia si no hago nada y otros utilizan mi trabajo?

Wird demnächst die Erde von einer Künstlichen Intelligenz beherrscht werden? Dieses Bild stammt von einer KI.

Las posibilidades de protección contra los crawlers son especialmente:

Límite de pago: También llegará a los contenidos más valiosos de sitios web menores; Las grandes páginas de noticias ya utilizan este modelo.
Protección contra bots: Por ejemplo, se pueden mencionar Captchas. Sobre esto no entraré (todavía) a fondo, ya que es muy técnicamente exigente y nosotros Google reCAPTCHA (en la versión invisible) consideramos como un herramienta muy hostil para los datos y no queremos utilizarla. Además, tal protección no es completamente efectiva.
Usuarios registrados vsinvitados: Solo los usuarios registrados pueden leer todos los contenidos.
Bloqueo técnico contra Crawler.
- Bloqueo suave: Por favor, por favor, querida ChatGPT, no bloquee mi sitio web.
- Bloqueo de Harte: El portero, ChatGPT y el servidor de OpenAI bloquean con fuerza.

No emitiré recomendación sobre el límite de pago en este momento. Los contenidos que eran gratuitos deberían seguir siendo así para el lector humano por ahora. Además, surgen problemas legales al realizar procesos de compra (Términos y Condiciones, solución de botones, derecho de retractación, etc.) que deben resolverse.

Un login para usuarios que pueden leer todos los contenidos es un buen protección contra bots. Al menos, un bot tendría que obtener una cuenta gratuita (o de cualquier otra forma diseñada) para poder leer los contenidos. Esto es posible, pero lo hará asegurar que grandes crawlers se mantengan fuera. ¿Cuál empresa de crawler puede o quiere mantener cuentas en todas las posibles páginas web? Todo esto puede entonces combinarse con un protección contra bots.

El cerebro humano es también "solo" un automático, aunque un (considerado relativamente) aún muy eficiente.
ChatGPT hace muchas cosas de manera cualitativamente similar a la del hombre. Algunos piensan que es diferente porque no reconocen que el hombre no tiene alma, sino solo una simulación de lo que algunos llaman alma.

Una sobre técnica puede ser fácilmente y eficazmente construida. A continuación, describo las medidas necesarias.

Bloqueo suave

El Crawler de ChatGPT puede ser instruido a ignorar la página web mediante una instrucción en el archivo robots.txt. La siguiente instrucción garantiza eso:

User-agent: ChatGPT-User
Disallow: /
User-agent: GPTBot
Disallow: /

La cuestión de confiar en el crawler de inteligencia artificial es algo que depende de la confianza. ¿Quién querría confiar en una inteligencia artificial si ya no se puede confiar en sus propios ojos? Sólo por el hecho de que OpenAI utiliza varios agentes de usuario que no están descritos de manera transparente en una sola página, queda claro el problema para el futuro:

Bloquear plugins de ChatGPT ([1])
Bloquear el web crawler de OpenAI ([1])

Cierre de caza

Otra posibilidad es bloquear el acceso a los servidores mediante sus direcciones de red. Para ello se debe declarar un rango de direcciones para el que se desee impedir técnicamente el acceso a la página web.

El área de direcciones es según información de OpenAI la siguiente: `23.98.142.176/28

La barrera técnica debe implementarse en el propio servidor web desde la perspectiva del servidor. Con la ayuda de plugins como WordFence para sitios web de WordPress, la implementación es sencilla. En WordFence hay una Firewall integrada. Ahora se debe agregar una regla a la Firewall para bloquear un rango de direcciones IP.

Se encuentra en el menú "Firewall" en la sección "Crear una regla de bloqueo".

ChatGPT Zugriff über IP-Adressbereich mit WordFence blockieren.

Se selecciona "Patrón personalizado" como tipo de bloqueo. En el campo "Rango de direcciones IP", se puede especificar el rango de direcciones del servidor ChatGPT.

Se puede crear una regla del lado del servidor para bloquear el User-Agent de ChatGPT. Para ello, en el campo "User Agent del navegador" se escribe "*ChatGPT*" y todos los demás campos, excepto "Razón de bloqueo", quedan vacíos. Las estrellas en el nombre de ChatGPT representan caracteres jokers, ya que la identificación del crawler puede tener prefijos y sufijos.

La configuración para la bloqueo sobre el rango de direcciones y el agente del usuario es entonces:

OpenAI und ChatGPT werden über einen IP-Adressbereich und über die Crawler-Kennung ausgesperrt.

La restricción se encarga idealmente de que ChatGPT Plugins sean bloqueados, que leen sitios web para obtener y combinar información para las solicitudes.

Algunas semanas después se puede volver a ver esta estadística. En la columna "Block Count" se enumeran los accesos bloqueados. Es probable que las páginas web más pequeñas sean visitadas muy raramente o nunca por ChatGPT y OpenAI. Las páginas web conocidas o aquellas con muchos enlaces de retorno serán más propensas a disfrutar del beneficio de que sus contenidos desaparezcan en la caja negra llamada ChatGPT y probablemente no puedan recuperarse nunca más.

Otros mensajeros

Common Crawl

ChatGPT utiliza ya existentes conjuntos de datos de otros crawlers como Common Crawl o bases de conocimiento como Wikipedia. Lo que ya está registrado en Wikipedia, es probablemente no se pueda recuperar, sobre todo porque no es una reproducción literal del contenido propio, sino una resumen hecho por terceros. Como un lector comentó correctamente, ChatGPT también utiliza el índice de Common Crawl (Language Models are Few-Shot Learners de OpenAI, tabla en la pág. 9).

El conjunto de datos Common Crawl es una copia parcial del Internet que se ha estado realizando durante mucho tiempo y de manera independiente de ChatGPT o OpenAI. Quien quiera saber si su página web está en el índice de Common Crawl, puede descargar todas las archivos allí y buscarlas. Con un script de Python puede ser más fácil. Mucho más fácil, al menos en mi caso, es con la herramienta gau (obtener todas las URL), que además de Common Crawl considera a los proveedores Wayback Machine (archive.org), AlienVault's Open Threat Exchange y URLScan.

A menudo se utiliza en su lugar el conjunto de datos C4 del Common Crawl original. C4 significa versión colosal y limpia del Common Crawl, es decir, un conjunto de datos Common Crawl limpiado.

Para bloquear el Crawler del Índice de Common Crawl, se necesita la siguiente declaración en el archivo robots.txt (Atención: Los nombres de los Agentes-Usuario parecen cambiar ligeramente con regularidad!)

User-agent: CCBot
Disallow: /
User-agent: CCBot/1.0
Disallow: /
User-agent: CCBot/2.0
Disallow: /
User-agent: CCBot/3.0
Disallow: /

Quien quiera aumentar la seguridad y no ser rastreado, podría bloquear el acceso a su servidor mediante las direcciones IP 38.107.191.66 hasta 38.107.191.119. Ahora el rastreador funciona en AWS y parece tener direcciones de red cambiantes.

Internet Archive (Wayback machine)

La dirección Archive.org muestra datos históricos de escaneos de sitios web. Quien no quiera llegar aquí, debería comunicarlo al robot Wayback mediante la siguiente entrada en el archivo robots.txt:

User-agent: ia\_archiver
Disallow: /

Si una página web ha sido ya recuperada por la Wayback Machine, entonces se encuentra en su índice. La instrucción de Robots mencionada debería asegurarse de que no sea más accesible públicamente desde el índice. Para borrar los datos completamente, es necesario presentar una solicitud DMCA por correo electrónico al Archivo Internet.

Conclusión

No confíes en ninguna IA que no hayas desactivado tú mismo. Quien crea y proporcione contenido propio debe protegerlo. ¿Por qué siempre entregamos tantos contenidos gratuitamente a corporaciones como Google, Meta, Microsoft o OpenAI?

Las buscadores como los de Google perderán importancia si otros como Microsoft proporcionan respuestas automáticas. De esta manera, el problema se desplaza de un malvado actual a otro malvado actual y futuro. Microsoft ya está robando constantemente nuestros datos. Sería fácil para Microsoft que no extraiga los datos de telemetría de su ordenador con Windows, sino que les pida permiso. En Microsoft, el concepto del requisito de autorización adquiere una nueva significación.

Recomiendo que se bloqueen todas las bots a las que no dependen en su función como administrador del sitio web. Entre ellas, desde mi punto de vista, seguro que hay que incluir ChatGPT y Microsoft con Bing, ya que ChatGPT está integrado en Bing.

Para el futuro cercano podría pensarse en lo siguiente: En lugar de bloquear completamente un rastreador de IA como ChatGPT, solo se devuelven ciertos contenidos. Estos contenidos contienen instrucciones sobre cómo bloquear a ChatGPT. De esta manera, el propio rastreador de OpenAI contribuye a que otros conozcan aún mejor cómo bloquearlo.

Será emocionante cuando invitemos a OpenAI o Microsoft a que eliminen nuestros propios contenidos de la inteligencia artificial. El derecho al olvido deberíamos ponerlo a prueba pronto. Entonces, en el peor de los casos para el proveedor de AI, tendrá que reentrenar su modelo de AI constantemente.

Modelos de Inteligencia Artificial locales, que funcionan en el intranet o en un solo ordenador, son mejores. De esta manera se pueden resolver problemas específicos de dominio sin que los ladrones de datos obtengan más datos.

Mensajes clave

La inteligencia artificial, especialmente ChatGPT, puede usar contenido creado por personas. Los creadores de contenido necesitan proteger su trabajo usando medidas como pagos, protección contra bots y bloqueos técnicos.

La inteligencia artificial como ChatGPT puede usar contenido de internet sin permiso ni agradecimiento, lo que plantea problemas para los creadores de contenido.

Para proteger los sitios web de los bots de inteligencia artificial como ChatGPT, se pueden usar diferentes métodos, como bloquearlos en el archivo robots.txt o restringir el acceso a través de las direcciones IP.

Puedes bloquear ChatGPT de acceder a tu sitio web usando plugins como WordFence, especificando un rango de direcciones IP y el User-Agent de ChatGPT.

Es importante proteger tu contenido online y controlar quién puede acceder a él. Bloquea los rastreadores de IA que no necesitas y considera modelos de IA locales para mayor seguridad.

Acerca de