Sichere KI, digitaler Datenschutz & Website-Compliance

Los autores de obras accesibles en línea tienen según la ley la posibilidad de declarar un derecho de uso previo. De esta manera, se pretende proteger las obras contra que entren en los cerebros electrónicos. ¿Funciona este enfoque? En el artículo se mencionan las posibilidades y limitaciones.

Introducción

La inteligencia artificial ha desarrollado enormes habilidades que a menudo superan en gran medida la capacidad intelectual promedio del ser humano. El Test de Turing se considera como completado con éxito. Este test verifica si un ordenador es tan inteligente como un ser humano. Sí, lo es ya. Como muestra ChatGPT, una IA incluso puede superar a los humanos en áreas específicas, al menos si se considera la media de todas las personas. La IA no conoce la fatiga y puede aprovechar siempre mejoras en hardware, muy diferente a la capacidad limitada del cerebro humano. Los únicos beneficios del ser humano son, según mi opinión, la sensoria y la capacidad de recorrer y percibir el entorno. Esto cambiará enormemente a favor de los sistemas artificiales pronto.

Los modelos AI pueden absorber en línea textos y imágenes de autores casi a voluntad, y lo hacen legalmente legitimados. La ley da a los autores el derecho a un derecho de uso, que no existe en realidad. Los motivos son de naturaleza puramente organizativa y técnica.

Estas asombrosas habilidades de la Inteligencia Artificial a la vez nos asustan. Los creadores se preocupan de que sus obras ahora sean absorbidas y desmembradas por un cerebro electrónico. Google ya lo ha hecho, solo es que no había tantos que se hubieran alarmado: alguien introduce una palabra clave en la máquina de búsqueda. En lugar de que su página web correspondiente aparezca y puedan capturar al usuario para sus legítimos fines, la respuesta es devuelta como extracto del contenido en la máquina de búsqueda. El usuario ni siquiera llega a su página web, sino que se le desvía antes. Son el proveedor de contenido y el tonto. Google está contento. Al usuario no le importa.

De ahí surgió la solicitud de una obligación de consentimiento de muchos autores de obras disponibles en línea. El autor debe permitir que una inteligencia artificial utilice sus obras. Otros solo solicitan lo que también está establecido en la ley, es decir, la posibilidad de elegir. Esta es en § 44b Abs. 3 UrhG y se formula allí como sigue:

Las utilizaciones según el apartado 2, primer párrafo [Reproducciones de obras legítimamente accesibles para el texto y data mining] sólo son admisibles si el titular de los derechos no se ha reservado esta posibilidad. Un derecho de reserva de uso en obras online es solo efectivo cuando se realiza de forma legible por máquinas.
Artículo 44b, apartado 3 de la Ley de Derechos de Autor (UrhG)

Las reproducciones de obras originales para fines de Inteligencia Artificial deben borrarse tan pronto como ya no sean necesarias. No es un problema, porque si se lee un texto con cuidado, entonces sin el original también se sabe lo que decía el texto. Lo mismo hace una IA.

La reserva de uso desde el punto de vista técnico

Trabajos en línea accesibles gratuitamente son por ejemplo sitios web, archivos PDF vinculados, imágenes, archivos de audio, archivos de texto sin procesar o libros electrónicos gratuitos. Los autores de tales obras no tienen derecho a la autorización (pregunta de consentimiento) según el § 44b del URG, sino solo una opción de exclusión. Si el autor no da señal para opt-out, entonces su texto puede ser leído y utilizado para minería de textos y datos según la norma legal mencionada. Bajo estos procesos de arrastre entiendo también aplicaciones de Inteligencia Artificial. Con esta opinión estoy seguro que no estoy solo.

Por cierto, el término Darse de baja no es sinónimo de reserva de uso. Porque un Opt-Out actúa también en el pasado, mientras que una reserva de uso solo actúa en el futuro. Si la reserva de uso se da después de un proceso de lectura por parte de un rastreador, entonces no tiene efecto con respecto a ese proceso de lectura.

¿Cómo se ve una opción de deselección técnicamente?

Para motores de búsqueda y otros crawlers existe esta posibilidad ya desde hace tiempo. Se da a través del archivo robots.txt. Este archivo sigue una convención generalmente establecida, ampliamente difundida y conocida en general. Cada motor de búsqueda que pretende ser legal respetará este archivo.

La archivo robots.txt de una página web está disponible bajo la ruta principal, por ejemplo, en dr-dsgvo.de/robots.txt. Para mi blog se ve así:

# robots.txt
User-agent: ia_archiver
Disallow: /
User-agent: archive.org_bot
Disallow: /
User-agent: slurp
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: CCBot
Disallow: /

Nota de Rand: Además, uso un bot protección dinámico que también bloquea algunas motores de búsqueda.

En mi archivo robots.txt está declarado que el Internet Archive no debe leer mi web. Esto se marca con el User-Agent llamado ia_archiver y la directiva Disallow (Prohibir). De manera similar, prohíbo a ChatGPT el recorrido, como se puede inferir del User-Agent hablante llamado ChatGPT-User.

El nombre del agente de usuario para qué motor de búsqueda, qué rastreador y qué plataforma de inteligencia artificial utilizar es desconocido ad hoc. Las grandes plataformas publican el o los nombres de sus rastreadores (agentes de usuario). Un rastreador es un programa que recopila contenido accesible en línea.

El principio completo de la archivo robots.txt se basa en convenciones. El procedimiento técnico es extremadamente simple. Si no hay esta convención, entonces no hay este procedimiento.

El derecho de uso de obras accesibles en línea frente a una IA es prácticamente imposible para los autores. La razón es la falta de convención técnica. Ya entrenados modelos de IA no consideran por supuesto ninguna reserva que se haya emitido después del entrenamiento.
Se refiere a la sección 44b, apartado 3 del Derecho de Autor (UrhG).

Supongamos que deseas bloquear una nueva plataforma de inteligencia artificial, que se hizo pública ayer en la prensa. ¿Cómo lo haces? En primer lugar, hasta ayer no sabías nada sobre esta plataforma, por lo que no podías buscar el agente del usuario de la plataforma que deseas bloquear a partir de hoy. Por otra parte, un Roland o una Susi podrían construir su propio modelo de inteligencia artificial y para ello podrían utilizar un propio rastreador para extraer contenido del internet.

Deberían encontrar los nombres técnicos para todas las plataformas de IA, incluyendo la mía, las plataformas de todos los Rolands del 1 al 5000, las plataformas de IA de todas las Susis del 1 al 13847, los experimentos de Elon, los de su vecino, y las de todas las empresas de IA de EE. UU., etc.

Las plataformas AI pueden ser actualmente evitadas solo individualmente y desde que se conoce la existencia de las plataformas, a partir de contenido en línea disponible.
Hecho técnico.

Obviamente este empeño está condenado al fracaso. Primero, no conocen todas las plataformas de Inteligencia Artificial. Segundo, ni siquiera quieren conocer todas las plataformas de IA, porque entonces tendrían que investigar día y noche o conectarse a un servicio posiblemente de pago o negativo para su visibilidad, que investiga día y noche. Pues bien, no quieren cerrar todas las buscadores, sino solo las malditas plataformas de IA y tal vez también los malditos buscadores.

Alguna vez tendrán un archivo de bloqueo que podría verse así. Al final de las líneas he incluido valores de fecha ficticios como comentario, a los que podrían corresponder el registro del bloqueo de un determinado crawler de IA.

User-agent: ChatGPT-User added on 17.04.2023
Disallow: /
User-agent: Susi-1-KI-Crawler #added on 21.05.2023
Disallow: /
User-agent: Roland-17-KI-Bot #added on 23.06.2023
Disallow: /
User-agent: Nachbar-KI-0815 #added on 15.07.2023
Disallow: /

Es también es posible definir entradas genéricas utilizando símbolos de joker. Con esto se pueden bloquear posiblemente demasiados crawlers. También puede ser que algunos crawlers aún no hayan comenzado.

El problema se vuelve aún más grande, y en al menos dos sentidos.

La potencia de mercado de Google y Meta

Intenté descubrir el 31 de julio de 2023 los nombres técnicos de los rastreadores de inteligencia artificial de Google y Meta para poder bloquearlos. El modelo de lenguaje Google Bard es igualmente conocido como Meta LLAMA 2, un modelo de lenguaje famoso. No quiero que mis contenidos aparezcan allí sin que yo reciba dinero por ello. Después de todo, Google y Meta se benefician con mis y sus datos una nariz dorada. Por lo tanto, no hay contenido mío gratuito para sus KI.

Google explica en sus avisos de protección de datos, que serán aplicables a partir del 01 de julio de 2023, lo siguiente:

Por ejemplo, recopilamos datos que están disponibles en línea o en otras fuentes públicas para entrenar los modelos de Inteligencia Artificial (IA) de Google y seguir desarrollando productos y funciones como el Traductor de Google, Bard y Cloud AI. Si las informaciones de su empresa aparecen en un sitio web, podemos indexarlas e incluirlos en los servicios de Google.
Fuente: S. 32 de las indicaciones de privacidad de Google mencionadas anteriormente.

Es es casi una certeza que Google utiliza su crawler de motores de búsqueda también para utilizar los contenidos leídos para entrenar la inteligencia artificial de Google. Google no tiene interés en darte y a mí la oportunidad de contradecir esto. Como prueba de ello, te muestro aquí una pregunta del foro de soporte de Google del 29 de marzo de 2023:

Quelle: https://support.google.com/webmasters/thread/208449168/ist-ein-user-agent-f%C3%BCr-bard-bekannt?hl=de

Una respuesta a esta importante pregunta tampoco existe cuatro meses después de haber sido formulada. Además, Google ha bloqueado la pregunta, por lo que ya no es posible responderla. Incluso si alguien descubriera cómo desbloquear al bot de inteligencia artificial de Google, esa información de interés general no aparecería como respuesta en el foro de soporte de Google.

En Meta (Facebook, Instagram, WhatsApp) parece ser lo mismo. No pude encontrar el nombre técnico de un Crawler de Meta que se utilice para entrenar a la Inteligencia Artificial.

Les queda así una única posibilidad (en Google): o bien bloquean el bot de Google en su totalidad y ya no aparecen o apenas más en los resultados de búsqueda de Google, o permiten que Google utilice sus contenidos y obras disponibles en línea para cualquier propósito que se reserve a sí mismo.

Para el caso de que alguien quiera bloquear a Google en su página web, aquí está la instrucción para la archivo robots.txt:

User-agent: Googlebot
Disallow: /

Si se proporciona un camino más profundo como valor para el parámetro Disallow, la prohibición solo afectará al área específica de su sitio web que se indica. Por lo tanto, hay pocas posibilidades de contrarrestar la codicia de datos de Google. De hecho, me parece admirable que además de proporcionar a Google más datos sobre sus usuarios a través de su sitio web, hagan que Google sea aún más poderoso. Trabajan duro para hacer que Google sea aún más poderoso y lo hacen sin recompensa ni base legal en la mayoría de los casos. Al menos están haciendo el trabajo de integrar plugins como Google Fonts, Google Maps o Google Analytics en lugar de fuentes locales, una carta amigable con el privacidad o Matomo.

Google argumenta, a mi entender, de la siguiente manera:

Privacidad: “Nosotros, Google, no procesamos absolutamente ninguna información personal.” Parece que a Google le importa poco lo que es el tratamiento de datos y explica al administrador de etiquetas de Google por lo tanto como incapacitado para trabajar.
AI:
- Caída a: Sus datos personales aparecen en la respuesta de IA de Google Bard. Google dirá: "Pero usted ha proporcionado estas informaciones públicamente. Solo mostramos lo que su sitio web muestra a cualquier persona que acceda a su página"."
- La respuesta de Google Bard a las preguntas de los usuarios se reflejará en sus propias palabras y no como un citado relevante de Google. Google probablemente dirá: "Nuestras inversiones no son infracciones de derechos de autor, porque no reproducimos sus contenidos con fidelidad relevante, sino que los expresamos en otras palabras"

Los autores de textos en línea suelen no enterarse del caso 2 b). El caso 2 a) tiene un contenido que es bastante cuestionable, como explicaré más abajo.

Vayamos al siguiente problema para los autores que no desean utilizar sus obras en una inteligencia artificial.

Bloquear actúa en el futuro

ChatGPT-4 se basa en un conjunto de datos del septiembre de 2021. Yo mismo no sabía nada sobre ChatGPT en el año 2022 y solo había oído hablar de él brevemente. Por lo tanto, sería imposible para la mayoría definir una restricción para sus propias obras que impida a ChatGPT utilizarlas.

Todos los contenidos que se han leído antes de aplicar una restricción a ChatGPT o otros modelos de inteligencia artificial están disponibles en la memoria electrónica. Ni siquiera las restricciones posteriores del autor pueden cambiar esto. Sus obras ya han sido absorbidas. Solo nuevas obras o actualizaciones esperamos que no sean explotadas por una tercera IA.

Los datos de modelos de IA son apenas eliminables

Las reservas de uso por parte de los autores no pueden ser consideradas tan fácil y rápidamente como en motores de búsqueda tradicionales, y tal vez ni siquiera puede hacerse retroactivamente.

En grandes motores de búsqueda, puede llevar varios días o semanas hasta que se realice una solicitud de eliminación. Puedo hablar aquí de experiencia. Una ciudad alemana tuvo un problema con los datos y me pidió que ayudara a eliminar los datos personales de los grandes motores de búsqueda. Los últimos resultados no deseados desaparecieron después de varias semanas.

Hasta mi conocimiento, nadie está obligado a reentrenar un modelo de Inteligencia Artificial después del entrenamiento inicial. Sin embargo, sin reentrenamiento, todas las datos que se han leído para el modelo permanecen en él. Aunque no se almacenan los datos en su forma original, sino que se almacena su estructura o esencia. En realidad, no se puede decir con más precisión. Me refiero al cerebro humano y su almacenamiento de información en forma gelatinosa.

Modelos AI como cerebros electrónicos no pueden olvidar.
Mi conocimiento actual. Por favor, informenme si estoy equivocado.

Un modelo de IA que permanece igual no elimina datos, que afectan obras en línea de autores. Tampoco se eliminan otros datos de modelos de IA. Incluso los modelos de IA que se reentrenan a menudo presentan este problema. En ChatGPT, la versión 3.5 es actualmente utilizable en Alemania. No aprovecha mucho un derecho de uso de un autor si esta restricción de contenido solo afecta a ChatGPT-4 y no a la versión 3.5.

Aunque cada modelo de inteligencia artificial más grande y potencialmente poderoso fuera reentrenado desde cero una y otra vez, la demora sería inmensa. Bloomberg-GPT es un modelo de IA para datos financieros. Para ello se utilizarían varias millones de horas de procesamiento computacional caro, utilizando muchas tarjetas gráficas de alta velocidad para los cálculos. No puede suponerse que Bloomberg-GPT aparezca cada mes en una nueva versión. Más bien, períodos anuales deben ser considerados.

Para que desaparezcan informaciónes no deseadas de un modelo de Inteligencia Artificial, habría que grounding (tierra) el mismo. Este procedimiento es inseguro y más adecuado para eliminar falsedades, reemplazándolas con información correcta. Los modelos de IA no tienen la La capacidad del olvido (capacidad del olvido), según mi conocimiento. Tampoco los humanos podemos realmente olvidar bien. A menudo basta un punto de anclaje o una palabra estímulo para revivir una memoria creída olvidada. Es posible que no nos acordemos de todo debido a que nuestra hardware en la cabeza no está configurado para persistencia. En cambio, los cerebros electrónicos son diferentes. Mientras haya suficiente energía eléctrica o respaldos, las informaciónes almacenadas en el cerebro son indelebles.

Búsqueda en Internet versus Motor de búsqueda

Una Inteligencia Artificial no es una búsqueda, cuando se considera la fase funcional. Sí, con un modelo de lenguaje también pueden extraerse hechos. Estos hechos son obsoletos debido a la larga duración del entrenamiento y las distancias entre los intervalos de entrenamiento. Los hechos actuales, en cualquier caso, no se encuentran en modelos de AI.

Para una búsqueda exacta, como las motores de búsqueda clásicos la dominan excelentemente, un sistema de Inteligencia Artificial no está diseñado para ello por naturaleza. Más bien, un sistema de IA se asemeja a una búsqueda semántica, estructural o difusa.

Técnicamente, se habla de una máquina de búsqueda de vectores en un sistema de Inteligencia Artificial.

Desde el punto de vista del protección de datos, no importa cómo esté configurado un sistema. Las personas tienen derecho a ser excluidas de los resultados de búsqueda (sentencia del TJUE del 24.09.2019, asunto C-507/17). Por lo tanto, Google debe asegurarse de que los datos personales desaparezcan de los resultados de búsqueda a petición del titular de los datos. Las respuestas de una IA a una solicitud de búsqueda también son datos personales.

En la búsqueda de Bing, por ejemplo, se pueden formular palabras de búsqueda normales junto con preguntas complejas desde hace poco tiempo. Bing responde a esta pregunta utilizando su inteligencia artificial. Sólo aquí se puede ver que para un deseo de enumeración de una persona no puede hacer diferencia si el sistema afectado es una búsqueda clásica como DuckDuckGo, una búsqueda apoyada por IA como Bing o un chatbot como ChatGPT.

Además, se debe destacar que Bing a menudo da respuestas falsas. Esto tiene menos que ver con alucinaciones, sino más bien con verdades alternativas que lamentablemente a menudo se consideran como la verdad. Según Bing, los cookies son archivos de texto.

Anfrage an Bing vom 31.07.2023. Mein Beitrag behauptet das Gegenteil, wird aber als Quelle genannt.

Se remite como prueba de la respuesta de Bing también a mi contribución. Yo demuestro en este artículo exactamente lo contrario. Con un sistema de inteligencia artificial amigable con los datos, que pueden ser utilizados por empresas mismas y sin Microsoft, Google o ChatGPT, esto no habría pasado. La KI de Bing es así peligrosa y ni siquiera lo indica. En su lugar se sugiere otro término de búsqueda: „¿Son los cookies peligrosos?“.

Información eliminable en motores de búsqueda de Inteligencia Artificial

Una inteligencia artificial no es una búsqueda, pero se utiliza en parte como tal, como muestra Bing. Este procedimiento surgió debido a la falta de recursos (hardware, tiempo de cálculo) y es el siguiente:

Una inteligencia artificial busca el conjunto completo de documentos, llamado índice de búsqueda. Esto es análogo a una máquina de búsqueda que, sin embargo, busca exactamente o más precisamente que una inteligencia artificial.
Los documentos más adecuados para la cuestión en cuestión son seleccionados.
La inteligencia artificial solo recibe la pregunta frente a los documentos seleccionados.
La inteligencia artificial responde con el conocimiento de los documentos seleccionados y utiliza sus habilidades lingüísticas.

Consequently, documentos pueden ser eliminados del índice de búsqueda de una búsqueda de inteligencia artificial de manera análoga a como se haría con una búsqueda convencional en una máquina de búsqueda. Sin embargo, tales máquinas de búsqueda de inteligencia artificial, como las que llamaré aquí, son bastante inconfiables, como muestra Bing. Por lo tanto, Bing no es realmente útil y mucho menos para documentos del propio negocio.

Las alucinaciones de una inteligencia artificial, como las que se pueden observar en la búsqueda de Bing impulsada por IA, pueden evitarse en sistemas de IA propios del negocio.
Por favor, hágamelo saber si le interesa.

Lo que falta en Bing es un aterrizaje efectivo. Bing no puede hacerlo porque los recursos para ello son todavía escasos en Microsoft. Eso al menos es mi suposición conociendo los detalles técnicos de modelos de Inteligencia Artificial y sus requisitos de hardware.

Más barato es con sistemas de inteligencia artificial propios de la empresa, sobre los que habrá un artículo propio en Dr. RGPD en breve. Estos sistemas pueden aplicar el Grounding y así combinar dos ventajas:

El conocimiento actual está disponible.
Las respuestas a las preguntas que se le hagan a este conocimiento son muy precisas.

Las alucinaciones pueden evitarse en sistemas de Inteligencia Artificial locales que no tienen nada que ver con Microsoft, Google, Meta o ChatGPT, por lo tanto solo en sistemas locales. ¿Habéis pensado alguna vez en un sistema así para vuestra empresa? No cuesta una fortuna.

Derechos de autor en texto, imágenes y otros medios

Lo que se aplica a los textos accesibles en línea también es aplicable a las imágenes accesibles en línea. Aquí el dilema puede ser aún mayor, ya que una imagen generada por inteligencia artificial a menudo no se puede distinguir de una imagen real según mis pruebas. Por lo menos varios o incluso muchos imágenes se combinan en los generadores de imágenes como Midjourney o DALL-E. El LAION-5B conjunto de datos, que muy a menudo se utiliza con procedimientos de difusión estable para imágenes, permite una búsqueda de similitud para imágenes.

Seguí los siguientes pasos con el conjunto de datos LAION para ver si las imágenes generadas por la inteligencia artificial eran similares al material original disponible en línea:

Generación de una imagen mediante un generador de imágenes de IA.
Se buscaron imágenes similares para esta imagen en el conjunto de datos LAION, que abarca casi seis mil millones de imágenes.
La semejanza del imagen generada con imágenes del conjunto de datos era tan baja cada vez que, como ser humano, no puedo reconocer una infracción de derechos de autor ni siquiera después de una revisión muy estricta.

Mis pruebas no fueron exhaustivas, sino solo puntuales. Por lo menos ya he generado miles de imágenes de IA con un sistema local de IA.

Los generadores de imágenes AI producen muy a menudo imágenes que son completamente diferentes de las imágenes originales (datos de entrenamiento). Por lo tanto, el derecho de autor ya no aplica aquí.
Para el entrenamiento, por el contrario, deben cumplirse las condiciones muy favorables para los modelos de IA del UrhG.

También en los textos veo regularmente que una representación por el modelo de IA de mi elección tiene lugar de manera que es notablemente diferente al original. Por lo tanto, me parece que la pregunta sobre la obra original aquí no es pertinente. Esto no siempre debe ser tan claro como los juicios a poemas demuestran. Si bien un negocio utiliza un modelo de IA, puede enfrentar esta problemática varias veces.

En primer lugar, los sistemas de inteligencia artificial autárquicos pueden equiparse con datos de entrenamiento elegidos libremente. En segundo lugar, la salida puede ser no pública, por ejemplo, en el red de la empresa. El jurista sabe mejor que yo en qué medida esto desactiva el derecho de autor. Lo que está claro es: "Lo que yo [como creador] no sé, no me pone caliente". El riesgo de uso no público de los datos es significativamente menor que mostrar los resultados. En tercer lugar, los sistemas de inteligencia artificial propiedad de la empresa pueden equiparse con mecanismos de alteración de cualquier tipo. Lo mejor es la rentabilidad. Lo que costaba un patrimonio en el pasado ahora es asequible. Su empresa no necesita ChatGPT (y si lo hace, me gustaría saber para qué. Como buscadora al menos).

Conclusión

Informaciones que una vez han llegado a un modelo de Inteligencia Artificial no se pueden eliminar fácilmente de este cerebro electrónico. Aún más difícil parece impedir que nuestros propios trabajos en línea terminen en modelos de IA.

Así que los contenidos propios están condenados a ser absorbidos por grandes plataformas de inteligencia artificial. La contradicción contra la absorción es posible en forma de una lista de exclusión, pero puede no afectar todas las formas de obras. Los datos personales están más protegidos que los textos cuya essenz es asimilada por la IA de terceros y se le quita así el control al autor del texto original.

Google trabaja de manera particularmente perfidia y utiliza todos los contenidos leídos para todos los fines permitidos. A esto se refieren tanto la búsqueda como la inteligencia artificial llamada Google Bard, así como todo lo que Google se imagine. De manera similar parece ser el caso con Meta.

El texto que no se escribe principalmente como artículo de conocimiento puede escapar a los modelos de IA. Porque lo importante está allí a menudo entre las líneas.

Los autores de obras disponibles en línea no tendrán la posibilidad a medio plazo de impedir que una inteligencia artificial utilice sus obras.
Ver el artículo.

El derecho de autor de uso en cuanto a las obras de los autores que están disponibles en línea es prácticamente no regulado y por lo tanto en la práctica es poco posible. Sólo para sistemas mundialmente conocidos como ChatGPT puede este derecho de autor ser realizado de alguna manera.

Sin embargo, las informaciones de modelos de inteligencia artificial no pueden eliminarse a corto plazo. Por el contrario, un modelo de inteligencia artificial debe ser reentrenado desde cero, lo que es muy laborioso y por eso solo sucede raramente. Mientras tanto, al menos los propios trabajos están disponibles en una inteligencia artificial ajena sin que el creador tenga nada que ver con ello.

No se puede descartar la posibilidad de que haya enfoques matemáticos para eliminar específicamente algunos datos de un modelo de Inteligencia Artificial. De eso, al menos, no he oído nada y tampoco encontré algo sólido sobre el tema. Creo que es difícil y creo más bien que no habrá tal mecanismo en una forma práctica en los próximos 12 meses.

Mientras no se resuelva la tarea técnica simple del uso condicional de manera análoga a los buscadores, todos los creadores de contenido están peor que lo que les gustaría.

Se cree que se establecerán regulaciones legales a nivel de la Unión Europea para proteger mejor los datos de los autores contra un robo por parte de rastreadores de inteligencia artificial. Pero ya es demasiado tarde para eso y mucho más cuando estas regulaciones legales comiencen a aplicarse. Los tontos son nuevamente las pequeñas empresas. Google y otras corporaciones siguen utilizando simplemente el tesoro de datos del Internet (a menos que no deseen aparecer en la búsqueda de Google). Quienes operan grandes rastreadores pueden buscar contenido durante mucho tiempo, cuya utilización no está prohibida.

La técnica supera al derecho porque la técnica ocurre a la velocidad de la luz y el derecho a un ritmo de tortuga.

Actualmente está pendiente una demanda contra LAION. Un fotógrafo quiere borrar sus fotos del conjunto de datos de LAION después de que se hayan tomado. En general, estas fotos ya no están almacenadas en LAION (hay indicios de que esto es así, aunque no es necesario para crear modelos de inteligencia artificial). Independientemente de eso, el conjunto de datos de LAION se utiliza en todo el mundo por numerosos modelos generadores de imágenes. Un control sobre los componentes individuales (aquí: las fotos) parece imposible.

ChatGPT utilizó el conjunto de datos Common Crawl para entrenar a la inteligencia artificial. Este conjunto de datos es una copia parcial del Internet, con algunos elementos seleccionados al azar. Tan pronto como exista una convención técnica para un aviso de uso (robots.txt), será incómodo para todos los modelos de IA que utilicen un conjunto de datos Common Crawl actualizado. Hasta que eso suceda, habrá probablemente muchos meses o varios años más. Jurídicamente, también hay posibilidades de excusas. Por ejemplo, OpenAI podría afirmar en el futuro para ChatGPT-5 que se basaron en ChatGPT-4 como base (Fine-Tuning), en lugar de entrenar la versión 5 desde cero. La base de datos de ChatGPT-4 parece estar legitimada por derechos de autor en cuanto a aviso de uso, ya que en septiembre de 2021 prácticamente no había aviso de uso.

Resumen

La esencia del aporte y las consecuencias en puntos clave:

Técnicamente no es posible un derecho de uso por parte de los autores que impida a modelos de IA consumir sus obras online disponibles.
Un derecho de uso según el § 44b del URG solo tiene efecto en el futuro. Los modelos de inteligencia artificial ya entrenados permanecen tal como están.
No existe un derecho de autor para obras en línea disponibles gratuitamente frente a modelos de Inteligencia Artificial.
Los modelos AI no pueden olvidar, y si lo hacen, es solo con grandes esfuerzos y con importantes retrasos temporales.
Los modelos de AI que no se reentrenan consideran restricciones de uso que se dieron después del entrenamiento de la AI.
A los autores les esperan tiempos difíciles. Lo que un hombre puede hacer y permitirse con obras ajenas, una IA puede hacerlo aún más (y probablemente lo hará de hecho).
La nominación de las fuentes de un modelo de Inteligencia Artificial no cambia nada, porque los usos previos solo se pueden expresar prácticamente en casos aislados.
Google utiliza, por supuesto, todos los datos de los crawlers tanto para la búsqueda como para Google Bard o similares. Por lo tanto, una supervisión para los autores debido a la hegemonía del mercado de Google es actualmente prácticamente imposible.
Judicialmente son numerosas las excusas posibles para dar a los modelos de IA la apariencia de legitimación.

Mensajes clave

La inteligencia artificial puede aprender de obras online, lo que preocupa a los autores. Se busca proteger las obras mediante un "derecho de uso previo" que los autores pueden declarar para impedir que la IA las utilice.

Los autores de textos online no tienen una forma fácil de impedir que las inteligencias artificiales (IA) los usen, porque no existe una convención técnica estándar para hacerlo.

Bloquear plataformas de IA es difícil porque hay muchas y nuevas aparecen constantemente. Además, las grandes empresas como Google y Meta utilizan datos públicos para entrenar sus modelos de IA, lo que dificulta la prevención del uso no autorizado de la información.

Google utiliza información de sitios web, incluso para entrenar su inteligencia artificial, sin que los usuarios tengan control sobre esto.

Los modelos de inteligencia artificial (IA) como ChatGPT "aprenden" de grandes cantidades de datos, incluyendo textos en línea. Esto significa que es muy difícil para los autores controlar cómo sus obras se utilizan por la IA, ya que los datos ya están "absorbidos" por el modelo.

Los modelos de IA, como ChatGPT, no son motores de búsqueda y no tienen la capacidad de olvidar información.

Los sistemas de inteligencia artificial como Bing pueden ser peligrosos porque no siempre son precisos y pueden generar información falsa. Es mejor usar sistemas de IA propios de la empresa para obtener respuestas más confiables y evitar errores.

Las imágenes generadas por inteligencia artificial son tan realistas que es difícil distinguirlas de las imágenes reales, y esto plantea dudas sobre el derecho de autor.

Las grandes plataformas de inteligencia artificial absorben fácilmente el contenido online, lo que pone en riesgo el control de los autores sobre sus obras.

Es muy difícil proteger las obras de los autores de ser usadas por modelos de inteligencia artificial, ya que estos aprenden de grandes cantidades de datos online y no pueden "olvidar" lo que han aprendido.

Acerca de