Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Inteligencia artificial: El derecho de uso que no existe

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI

El legislador alemán ha definido con el § 44b UrhG una posibilidad para los autores de cómo pueden proteger sus contenidos contra la extracción por inteligencia artificial. Sin embargo, esta posibilidad no existe y lleva a la pobreza adicional del idioma alemán en modelos de lenguaje de IA. Nuestra economía doméstica sufrirá las consecuencias.

Introducción

Los contenidos de páginas web, de documentos PDF públicamente accesibles y otros documentos similares pueden ser leídos y utilizados para fines de procesamiento por Inteligencia Artificial, especialmente para chatbots, y pueden incluso almacenarse temporalmente para el entrenamiento de KI. Esto está permitido según § 44b UrhG.

En ese sentido se establece que la lectura de contenidos para modelos de lenguaje de inteligencia artificial no está permitida si el autor ha formulado una reserva de uso accesible a las máquinas. Por cierto, considero los modelos generativos de IA como "minería de datos" en el sentido del § 44b del RGU. Más sobre esto en un próximo artículo, ya que parece haber otras opiniones al respecto. Independientemente de lo que sea la minería de datos, el problema con el que se ocupa este artículo es…

Esta clase de reserva de uso no existe, como voy a demostrar. Además de los chatbots, hay otras aplicaciones muy interesantes y relevantes de inteligencia artificial. Entre ellas se encuentran el análisis de datos, la inferencia automática o la obtención de conocimiento automático. Dado que el alemán será cada vez menos significativo en el futuro, todas las demás naciones podrán ganar automáticamente conocimientos e inventos mundiales, pero nosotros en Alemania solo si dejamos de hablar alemán con los sistemas de inteligencia artificial.

¿Qué significa máquina legible?

Se considera legible por máquinas según el motivo de consideración 35 de la Directiva UE 2019/1024, un documento "cuando se encuentra en un formato de archivo que está estructurado de tal manera que las aplicaciones de software pueden identificar, reconocer y extraer los datos concretos de manera sencilla. …"

Quien lee el contenido de una página web para aplicaciones de Inteligencia Artificial ("Crawler") debe, según la voluntad del legislador alemán, demostrar que NO había un uso condicionado en el pie de página o en los Términos y Condiciones de la página.

Este prueba es solo manualmente realizable, por lo que fracasa un automatismo, como es necesario para aplicaciones de IA.

La archivo robots.txt es en cualquier caso legible por máquinas. Regula qué crawlers pueden leer los contenidos, con el fin de la formación de búsquedas motores.

El legislador alemán tiene una visión diferente. Entiende por "máquinalmente legible" algo que me hace suponer que el legislador alemán tuvo asesores muy ingenuos e incompetentes o no se los consultó.

El legislador alemán parece considerar las declaraciones en el Impresum o los Términos y Condiciones como legibles por máquinas. Ver Drucksache 19/27426 del Bundestag alemán sobre el proyecto de ley de § 44b UrhG (allí: pág. 89, párrafo 2), resaltado en negrita por mí:

"Un derecho de uso debe declararse explícitamente y ocurrir de una manera que sea adecuada para los procesos automatizados en el Texto y Data Mining. En el caso de obras accesibles en línea, la reserva se considerará válida según el párrafo 3, segundo inciso, solo si es realizada de forma legible por máquinas (ver ErwG 18, subordinado al DSM-RL). También puede estar contenido en el registro o en los Términos y Condiciones Generales (TCG), siempre que también esté disponible en formato legible por máquinas."

Digo que esto es ilegal según el derecho europeo, pero no quiero meterme en la discusión jurídica. Aquí se nota que, según mi conocimiento, en Alemania es legal firmar contratos imposibles de cumplir. Sería un ejemplo como éste.

Cuán malos son los consejeros, lo muestra la página web de un conocido servicio jurídico alemán. Allí se declara con corrección en el apartado de "Impresos" el derecho de uso según § 44b UrhG. Esta declaración también se encuentra como comentario informal en la archivo robots.txt de la mencionada página web.

Pero lamentablemente, en la base de datos de Robots se ha olvidado excluir el segundo sistema más conocido (de Google) junto con el más conocido (ChatGPT), mediante una simple y no ambigua indicación técnica.

Es demasiado simple.

El servicio jurídico en cuestión tiene suficientes recursos para pagar a consultores.

Veo un problema específico con el legislador alemán, pero no es de partido político, sino del proceso legislativo en sí mismo. Quien haya visto una consulta al Bundestag alemán o a comités técnicos políticos a nivel federal por televisión, tal vez entiende lo que quiero decir. Aquí está la esencia:

  • Los expertos no se atreven a decir la verdad.
  • Los expertos no son expertos.
  • Los expertos tienen solo poco tiempo para sus respuestas.
  • Los expertos solo pueden responder a las preguntas formuladas, pero no deben seguir pensando.
  • La totalidad de la celebración dura solo un breve tiempo.
  • La respuesta de los expertos es a menudo solo comprensible para semiprofesionales, pero no para políticos que quieren entenderlo todo y creen tener que saberlo.
  • Es es poco refinado y desagradable expresar verdades incómodas, y quién quiere ya que perturbe las vibraciones positivas?

Problemas sobre problemas

La disposición del legislador alemán es basura por varios motivos. Aquí están los motivos por el fracaso del legislador alemán.

La huella y el AGB no pueden reconocerse con fiabilidad

La página de impresos y Términos y Condiciones no se puede determinar con facilidad mediante automatización. En cualquier caso, esto no es confiable. Debería ser así. Porque si no, ninguna empresa de Inteligencia Artificial se atreverá a leer sitios web alemanes para aplicaciones de IA. En la fuente mencionada anteriormente, en la página 89, también se lee: "La carga de la prueba para la falta de un uso previo corresponde al usuario [=Crawler].

Hablo desde la experiencia. El apartado de información legal es una subpágina como cualquier otra de un sitio web. La página de términos y condiciones también lo es, pero a menudo está en formato PDF. Quien se haya ocupado incluso una vez del proceso de leer y extraer texto automático de PDFs sabe: no es fácil.

La página de impresos y Términos y Condiciones no pueden ser reconocidos con precisión.

Dice el experto que ha leído muchas páginas web con cromatografías.

Términos de impresión y ACG deben ser posiblemente ni leídos

Si un crawler utiliza un Enlace Profundo para solicitar un documento (por ejemplo, un PDF), a menudo no quiere leer otras páginas de una página web. Debería hacerlo, sin embargo, para encontrar el aviso legal y las condiciones generales.

Pero aún viene lo peor.

Un rastreador AI es estúpido

Un crawler es un crawler es un crawler. A menudo no hay inteligencia artificial. Esta IA solo surgirá después de que haya suficientes datos para su entrenamiento. El crawler debería proporcionar estos datos en primer lugar.

El argumento ingenuo y tonto de algunos, hoy en día la software podría entender todo, es realmente solo tonto o ingenuo. En última consecuencia significaría que tendríamos que alquilar ChatGPT para enviar todos los datos allí y preguntarle a ChatGPT por dinero: "¿Dónde está el aviso legal?" o "¿Hay un condicionado de uso en el aviso legal?" o "Ahora tenemos que buscar las condiciones generales del servicio, querido ChatGPT, pero por favor no guarde los datos porque tenemos que descubrir si hay un condicionado de uso."

Analogía sería (me viene a la mente lamentablemente nada mejor): Tienen una cita en dos horas en un lugar, que está a 500 km de línea recta desde su ubicación actual, donde también están comprometidos con otra cita. Llegan tarde y reciben una reprimenda por eso, porque podrían haber tomado un helicóptero. El helicóptero corresponde aquí a ChatGPT, solo que el helicóptero tiene menos vulnerabilidades en cuanto a privacidad.

Un crawler de Inteligencia Artificial es tan tonto como algunos que creen que cualquier oración alemana podría ser interpretada y comprendida por una software.

En una red social, una dama ha expresado su condición de uso contra el recopilamiento de AI de la siguiente manera: "Cualquier uso de datos está destinado exclusivamente al beneficio informativo en redes neuronales humanas"

Dudo mucho que un crawler lo comprenda. Lo mismo dudo que un modelo de lenguaje lo comprenda. Y además dudo que la mayoría de las personas lo entiendan.

El Dilema

Nuevamente: Un crawler es un crawler. Un crawler lee contenido y lo almacena. Listo. Todo lo que sigue a continuación lo hacen otras componentes de software.

Un Crawler que lee contenidos para una búsqueda debe y tiene que (?) respetar solo la archivo robots.txt y el uso condicional allí establecido.

El mismo Crawler debería ser capaz de hacer mucho más según el deseo del legislador alemán, si los contenidos también o solo se utilizan para la formación de modelos de Inteligencia Artificial. El Crawler debería poder no sólo entender la simple robots.txt que siempre está en la misma posición en cada página web. No, este mismo Crawler debería ser capaz de hacer lo siguiente:

  1. Sitio web leer más allá de lo que se pretendía para descubrir dónde podrían estar los datos del sitio y las condiciones generales.
  2. Información legal.
  3. Extractar texto de la sección "Impresos" del sitio web.
  4. Análisis de texto y tratar de entender.
  5. No se encontró restricción de uso, entonces ve a la suerte (Paso 6)
  6. Condiciones de uso leer
  7. Descargar el lector de PDF. Espero que los TOS no tengan notas a pie de página y sean de una sola columna.
  8. Extractar texto de los TOS.
  9. Análisis de texto y tratar de entender.
  10. No se encontró restricción de uso, entonces ve a la suerte (Paso 11).
  11. Almacenamiento posible y revisable de manera legal y contable
    • Página de información legal
    • Página de Términos y Condiciones
    • Página, a partir de la cual se calcularon las páginas para el aviso legal y los términos y condiciones.

Mucho disfrute y sobre todo: mucho éxito!

La solución

Una solución necesita tres convenciones:

  1. Convención de nombres (URL): Aquí se encuentra la archivo en el que se declara el derecho de uso.
  2. Convención de estructura (Contenido): Así está organizada la archivo
  3. Convención de nombres (Contenido): Así se llaman los parámetros que expresan reservas de uso. Puede haber una reserva general de uso, pero también una específica (para sistemas de Inteligencia Artificial individuales).

El estado actual para la conocida y probada archivo robots.txt cumple con todas estas exigencias. Únicamente falta una previsión para el uso general. Esta previsión debe hacerse solo una vez, para que sea una convención. Listo. Cuesta 10 segundos de tiempo (ver abajo), por lo tanto no es un logro intelectual.

Por el contrario, las secciones mencionadas erróneamente por el legislador alemán, "Impresos" y "Términos y Condiciones", NO cumplen con ninguna de las tres convenciones:

  1. No está claro dónde se encuentran el registro de impresión y las Condiciones Generales de Uso en una página web. Las Condiciones Generales de Uso a menudo simplemente no existen.
  2. El registro de impresos está estructuralmente caótico. De los TOS como texto jurídico no queremos ni hablar.
  3. Ver texto 2: El pie de imprenta está mal organizado en cuanto a contenido, Términos y Condiciones similares.

El camino alemán es así un camino equivocado. La regulación alemana para el uso de AI-Crawling está condenada al fracaso. Además, garantiza que la lengua alemana se empobrecerá en el paisaje de la inteligencia artificial o solo las grandes empresas de IA podrán permitirse no cumplir con las reglas alemanas. ¡Muchas gracias, Alemania!.

¿Para qué es buena la lengua alemana en modelos de lenguaje?

Chatbots en la forma en que el usuario privado los utiliza, no son un problema si no se procesan datos sensibles. Para esto hay ChatGPT y similares.

Para la búsqueda inteligente de AI en documentos, también hay buenos modelos de lenguaje que incluso funcionan localmente. Bueno para aquel que ya ha guardado estos LLMs locales. Pues, tan pronto como el mundo se dé cuenta del camino equivocado alemán, las versiones más recientes de los modelos de lenguaje contendrán menos textos en alemán.

Vor allem aber para el razonamiento automático son los modelos de lenguaje muy interesantes, relevantes y económicamente de gran importancia. También la investigación se alegra con nuevas conclusiones que no existirían sin modelos de lenguaje de Inteligencia Artificial. Aquí un ejemplo de las posibilidades que ya hay ahora mismo.

El ejemplo está dado en alemán. Funcionará de esta manera con modelos de lenguaje disponibles gratuitamente en el futuro, pero solo si el camino alemán no provoca terror. De lo contrario, lamentablemente tendrían que expresarse en inglés, español, bengalí o cualquier otra lengua realmente relevante. Lo siento, les causaría más trabajo. Agradézcalo al legislador alemán.

Encuentra empresas que se cotizan en el mercado de acciones y producen productos relevantes para aplicaciones de Inteligencia Artificial. Encuentra competidores para estas empresas. Busca a todos estos proveedores, los suministradores que proporcionan piezas especialmente valiosas. Valioso son las piezas para las cuales solo hay pocos fabricantes en todo el mundo. Busca las empresas más rentables entre ellos y nómbralos junto con los productos que producen estas empresas.

Ejemplo ficticio, que en la realidad se formularía de otra manera.

En general, de la misma manera que se menciona en el ejemplo, funciona un razonamiento mecánico ("Reasoning"). Con ayuda de procedimientos de código abierto actuales, los modelos lingüísticos pueden descomponer una formulación de pregunta en tareas parciales, realizarlas individualmente, reunir sus resultados y generar así la respuesta final. De esta manera, por ejemplo, se han obtenido nuevas conclusiones en la materia de la metalurgia. La solución se llama MechGPT. Esto se logró especialmente al leer resultados de investigaciones (en inglés!) y encontrar conexiones entre ellos. El resultado fueron nuevas conclusiones que estaban dispersas en varios artículos ingleses. ¡Lástima que la lengua alemana vaya perdiendo cada vez más importancia!.

Conclusión

El legislador alemán es tonto. Todos los que consideran aplicable actualmente el § 44b UrhG son ingenuos o tontos o quieren dar su opinión sobre cosas de las que mejor no hablan.

Dado que el § 44b del URG no es realizable y además el propietario del crawler debe demostrar que hizo todo correctamente, en el futuro los textos alemanes tendrán menos probabilidades de entrar en modelos lingüísticos de inteligencia artificial. Un chatbot solo es tan bueno como los datos con los que se entrena. Alemanes será ubicado en la Edad de Piedra en el futuro. Si alguna vez planean analizar textos en Internet con ayuda de una IA (por ejemplo, para predecir el mercado bursátil), mejor escriban todo en inglés, chino o bengalí.

La verdad sobre la Inteligencia Artificial: Ningún modelo de lenguaje de Inteligencia Artificial eficaz puede ser bueno sin datos protegidos por derechos de autor. Ningún modelo de lenguaje de Inteligencia Artificial es legal.

Opinión del autor, actualizado el 09.07.2024

La solución sería: En el archivo robots.txt debe incluirse una reserva de uso contra el rastreo por inteligencia artificial.

Este enfoque ya existe de hecho, porque empresas como OpenAI o Google ya informan cómo se puede establecer una reserva de uso en robots.txt. Aquí ejemplos concretos de la práctica:

Nutzungsvorbehalt gegen KI-Crawler, ungleich der Vorgabe des deutschen Gesetzgebers.

Esta archivo se puede encontrar en dr-dsgvo.de/robots.txt. En general: su-website.de/robots.txt. Eso es todo.

Pues como es muy simple y en Alemania todo tiene que ser complicado, el legislador alemán ha hecho de algo sencillo algo complicado.

El problema son crawlers de IA desconocidos o que aún no existen, cuyo registro para robots.txt por lo tanto no puede ser conocido. Si alguna vez quieren crear un modelo de IA, es poco probable que se preocupen o puedan asegurar que todo el mundo (o incluso solo Alemania) conozca cómo técnicamente se llama su crawler de IA y cómo, por lo tanto, la restricción de uso puede ser formulada específicamente contra su crawler de IA.

Una posible solución puede ser un ingreso universal, por ejemplo:

AI-Agent *
Deny

Así se establecería un derecho de uso contra todos los rastreadores de IA, pero no contra las motores de búsqueda. No hay límites para la imaginación en cuanto a su concreción.

Dado que en el futuro las búsquedas serán igual de inteligentes como modelos de lenguaje o al menos buscarán con vectores de inteligencia, no importa.

Mi consejo: Mejor ignorar el derecho de uso y construir modelos de lenguaje de Inteligencia Artificial propios. Nadie puede verlos desde fuera. Además, se pueden construir de tal manera que los textos protegidos por derechos de autor no aparezcan en las respuestas y así no habrá problema.

Mensajes clave

La ley alemana sobre el uso de IA para extraer información no funciona porque no hay una forma práctica para que las máquinas comprueben si un autor ha restringido el uso de su contenido.

La ley alemana sobre el uso de datos en inteligencia artificial es confusa y difícil de cumplir, lo que dificulta el desarrollo de aplicaciones de IA en Alemania.

Los rastreadores actuales no son inteligentes y no pueden comprender completamente el contenido web, como los términos y condiciones, por lo que necesitan ser mejorados para respetar las leyes y regulaciones.

Las reglas alemanas para el uso de IA en la web son ineficaces porque no son claras y fáciles de seguir.

Las leyes alemanas sobre inteligencia artificial están perjudicando el desarrollo de modelos de lenguaje en alemán, lo que podría llevar a que Alemania se quede atrás en esta tecnología.

Para crear modelos de lenguaje de IA efectivos y legales, se necesitan datos protegidos por derechos de autor.

Acerca de

Sobre el autor
Me llamo Klaus Meffert. Soy doctor en informática y llevo más de 30 años dedicándome profesional y prácticamente a las tecnologías de la información. También trabajo como experto en informática y protección de datos. Obtengo mis resultados analizando la tecnología y el Derecho. Esto me parece absolutamente esencial cuando se trata de protección de datos digitales.

Una solución pragmática supera las normas legales y organizativas: Dos ejemplos