¿Por qué está la UE rezagada en el desarrollo de sistemas de IA?

La UE se queda atrás debido a que leyes de protección de datos como el RGPD restringen severamente el uso de grandes cantidades de datos para el entrenamiento de modelos de IA. Esto conduce a una escasez de los datos de entrenamiento necesarios para sistemas de IA potentes.

¿Qué papel juegan las leyes de protección de datos en el desarrollo de modelos de IA en la UE?

Las leyes de protección de datos representan una gran barrera, ya que regulan fuertemente el uso de grandes cantidades de datos, que son necesarios para el entrenamiento de modelos de IA. Las estrictas reglas dificultan el desarrollo de sistemas de IA competitivos en la UE.

¿Por qué es problemático el derecho de autor alemán en el uso de datos de sitios web alemanes para el entrenamiento de modelos de IA?

El derecho de autor alemán exige una negación explícita del operador del sitio web si su contenido se utiliza para el entrenamiento de IA. El robo de información de encabezado y páginas de términos y condiciones es el estándar, lo que hace que la recopilación de datos a nivel de máquina sea impráctica e insegura legalmente.

¿Qué problema plantea la definición actual de IA de la UE?

La definición de IA de la UE es problemática porque, por ejemplo, no considera a ChatGPT como inteligente, aunque el modelo a menudo proporciona mejores respuestas que el promedio humano. Esta definición ignora el rendimiento y la autonomía reales de los sistemas de IA modernos.

¿Por qué los modelos de IA son inherentemente problemáticos desde la perspectiva del artículo?

El artículo argumenta que la mayoría de los modelos de IA se basan en datos procesados ilegalmente, y por lo tanto son, en esencia, ilegales. La falta de aplicación y la respuesta insuficiente de las autoridades exacerban aún más este problema.

¿Cómo se puede garantizar el uso de sistemas de IA para minimizar los riesgos legales?

Para minimizar los riesgos legales, el uso de sistemas de IA debe ser monitoreado cuidadosamente. Esto se puede lograr mediante la operación de sistemas de IA fuera de línea, por ejemplo, con servidores de GPU o clústeres de GPU, para controlar exhaustivamente las entradas y salidas.

¿Por qué los modelos de IA están tan restringidos en la UE en la actualidad?

La situación actual está causada por estrictas leyes de protección de datos como el RGPD, que restringen severamente el uso de datos personales para el entrenamiento de modelos de IA.

¿Qué medidas se proponen para mejorar el desarrollo de la IA en la UE?

Se recomienda una sanción más rápida y severa de los proveedores de IA, especialmente aquellos fuera de la UE, así como la eliminación de las barreras burocráticas para mejorar el cumplimiento de la ley.

Regulación de la IA en la UE: Gran explosión o mal comienzo?

La inteligencia artificial se basa en grandes cantidades de datos. La UE protege especialmente los datos de personas o autores. Esto es bueno en sí, pero perjudica la creación de sistemas de IA competitivos. Hay otros motivos que dificultan el desarrollo de modelos de lenguaje eficaces hechos en Alemania. ¿Se puede resolver este dilema?

Introducción

Los casos de uso más frecuentes para la Inteligencia Artificial (IA) son probablemente los modelos de lenguaje (LLMs) y los modelos de imágenes. Es posible que pronto se sumen generadores de video o reconocedores de objetos. Este artículo se centra en LLMs por simplicidad, pero las conclusiones son en su mayoría o completamente aplicables a muchas otras clases de modelos, como clasificadores o sistemas de diagnóstico médicos.

Actualmente todos los modelos de lenguaje competitivos provienen de países que están fuera de la UE. Mistral puede ser una pequeña excepción, aunque sus modelos de lenguaje no están entre los mejores.

Aleph Alpha no es una excepción, ya que su nuevo modelo Pharia-1 obtiene resultados intermedios en los benchmarks, para ser amables.

Algunos creen que la UE podría aún ponerse al día. Eso no va a suceder. Porque para los modelos de lenguaje potentes solo se necesita una cosa: datos. Nada más. Ni personal, ni tecnología, ni dinero, ni tiempo. Nada excepto muchos datos, preferiblemente representativos, falta. Por supuesto, los datos deben ser conformes a la ley. Por lo tanto, quedan aún menos datos disponibles.

Para modelos de lenguaje muy buenos, hay un ingrediente esencial que falta en Europa:

Datos.

Todo lo demás siempre está disponible: una persona, uno o unos pocos servidores, el mejor código de programa para el entrenamiento de la IA.

Las razones para que la UE se quede atrás en materia de IA están, en el verdadero sentido de la palabra, preestablecidas.

Legislación de protección de datos

La privacidad es muy importante. Numerosos escándalos lo demuestran, escándalos que, sobre todo, tienen su origen fuera de Europa. Aquí hay algunos ejemplos:

En los EE.UU. se produjo una elección presidencial muy importante, que fue influenciada por el uso ilegal de datos analizados de usuarios de Google y Facebook (Meta) ("Cambridge Analytica").

Microsoft es calificado como riesgo de seguridad por instancias prominentes en los Estados Unidos. La causa es la falta de seguridad de datos en Microsoft.

Meta no es mejor que Microsoft, sino más bien peor. Porque Microsoft gana al menos dinero con productos además de datos, mientras que Meta solo tiene datos de usuarios. Estos datos se venden al máximo. Las leyes de protección de datos como la RGPD son en este caso más bien un obstáculo. ([1]) ([2])

Sobre Google también se puede informar de cosas negativas. Que a veces delincuentes pueden ser capturados porque las autoridades de seguridad estadounidenses analizan el uso de productos de Google, no tranquiliza realmente. Quien como ciudadano inocente está en el lugar equivocado en el momento equivocado, pronto es estampado como delincuente y se pudre injustamente en la cárcel o incluso tiene que enfrentar la pena de muerte.

La RGPD como reglamento tiene un muy buen fundamento. Fue emitida cuando la inteligencia artificial aún no era un tema. Es en sí misma muy razonable. Pero ¿por qué se aplica de hecho? Las autoridades alemanas de protección de datos sancionan prácticamente solo en dosis homeopáticas detectables.

La RGPD permite el uso de datos personales para el entrenamiento de AI solo en base al interés legítimo (vgl. Artículo 6 Abst. 1 RGPD). La autorización no es posible con datos masivos. Un contrato sería legalmente difícil con datos masivos.

Peor aún: Para las autoridades, la justificación legal de interés legítimo NO está disponible (se encuentra en el artículo 6, apartado 1 de la RGPD, según el párrafo f). Las autoridades no pueden entrenar AI-Systemes de hecho. Es especialmente lamentable, porque precisamente las autoridades tienen muchos datos valiosos que podrían beneficiar a los ciudadanos nuevamente.

La RGPD es aplicable "solo" a los datos personales, incluyendo los datos pseudónimos (Artículo 4 Número 1 RGPD). No es aplicable la RGPD a los datos anónimos.

Sin embargo, si se formula de forma algo exagerada, no existen datos anónimos en la práctica. Se refiere a:

Los datos anónimos son datos para los cuales los datos originales ya no son accesibles (caso muy raro).
Los datos anónimos no son tan representativos como los datos originales y por lo tanto menos valiosos para el entrenamiento de AI.
La anonimización en sí misma es un proceso de tratamiento de datos. Las autoridades prácticamente no pueden llevarlo a cabo. Otros solo pueden hacerlo prácticamente si existe un interés legítimo, lo cual es difícil de evaluar.

Hablar aquí es de la práctica. Lo que en teoría vale, no interesa a ninguna empresa del mundo que quiera resolver problemas concretos. Las discusiones teóricas hacen faltar algo, a saber, el enlace con la práctica.

En realidad no se permiten datos masivos por sí solos, debido a razones de protección de datos, para que fluyan en un sistema de inteligencia artificial, por ejemplo, para el entrenamiento de la IA.

También se aplica a los datos públicos en Internet. Los siguientes casos son problemáticos:

Alguien escribe algo sobre otra persona. Puede ser una afirmación factual, o también una difamación. La otra persona no quiere que esta información sea pública, y mucho menos que se almacene en un modelo de lenguaje de IA.
Una persona publica información sobre sí misma. Una IA almacena esa información porque un crawler ha leído la página web de la persona. Más tarde, la persona decide retirar la información y lo solicita también al operador de la IA. Sin embargo, lamentablemente, no se pueden eliminar datos de los modelos de IA. Intenta borrar una información de tu cabeza. Tampoco se puede. Tu cerebro y el cerebro de la IA son ambos redes neuronales. Aquí no hay diferencia. Créelo o no. Lo importante es que no se pueden eliminar información de los modelos de IA.

Repetición: Por razones de protección de datos, no se pueden utilizar datos masivos para el entrenamiento de AI en la UE. Esto es al menos en algunos casos una consecuencia no deseada de lo que de otro modo es un muy buen reglamento RGPD.

Derecho de autor

El derecho de autor alemán permite mediante el § 44b UrhG la capacitación de IA con obras protegidas por derechos de autor. Estas obras pueden incluso almacenarse temporalmente para la capacitación de IA.

Un trabajo es automáticamente protegido por derechos de autor, si se crea (por un ser humano). No se quiere ser el creador, se es automáticamente. Eso es análogo con el estatus de testigo: Si ha visto una acción, es testigo. Puede elegir no querer ser testigo, pero ya lo es o no.

Lo siento, pero el legislador alemán tuvo los malos asesores cuando creó la sección 44b del URG. Porque en este párrafo hay una contradicción muy prácticamente inaplicable y muy torcida para los autores.

Los autores pueden oponerse a que sus obras se incluyan en sistemas de inteligencia artificial. Este rechazo o reserva debe, según el comentario legal alemán, formularse ya sea en la información sobre la empresa o en los términos y condiciones del sitio web (ver Drucksache 19/27426, pág. 89, 2. párrafo). Pero ¿cómo?

La robots.txt es una archivo reconocido y ampliamente utilizado estándar de la industria. Este estándar es perfectamente legible por máquinas. Al parecer, nadie de los asesores que habían aconsejado al gobierno federal sabía esto. También era desconocido el hecho de que en las Condiciones Generales de Uso (AGB) o en la sección "Acerca de" típicamente no prevalece la legibilidad por máquinas. A menudo parece ser así con los asesores: un asesor quiere seguir siendo asesor; por lo tanto, evita las críticas negativas o se expresa intencionalmente o debido a su incompetencia lingüística de manera tan compleja que nadie la entiende. El estándar alemán es lo contrario del estándar de la industria: no es legible por máquinas, no es un estándar y no es ampliamente utilizado. En resumen: el estándar alemán es inútil desde una perspectiva práctica.

Peor aún: si desea leer una página web y utilizar su contenido para entrenar un modelo de IA, posteriormente deberá poder demostrar que el propietario de la página web no se opuso a ello cuando usted leyó su página. Así lo pretende el legislador alemán.

Lo siento, pero nadie puede demostrar de manera segura (en masa) que en el momento X en las páginas web Y, Z y en las diez millones de páginas A1 a A10000000 NO había reserva de derechos de autor. Tendrían que leer toda la página para encontrar la sección de información sobre derechos de autor y términos de uso. ¿Qué pasa si hay dos secciones de información? Eso puede suceder. Algunos propietarios de páginas web podrían hacerlo incluso con mala intención, para inducir a los usuarios al incumplimiento de la ley.

Conclusión: El derecho de autor alemán hace imposible leer datos masivos de sitios web alemanes de manera legalmente segura.

Burocracia y democracia

En lugar de burocracia debería decirse "burocrazy" (el juego de palabras funciona mejor en inglés).

La democracia es para muchos el menor mal entre todos los males. A esto se puede estar de acuerdo. Sin embargo, la democracia sigue siendo un mal.

Un ejemplo lo muestra muy bien. Una definición para una tecnología o un concepto tecnológico no debería ser discutida por 27 partes (cada una con varias personas) en lugar de hacerlo. Exactamente eso pasó, sin embargo, cuando la Comisión Europea se planteó una definición para "sistema de inteligencia artificial" dentro del marco del Acto sobre Inteligencia Artificial. La OCDE tiene aún más miembros. El autor de este artículo tenía algunas sugerencias de mejora para la definición de inteligencia artificial que dio la OCDE. Uno de los principales autores de la definición escribió entonces (en esencia) de vuelta, diciendo que era imposible hacer ajustes adicionales a la definición. En palabras textuales escribió: "Tendrías que convencer a más de 30 delegaciones nacionales para aceptar cualquier edición adicional!" Eso fue todo con el progreso.

También la adaptación de la RGPD al era del AI es imposible debido a la burocracia. Llevó años. En la era del AI, ya son semanas una pequeña eternidad.

La definición de Inteligencia Artificial de la UE solo puede calificarse como desafortunada e incorrecta. Define a ChatGPT, el chatbot actual mejor y más destacado, no como inteligente. Por lo tanto, la mayoría de las personas no son inteligentes, porque ChatGPT suele dar mejores respuestas que la mayoría de las personas en este planeta. Tal vez los humanos no sean tan inteligentes después de todo

La definición de la UE de lo que constituye un sistema de IA es:

Sistema de inteligencia artificial" (sistema de AI) un sistema basado en máquinas diseñado para operar con diferentes grados de autonomía y que, para objetivos explícitos o implícitos, puede generar resultados como predicciones, recomendaciones o decisiones que influyen en el entorno físico o virtual;

Fuente: Ley sobre Inteligencia Artificial (ver enmienda 163)

Crítica breve a la definición de EU sobre IA: ChatGPT no es autónoma en sí misma. Un aspirador de polvo robotizado aún medio tonto es, por el contrario, autónomo. Eso no puede ser un criterio para la inteligencia. Un resultado no es una condición previa para la inteligencia; ejemplo: Albert Einstein piensa durante 3 años; ¿era él estúpido en esos 3 años porque no produjo ningún resultado? ChatGPT suele influir ni en el entorno físico ni en el virtual, pero un aspirador de polvo robotizado sí. La crítica en detalle se encuentra en un artículo propio, que además propone una definición sólida de IA.

¿Cuál es la solución?

En primer lugar, se debe destacar que existen los siguientes tipos de modelos de lenguaje de IA:

Muy potentes modelos de lenguaje (LLM) que siempre se consideran ilegales. Nadie (ni siquiera un automatismo) puede verificar y filtrar legalmente las enormes cantidades de datos.
Modelos LLM a medio camino de ser potentes que priorizan la privacidad de datos y los derechos de autor. Incluso aquí, lamentablemente, según la ley de probabilidades, debemos decir que estos modelos probablemente se basan en datos procesados ilegalmente.
LLMs con poca potencia. Estos son a) completamente conformes con la ley o b) muy cercanos a ella o c) igualmente ilícitos. En el primer caso, no importa porque nadie quiere usar estos modelos. En el segundo caso, se ha desperdiciado energía vital. El tercer caso refleja a un creador de LLM que no tiene ni idea de entrenamiento de IA ni de las normas legales

En resumen, son ilegales prácticamente todos los modelos de lenguaje. Todos los que no lo son, a nadie le interesan. En el mejor de los casos, las autoridades podrían querer utilizar modelos de lenguaje menos potentes porque no ven otro camino (como se mencionó anteriormente y la circunstancia de que las autoridades están reguladas, lo cual es a menudo bueno).

Resumen intermedio: No hay solución. La IA es ilegal (y útil).

O bien se utiliza la IA sabiendo que está prohibido, o se prohíbe a todos usarla. Todos los caminos intermedios son actos de desesperación que pueden ser perfectamente legítimos. El problema legal probablemente se resolverá mediante la aceptación, en el sentido del pensamiento social del derecho: lo que está prohibido pero que todos hacen y que de hecho se tolera, se tolerará o eventualmente se declarará legal. Lo último no sucederá tan pronto (véase la burocracia y la democracia).

Un pequeño escenario secundario para ilustrar la evolución de la sociedad: antes, solo la palabra "spontaneidad" se consideraba correcta en esa escritura. Casi nadie la había usado así. Casi todos solo decían "spontanidad". En algún momento, "spontanidad" se declaró factualmente correcta. Sin embargo, el Diccionario Online de Duden aún no lo tiene en cuenta y considera que "spontanidad" es "más bien rara" (lo cual es incorrecto).

¿Cuál es la solución práctica?

No solución, pero un alivio con un muy agradable efecto secundario para el contribuyente, son las sanciones.

¿Cuándo finalmente cumplirán las autoridades de protección de datos alemanas con su deber y sancionarán a los infractores de datos correctamente? Justificación mediante el ejemplo del seguimiento web: El seguimiento web es aproximadamente la utilización de Google Analytics, el pixel de Facebook u otros servicios analíticos invasivos. Por lo general, se utilizan cookies en este proceso. Este incumplimiento ocurre millones de veces al día en sitios web alemanes. La infracción es superfácilmente verificable (abrir navegador, abrir consola del red de la red con la tecla F12, abrir sitio web, abrir los ojos). ¿Por qué no hay multas por este incumplimiento continuo?

La solución práctica es: Sancionar con dureza y consecuencia, y de manera rápida a los proveedores de AI como Microsoft, OpenAI, Meta, Google, Apple en Europa. Según la ley aplicable, se sanciona directamente al proveedor o se sanciona a quienes utilizan estas soluciones. No hay que preocuparse, seguirá habiendo ChatGPT. Pues después de la primera sanción todo será mejor. ¿Fue así con el ChatGPT antes? También Facebook no desaparecerá (lamentablemente), ya que las páginas de Facebook esperemos que pronto sean cerradas por las autoridades alemanas de protección de datos (el Tribunal de Justicia de la Unión Europea permite a estas autoridades hacerlo explícitamente)

Salida de modelos de Inteligencia Artificial

Un enfoque adicional es la consideración de la salida de los sistemas de inteligencia artificial. Solo para inspirar, se menciona lo siguiente: Una persona que desarrolla pensamientos y fantasías de cualquier tipo en su cabeza, pero no las materializa, no hace nada malo y vive completamente en armonía con el derecho y la ley. De manera similar, un sistema de inteligencia artificial también podría ser evaluado por sus salidas. Un sistema de inteligencia artificial sin salida es en realidad inocuo. Es importante asegurarse de que este hecho no se utilice para fines malos, como interrogar a alguien en secreto o incluso interrogarlo directamente. Una persona solo tiene acceso a su propio cerebro más los cerebros artificiales de los sistemas de inteligencia artificial, que todavía no pueden defenderse contra el uso por parte de terceros.

Conclusión

La inteligencia artificial puede ser muy útil. Eso mismo es el problema: aprovechar algo porque es útil, aunque no esté permitido, crea un cierto dilema.

La protección de la privacidad, como la RGPD, es una gran conquista. Esta excluye en gran medida el uso de sistemas de Inteligencia Artificial. Este dilema no se puede resolver en los próximos años.

La IA revela la incapacidad de la UE para actuar con rapidez y eficacia en el ámbito tecnológico. Solo se observan ejemplos minúsculos de progreso. Por ejemplo, cuando la autoridad de protección de datos italiana prohibió temporalmente ChatGPT. El hecho de que el responsable de protección de datos del estado de Hesse enviara un cuestionario a OpenAI, algo que cualquier otro también habría hecho, no fue consuelo para la máxima pasividad de Hesse cuando se trata de los derechos de los afectados.

La inteligencia artificial es ilegal. Para muchas personas y empresas puede ser muy útil. Suena como una contradicción y también lo es desde el punto de vista legal. La realidad cotidiana, sin embargo, está desacoplada de la teoría jurídica. La utilidad juega un papel (al menos) secundario en la consideración jurídica.

La IA nos matará a todos. Pero hasta entonces, hará cosas terriblemente útiles para nosotros.

Según Sam Altman.

Es es importante que los gastos de los sistemas de IA se utilicen con gran precaución. Esto no puede lograrse con servicios en la nube como ChatGPT, especialmente si se utiliza la caja de diálogo de OpenAI.

Entweder se corre una AI por cuenta propia (Inteligencia Artificial sin conexión, servidores GPU o clúster de GPU). Luego, tanto las entradas a la AI (Prompts) como las salidas pueden ser supervisadas lo mejor posible. De igual manera, el sistema de AI puede ser optimizado y suele proporcionar resultados mucho mejores que todos los participantes que solo se han condicionado para uso universal.

O o se utiliza un servicio en la nube para aumentar la seguridad, a través de su interfaz de programación de aplicaciones (API), pero no a través de su interfaz de usuario estándar. De esta manera, al menos las entradas y salidas de la AI externa pueden ser controladas adecuadamente.

En cualquier caso, debería ser ajustado el derecho de autor alemán. Además, las autoridades deberían tener más posibilidades de utilizar datos para el entrenamiento del AI.

Lo más importante y efectivo, sin embargo, es la sanción dura a los proveedores de AI, que suelen estar fuera de la UE. En este sentido, se debe reducir la burocracia para que el Estado de derecho no se convierta en una mera teoría. Lo que cuenta es solo la práctica. Con papeles solos no se puede resolver ningún problema. De hecho, el gobierno estadounidense ha obtenido un profundo conocimiento de los modelos de AI de OpenAI y Anthropic debido a una orden presidencial.

Puntos clave de este artículo

La UE tiene leyes de protección de datos notables. Esto dificulta el desarrollo de modelos de lenguaje de IA de alta calidad porque su entrenamiento requiere una gran cantidad de datos que no se pueden proteger legalmente.

El Reglamento General de Protección de Datos (RGPD) prohíbe utilizar datos personales sin consentimiento o interés legítimo para el entrenamiento de sistemas de IA. Por lo tanto, las autoridades no pueden entrenar estos sistemas porque carecen de la base legal necesaria.

El derecho de autor alemán dificulta el uso de datos de sitios web alemanes para el entrenamiento de sistemas de IA.

La definición de IA de la UE es desafortunada y errónea porque no considera a ChatGPT como inteligente.

Los modelos de IA son casi siempre ilegales, pero muy extendidos. Una solución práctica podría ser actuar con dureza y rapidez contra las infracciones, como imponer multas a proveedores como Microsoft, OpenAI o Google en Europa.

Los sistemas de IA pueden ser muy útiles, pero deben ser supervisados cuidadosamente para evitar abusos.

La burocracia debe reducirse para que el Estado de Derecho se implemente de manera práctica, en lugar de permanecer solo como un concepto teórico.

Sobre estas afirmaciones clave