Inteligencia Artificial: Datos personales en modelos de IA

Muchas personas demandan la regulación de aplicaciones de inteligencia artificial. Los datos masivos para el entrenamiento de modelos de IA no deberían contener datos personales, incluso si provienen de fuentes públicas. Por ejemplo, así lo exige el Comisionado Federal de Protección de Datos. ¿Qué significa esto en la práctica?

Introducción

Un modelo de Inteligencia Artificial es un cerebro electrónico, que representa una red neuronal. Las conexiones entre los neuronas representan conocimiento, exactamente como el cerebro humano. El conocimiento se alimenta a través del ingreso de millones o billones de documentos en línea gratuitamente disponibles. A estos documentos pertenecen especialmente sitios web.

En muchos de estos textos, que influyen en modelos de IA, están datos personales disponibles. Estas datos terminan en los conjuntos de entrenamiento de una Inteligencia Artificial. Mucho más: las salidas generadas por un chatbot sobre la base de estos conjuntos de entrenamiento pueden contener también estos datos personales.

Resulta problemático desde la perspectiva de algunos, como el Comisionado Federal para la Protección de Datos en Alemania, que estas datos personales terminen en modelos de Inteligencia Artificial. De estos datos en modelos de IA surgen varias preguntas:

¿El titular de los datos (la persona afectada) está de acuerdo con que sus datos personales terminen en un modelo específico de Inteligencia Artificial? En general (a menos que se requiera consentimiento):
¿Cómo puede un titular de datos bloquear su uso en modelos de Inteligencia Artificial (Opt-Out)?
¿Cómo se pueden eliminar los datos de un modelo de inteligencia artificial que ya existe?

De estas preguntas surgen una serie de problemas en la práctica que se discuten a continuación.

¿Cuándo se encuentran datos personales?

Un valor de datos puede ser o no personalizado muy a menudo no se puede determinar o con precisión. Una persona reconoce posiblemente nombres propios de personas como tales, pero no siempre. Una máquina (IA) puede hacer esto en una forma aún peor.

Los datos personales directos, como nombres o direcciones postales, no pueden ser identificados con precisión por las máquinas en general.

Un matrícula de vehículo, un número de teléfono o el nombre de una empresa pueden ser personales, nadie lo sabe (excepto un conocedor íntimo del vehículo, el número de teléfono o la empresa). Una máquina no puede saber si "Maier GmbH" es un valor de datos personales. El nombre de una sociedad limitada es personal cuando se puede inferir directa o indirectamente a una persona (ver Art. 4 Núm. 1 DSGVO). Una sociedad limitada con una sola persona parece ser personal. El nombre de una sociedad limitada con 50 empleados no parece ser personal. Sin embargo, si se menciona el nombre de la sociedad limitada con 50 empleados en conexión con un empleado que mide 1,98 metros ( "el empleado más alto de nuestra empresa"), entonces esta combinación de nombre de la sociedad y medida del empleado es considerado como personal.

Los datos nunca pueden ser clasificados de manera confiable como pertenecientes a una persona o no, en su conjunto.
Los algoritmos llevan así siempre importantes incertidumbres en el reconocimiento de datos personales.

En particular en el ejemplo anterior se hace evidente que nadie y nada puede considerar datos fiables, ya sean personales o no. Incluso una número de teléfono es difícil determinar si pertenece a una persona o a una empresa y si la empresa está compuesta por una sola persona o varias.

¿Cómo pueden los datos ser bloqueados para su uso en modelos de Inteligencia Artificial?

La respuesta corta es: No en absoluto. Al menos, ésta es la situación actual. No hay un estándar para proteger los datos de acceso no autorizado en sitios web. Leer una página web pública es obviamente siempre posible. Exactamente esto es el propósito de una página web: debe ser accesible a una audiencia lo más amplia posible. Programas de robots (Crawlers, Escáneres) pueden ser difíciles de distinguir de un lector humano. Muchas páginas web no tienen la posibilidad técnica de intentarlo de alguna manera. Esto es todo sobre el estado actual de la tecnología.

El único camino prácticamente accesible actualmente es la utilización de la robots.txt archivo. Este archivo permite a los administradores de sitios web definir qué motores de búsqueda pueden acceder a sus contenidos y cuáles no. En este momento, también se respeta esta archivo por algunas aplicaciones de Inteligencia Artificial que rascan contenido.

El bloqueo de sus propios datos contra su uso en modelos de Inteligencia Artificial es técnicamente imposible.
Hasta la fecha y por el momento.

Muchas aplicaciones de Inteligencia Artificial no se interesan en absoluto por esta robots.txt archivo o cualquier petición de exclusión de los propietarios del sitio web. Además, se trata de deseos y no de definiciones técnicas. Aunque ChatGPT, por ejemplo, dice que respeta las peticiones de una página web sobre el bloqueo de sus contenidos contra la utilización por parte de ChatGPT, esto es solo cuestión de confianza. Quien aún confíe en OpenAI y ChatGPT debería recordarse los hechos:

La autoridad de protección de datos italiana ha prohibido ChatGPT porque OpenAI parece haber almacenado ilegalmente datos, por ejemplo, las entradas del usuario.
OpenAI no solicitó permiso del usuario, sino que simplemente ofreció una opción de optar (opt-out).
OpenAI ahora promociona con ChatGPT Enterprise y la ventaja "Obtenha seguridad y privacidad de grado empresarial". Es decir: "Nos limitamos a seguir las normas de protección de datos, si usted compra la versión empresarial".

Aquel que confía en empresas como OpenAI, Google o Microsoft tan pronto como surge una noticia de tranquilidad, a pesar de que estas empresas habían mostrado anteriormente un comportamiento preocupante en múltiples ocasiones, actúa de manera Ansioso por obtenerlo.

Los datos de las bases de datos de recopilación como The Pile o Common Crawl o C4 actúan inicialmente de manera independiente de ChatGPT, pero luego son incorporados por ChatGPT y otros modelos de inteligencia artificial para el entrenamiento de grandes modelos lingüísticos. De este modo, un problema se convierte en varios problemas, uno por cada lector de datos.

¿Cómo se eliminan los datos de un modelo de inteligencia artificial existente?

La respuesta corta es: En absoluto. Por lo menos, no hay un procedimiento matemático con el que se puedan borrar datos de un modelo de inteligencia artificial con precisión quirúrgica (o en general).

El único camino actual para borrar datos de un modelo de inteligencia artificial existente es deshacer el modelo y entrenarlo completamente nuevamente. Al reentrenar, no se consideran los datos a eliminar en la formación.

Los datos de un modelo existente de Inteligencia Artificial no pueden ser borrados.
Hasta la fecha y por el momento.

Suena extremadamente complicado y caro. Exactamente eso es lo que es. Un modelo de Inteligencia Artificial desde cero hasta entrenarlo, especialmente para grandes modelos de lenguaje, es extremadamente laborioso, muy caro y dura una eternidad, incluso en enormes granjas de servidores. Un servidor de IA consume mucha energía eléctrica y es muy caro porque utiliza al menos una tarjeta gráfica cara o varias para realizar los cálculos extremadamente largos en un tiempo aceptable.

Una forma práctica pero poco agradable de obtener los datos de un sistema de inteligencia artificial, al menos oficialmente, es hacer que la respuesta del modelo de IA pase por un filtro. El filtro elimina entonces todas las apariciones de un nombre de persona o un número de teléfono determinados. Sin embargo, esto no es posible con certeza. Además, los datos también están disponibles cuando se encuentran en el modelo, pero no se devuelven como respuesta. De manera similar, es con la cuenta de correo electrónico de un contacto anterior que quería borrar sus datos, pero los datos no habían sido borrados. Al siguiente control por parte de una autoridad de supervisión o persecución penal, que puede ser poco común, o al próximo derrame de datos debido a un ataque hacker, el dilema entonces se hará visible para todos.

¿Qué cambia realmente con la inteligencia artificial?

Búsquedas ya dan respuestas desde contenido leído. Estas respuestas también pueden no ser compatibles con los hechos. Sobre esto, al menos ninguna autoridad de protección de datos se ha quejado, según se sabe.

Los chatbots impulsados por AI pueden dar respuestas en forma nueva, lo que se conoce como abstracción. En lugar de una cita, el usuario recibe un texto en nuevas palabras. Aquí pueden surgir fácilmente respuestas incorrectas o falsas.

En medios sociales la cantidad de falsas afirmaciones a costa de personas no es precisamente baja. Por lo tanto, la emoción especialmente creada por la AI no puede ser completamente comprendida. Las declaraciones actuales van un poco en dirección al activismo.

En honor a muchos de ellos, se hace notar que lo desconocido ("la IA") parece generar muchas preocupaciones legítimas, por lo que probablemente querrían hacer algo al respecto. Que de esto surgen deseos que no son realizables es análogo al § 26 TDDDG, que fue dictado a la ley por lobistas.

El control sobre sus propios datos

En realidad nadie tiene el control técnico sobre sus propios datos, una vez que pueden caer en manos ajenas, por ejemplo, mediante la publicación en un sitio web o al utilizar/poner a disposición los datos en una plataforma de redes sociales.

Probablemente el comisionado federal de protección de datos se refiere a la supervisión de sus propios datos contra su uso en modelos de Inteligencia Artificial plataformas específicas, donde una persona es titular de un cuenta. Este caso es relevante y importante, pero no tiene nada que ver con la IA en particular. Por supuesto, todos los datos personales deben ser procesados únicamente según la RGPD, ya sea a través de una IA o de otra manera.

Resumen

Los datos personales no pueden ser identificados con precisión como tales. Ni a un hombre ni a una máquina se les ha logrado esto. Esto será así hasta la eternidad, a menos que Artículo 4 Número 1 DSGVO, que define qué son los datos personales, cambie.

Los datos no pueden ser bloqueados contra su uso en modelos de Inteligencia Artificial. Este problema podría resolverse únicamente desde un punto de vista legal. Técnicamente nunca es seguro resolverlo. En lugar de eso, se tendría que confiar en que los crawlers respeten las directrices (preferencias) de una página web. Allí es casi más seguro confiar en Microsoft, a pesar de las enormes vulnerabilidades de seguridad que la empresa ha generado, ignorado y minimizado.

La inteligencia artificial no puede ser regulada de manera satisfactoria, a pesar del deseo de hacerlo de la manera más transparente posible.
Los deseos no cambian las fronteras objetivas de la realidad.

Los datos no pueden ser borrados de modelos de inteligencia artificial existentes. Este problema podría ser resoluble en teoría. Es más probable que los modelos de IA sean simplemente recalcuados pronto, ya que las tarjetas gráficas (GPUs) han mejorado mucho y se han vuelto mucho más baratas.

Conclusión

El deseo de regulación de la IA es comprensible. Pero conduce a demandas que son insatisfacibles y prácticamente imposibles. Si se acepta esto, para dar la impresión de cumplir con las obligaciones políticas o si es ignorancia, sea lo que sea.

Ob Daten personenbezogen sind, kann allgemein nicht entschieden werden. Vielleicht hilft eine intergalaktische Analyse?

Una inteligencia artificial se comporta a sí misma como un ser humano. Los humanos suelen ser inconfiables. Se nota especialmente al hacer una cita para la próxima reunión. Incluso los llamados expertos llegan a resultados falsos o malos con frecuencia. ¿Por qué debería ser diferente en un programa de computadora que imita la función intelectual del hombre ([1]) ?

En lugar de hacer demandas imposibles, podrían ser sancionadas muy grandes empresas a fondo y consecuentemente, rápidamente y dolorosamente. A partir de las conclusiones obtenidas se pueden derivar medidas adicionales.

Independientemente del tipo de reglas de comportamiento en el mercado futuro se debe destacar que los enormes potenciales, ya sean positivos o negativos, de las aplicaciones de Inteligencia Artificial no pueden ser detenidos. Cualquiera puede construir un modelo de IA bajo su escritorio o descargar y utilizar uno existente en cualquier momento. Sería muy contraproducente si estos modelos de IA se permitieran usar en todo el mundo, excepto en Alemania o la UE.

Mensajes clave

Los datos personales, incluso de fuentes públicas, no deberían usarse para entrenar modelos de inteligencia artificial.

Bloquear datos para que no se usen en modelos de inteligencia artificial es actualmente imposible.

Eliminar datos de modelos de inteligencia artificial es extremadamente difícil y costoso.

El deseo de regular la inteligencia artificial es comprensible, pero las demandas actuales son irrealizables.

La inteligencia artificial tiene un gran potencial, tanto positivo como negativo, y es difícil de controlar.

Acerca de

Alle Bilder in diesem Beitrag wurden von einem Computer-Programm erzeugt. Verwendet wurde das selbst entwickelte KI-System von Dr. DSGVO, ähnlich zu Midjourney. Die Bilder dürfen auf Webseiten frei verwendet werden, mit der Bitte, eine Verlinkung auf diesen Blog zu setzen.