¿Cómo almacena un modelo de lenguaje de IA los datos?

Los modelos de lenguaje de IA almacenan datos en forma de secuencias numéricas, llamadas vectores. Estos vectores se generan mediante el análisis de combinaciones de palabras y su frecuencia, para reconocer relaciones semánticas entre las palabras.

¿Puede un modelo de lenguaje de IA contener datos personales?

Sí, potencialmente. Si se almacenan nombres propios o identificadores como números de teléfono o números de identificación fiscal en los vectores, un modelo de lenguaje de IA podría contener datos personales. Sin embargo, en este caso generalmente se utiliza el vocabulario sin identificadores directos.

¿Aumenta el almacenamiento de tokens la probabilidad de que los datos personales estén incluidos en un modelo de IA?

Sí, el almacenamiento de tokens, especialmente fragmentos de palabras, aumenta la probabilidad de que se incluyan datos personales en un modelo de IA. Dado que el modelo almacena palabras en fragmentos, existe el riesgo de que información sensible se guarde en estos fragmentos.

¿Los modelos de lenguaje de IA contienen fundamentalmente datos personales?

Sí, los modelos de lenguaje de IA contienen fundamentalmente datos personales, especialmente cuando se guardan fragmentos de palabras que incluyen nombres u otra información sensible. La mera existencia de un nombre en un contexto también puede considerarse como datos personales.

¿Cómo se guardan los nombres en los modelos de IA?

Los nombres a menudo se guardan en modelos de IA en forma de fragmentos de palabras que consisten en letras individuales. Esto es más probable cuando el nombre no tiene secuencias de letras comunes y, por lo tanto, es único. El almacenamiento se realiza de forma anónima para proteger los datos.

¿Se pueden extraer datos personales de los modelos de IA?

Sí, los modelos de IA pueden almacenar y recuperar datos personales, especialmente si durante su entrenamiento se les alimentó con dicha información. Esto se evidencia, por ejemplo, por la posibilidad de proporcionar detalles como fechas de nacimiento o historias clínicas.

¿Contienen estos modelos datos personales?

Aunque los modelos de lenguaje de IA pueden almacenar frases y oraciones, el almacenamiento de datos personales no es necesariamente inherente. El almacenamiento a menudo se realiza de una manera que conserva la forma original de los datos, sin un almacenamiento explícito de información personal.

¿Qué componentes son necesarios para utilizar un modelo de IA?

Para utilizar un modelo de IA, se necesita el propio modelo de IA, el tokenizador, el vocabulario y las bibliotecas estándar asociadas, como la biblioteca 'transformers'. Estos componentes permiten cargar, evaluar y consultar el modelo.

Sichere KI, digitaler Datenschutz & Website-Compliance

Los datos se almacenan en forma de columnas numéricas por modelos de lenguaje de inteligencia artificial. ¿Cómo funciona exactamente eso y por qué se desvela la función intelectual del ser humano? ¿Hay en el modelo de IA después del entrenamiento datos personales o incluso protegidos por derechos de autor?

Introducción

La marcha triunfal de la IA actual comenzó en el año 2017, cuando se inventó el enfoque del Transformer. Él trabaja con un codificador y decodificador y utiliza lo que se llaman inmersiones como portadores de significado (semántica). Una inmersión es una serie numérica que también se llama vector.

En modelos de lenguaje, la idea es determinar el significado de una palabra a través de su contexto y almacenarlo como vector. El contexto de una palabra son especialmente las otras palabras en el mismo enunciado. El significado surge así del análisis del coocurrencia de varios términos.

Una inteligencia artificial actual funciona de tal manera que cualquier tipo de datos se convierte en series numéricas. Tipos de datos son por ejemplo textos (en modelos de lenguaje), habla, imágenes, videos, música, valores de sensores de temperatura, datos meteorológicos, cotizaciones bursátiles, valores sismológicos, datos de sensores de olfato, valores de sensores UV y cualquier otro que pueda expresarse en números, es decir, digitalizado.

En modelos de lenguaje de AI, a veces se almacenan palabras enteras.
También se aplica a modelos más recientes de ChatGPT, véase el artículo.

Esto se ajusta a mi opinión de manera cualitativa exactamente a cómo funciona el cerebro humano. El cerebro funciona primero en modo analógico, el ordenador digital. Dado que las neuronas biológicas del hombre trabajan con un potencial de acción, se convierte rápidamente en digital.

Para modelos de lenguaje de inteligencia artificial se dividen los textos en unidades como oraciones y luego se convierten en series numéricas cargadas semánticamente. Esto se logra mediante el algoritmo llamado Word2Vec, que calcula un vector para cada palabra en un contexto. Actualmente existen métodos mejores que Word2Vec que funcionan de manera similar (por ejemplo, los denominados Sentence Transformer).

Cálculo de vectores matriciales

Dos vectores pueden ser restados entre sí mediante matemática clásica. De igual manera se puede calcular su diferencia. La diferencia es aquí la semejanza o diferenciación semántica de dos conceptos, expresada a través de sus vectores.

Para un gran conjunto de documentos se puede calcular los vectores para todos los posibles términos que aparezcan en el conjunto de documentos (corpus) con .Word2Vec. El sistema no tiene ninguna comprensión previa de la gramática alemana (o inglesa). Sin embargo, "sabe" a través de comparaciones de vectores cuáles términos se comportan semánticamente entre sí.

Einige populäre conclusions, el mit Word2Vec möglich gemacht werden, sind:

Polonia se comporta con _Varsovia como España con Madrid (el término en negrita es el que Word2Vec ha determinado al introducir los primeros tres términos en cursiva).
La palabra alemana Katze corresponde a la palabra inglesa gato (con Word2Vec se pueden realizar traducciones, y también de manera contextual: "caracol" puede ser un animal, pero también una instalación para la recolección).
Canciller más mujer menos hombre = mujer canciller

La base de todo esto son solo palabras que aparecen en contexto, es decir, en oraciones. De la misma manera, las personas pueden entender textos, con la diferencia actualmente existente de que las máquinas tienen mucha menos experiencia ambiental que los humanos. Esto cambiará pronto y llevará a que los robots sean las existencias más inteligentes en este planeta (y otros planetas). A menos que el hombre se haya eliminado a sí mismo de alguna otra manera antes de eso y ya no pueda construir estos robots.

De vuelta a la pregunta de cómo un modelo de lenguaje de Inteligencia Artificial almacena datos, es decir, conceptos y si estos pueden ser personales. Un enlace personal se debería confirmar si nombres propios o identificadores como números de teléfono, matrículas de coche o números de identificación fiscal Reconstruyible se almacenaran en el modelo de IA.

Ejemplo de la almacenación de datos en el modelo de Inteligencia Artificial

El siguiente captura de pantalla muestra un extracto del vocabulario de un modelo de IA alemán que sigue la arquitectura GPT-2 de OpenAI, que en contraste con sus sucesores ha sido hecho público.

Auszug aus den 52.000 Vokabeln eines deutschen GPT-2 Modells

En total, el vocabulario consta de 52.000 palabras elegidas al azar. La razón por la que esta cantidad es relativamente baja (considerando el número mayor de palabras existentes en alemán) se explica a continuación.

Pares de datos son reconocibles. El primer parte está codificada en amarillo en la imagen y representa un término. La segunda parte es el índice o identificador del término y aquí se puede ver en azul.

Al considerar los términos, se observa que a muchos les precede un símbolo molesto. Esto se debe a la codificación específica del vocabulario y se resolverá más abajo.

Los términos fueron determinados utilizando numerosos textos para el entrenamiento del modelo de lenguaje. El corpus de los textos se formó en el ejemplo real existente mediante una selección de Wikipedia, el corpus del Bookshop de la UE , Open Subtitles, CommonCrawl , ParaCrawl y News Crawl . ([1]) ([2]) ([3])

Los textos fueron entonces descompuestos en palabras, lo que supone una cierta desafío. Este problema se asigna al campo de la NLP. NLP significa Procesamiento de Lenguaje Natural y se refiere a la procesamiento de textos de lenguaje natural (o otras modalidades). Incluso frameworks muy extendidos y bien desarrollados como Scipy y Spacy permiten muy a menudo errores que el desarrollador de inteligencia artificial solo puede controlar, utilizando sus propias rutinas para la re-interpretación.

Los modelos de lenguaje AI pueden reproducir frases enteras con fidelidad a las palabras, que por lo tanto están almacenadas en el modelo de lenguaje de esta manera.
Aplica en general para ChatGPT-3.5 y ChatGPT-4, ver artículo.

Al obtener los términos se producen muchos resultados impuros, como se muestra a continuación. Los términos se obtienen de manera convencional, es decir, no mediante nuevas técnicas de Inteligencia Artificial. Representan una Etapa previa. Sólo después de la obtención de los términos se aplica la nueva metodología de IA, utilizando los términos para crear un modelo de lenguaje de IA, lo que se denomina Training. Los modelos entrenados se denominan como pre-entrenados, y no como modelos entrenados. La razón es que es posible seguir entrenando los modelos, lo cual se conoce como Finetuning. Además, los modelos una vez entrenados, es decir, creados, pueden utilizarse directamente. Son por tanto previamente configurados (pre-trained).

Algunos de los términos no se leen como palabras válidas. Aquí una selección de los términos mostrados anteriormente junto con un breve comentario (detalles y explicaciones adicionales más abajo):

derechspopul → Parte de palabra (comienzo de la palabra). La palabra completa probablemente se llame "derechpopulistisch" (con postfixos opcionales "e" o "en").
Bemessungs → Posiblemente surgido por palabra con guión de enlace (base de cálculo – fundamentación).
Memmingen → Denominación correcta (al menos existente) de una ciudad alemana.
Tasman → Teilwort (Wortanfang). Ganzes Wort heißt wahrscheinlich „Tasmanien“.
Lines férreas → Ä, Ö, Ü y ß se codifican de manera ilegible, lo que hace que el término parezca extraño solo para los humanos, pero no para un intérprete mecánico.
Italian → Es posible que un texto en alemán contuviera una palabra en inglés. No es casualidad que ChatGPT-3 también pueda hablar alemán, aunque haya sido entrenado principalmente para el idioma inglés. También podría ser que textos leídos en otra lengua que no sea alemana se hayan reconocido erróneamente como parte del alemán.

El tokenizador como generador de palabras o fragmentos de palabras

Las palabras se extraen de los textos mediante un llamado Tokenizador. Un token es una unidad semántica, aquí una palabra. Para GPT2 existe el Tokenizer con el nombre técnico GPT2Tokenizer.

El tokenizador no solo tiene la tarea de identificar palabras, es decir, encontrar límites entre palabras. Más bien, el tokenizador intenta asignar un significado a una palabra en forma numérica. El tokenizador GPT-2 le da a una palabra un significado diferente si comienza o termina una oración en lugar de estar en medio de ella.

Este lleva a veces a resultados ridículamente malos, como el siguiente ejemplo oficial del tokenizador muestra (ver enlace anterior dos párrafos antes):

El conjunto de entrada "Hola Mundo" conduce a la siguiente salida del Tokenizer: [15496, 995]. De las dos palabras se calculan así dos números que deberían capturar el significado del enunciado.

Que los modelos de lenguaje de IA modernos guarden fragmentos de palabras y palabras enteras en forma de token, no es una condición necesaria para la existencia de datos personales en un modelo de IA, pero sí agrava el problema.

El conjunto de entrada casi idéntico "Hola Mundo", al que se le había agregado (un espacio vacío, pero insignificante para el hombre) un espacio en blanco antes, produce por otro lado la otra salida [18435, 995]. "Hola" obtiene así el valor 15496, mientras que "Hola" con un espacio en blanco delante recibe el otro valor 18435.

Generar dos números diferentes para un mismo "mismo" palabra significa aquí introducir algo falso en el modelo de lenguaje de inteligencia artificial.

El tokenizador de GPT-2 es un denominado Byte-Pair-Encoding tokenizador o Tokenizador BPE. El BPE codifica palabras en llamados Token. Los tokens representan fragmentos de palabras y también tienen una función compresora, ya que los fragmentos de palabras pueden aparecer en varios términos y los términos se pueden almacenar de manera más eficiente. Un término puede ser almacenado en su totalidad, por lo que equivale exactamente a un token.

Es puede explicarse de esta manera cómo surgen las palabras parciales anteriores. Una simple verificación confirma al menos en lo fundamental que la palabra fragmento "Bemessungs" se derivó del vocablo completo "Bemessungsgrundlage", del vocablo completo "Bemessungs-Grundlage" o del vocablo completo "Bemessungsgrundlagen". A modo de ilustración, a continuación se presentan los siguientes registros del vocabulario del modelo de lenguaje de inteligencia artificial GPT-2 en alemán:

"Calificación"
"Fundamento"
"Fundamento"
"Fundamentos"
"Fundamento"

El primer término "ĠBemessungs" tiene un primer carácter que parece extraño, que se ha impreso en negrita aquí para ilustrar. Este carácter indica que el token (fragmento de palabra) es un comienzo de palabra.

Los términos dos a cuatro no son comienzos de palabras, porque su primer carácter no es un carácter de control. La entrada "base" en el vocabulario indica que un palabra compuesta con guión como "base de medida" existe en el corpus del texto de los datos de entrenamiento ( "medida de base" como comienzo de palabra más "base" como final de palabra).

El término cinco por otro lado es "base" y se debe a la primera letra, que es un signo de puntuación, considerarlo como inicio de palabra. Los registros dos y cinco en la lista anterior son entonces dos (al menos desde el punto de vista del modelo de inteligencia artificial) fragmentos de palabras diferentes. Por un lado está "base" como final de palabra, por otro lado está "base" como inicio de palabra. Solo para completar: Un fragmento de palabra que representa un inicio de palabra puede considerarse en realidad como una palabra completa, a la cual no se le asigna necesariamente un final de palabra como posible complemento. "Base" es obviamente una palabra independiente para el lector alemán. Una palabra como "creación de base" (aquí algo construido para tener un ejemplo) tiene el mismo inicio de palabra, pero además un sufijo adicional y por lo tanto una significación diferente.

En general, se puede suponer que los modelos de lenguaje de IA contienen tanto datos personales como relevantes para los derechos de autor.
Razones: Ver el artículo.

La verificación analógica puede realizarse para las frases "Tasman" y "rechtspopul" mencionadas anteriormente y mostradas en la imagen. "Tasman" apunta de manera bastante clara a "Tasmania". Y efectivamente, se encuentra el término "ien" en el vocabulario del modelo GPT-2. Si este término no existiera, la explicación anterior tendría un poco menos de sentido. Sin embargo, esto no es así. También para "rechtspopul" se encuentran las terminaciones esperadas (terminaciones de palabras) "istisch", "istische", "istischen", "istischer" y "istisches". Solo falta la terminación "istischem", lo que está bien porque los textos de entrenamiento no necesariamente deben contener este término.

Cuanto menos frecuente sea una palabra en el corpus de datos de entrenamiento, más larga será su almacenación en el vocabulario. Una palabra que solo aparece una vez probablemente se almacena sin cambios. Un término muy común compuesto por muchos caracteres puede almacenarse en forma de varios fragmentos de palabras, cada uno de los cuales consta de dos o tres caracteres. Para este tipo de términos, "ĠAsylpolitik" podría ser un ejemplo (el primer carácter es el símbolo de control que indica que el término es una palabra inicial o un término completo). En cualquier caso, se pueden ver directamente los fragmentos de palabras opcionales como terminaciones "er", "erin" y "erinnen" y sus formas de conjugación (por lo tanto, Asylpolitiker, Asylpolitikerin etc.).

La superficie de OpenAI muestra cómo se generan tokens a partir de un texto de entrada. Aquí hay un ejemplo real:

Del texto de entrada "Hola, este es un texto", que consta de 23 caracteres, se generan 10 tokens. Los tokens están coloreados en la imagen inferior. Entre ellos hay "Hall", "o", ", ", ",", "d", "as" y así sucesivamente. En este caso, el único token que representa una palabra completa es el para el término "texto" del prompt de entrada. Una interfaz web aún más visual permite la selección de modelos de chat específicos y muestra los costos esperados para la tokenización. Advertencia: El proceso total de un chat incluye pasos adicionales. En particular, cuando se consultan documentos que se suben, aumentan los costos. ([1])

Un fragmento de palabra podría ser ya personalizado. Aunque es mucho menos probable que un término completo, que puede estar compuesto por varios fragmentos de palabras, es posible. Además, los nombres con caracteres especiales (por ejemplo, letras de otras lenguas que no se encuentran en el conjunto estándar de caracteres alemán) son raramente divididos en fragmentos de palabra porque no tienen secuencias de letras comunes con otros términos. Por lo tanto, suelen aparecer como palabras completas y por lo tanto en texto claro en el vocabulario de la IA.

Un palabra o un nombre propio puede ser personalizado. Si bien cuestionarse si la existencia aislada de un nombre en una colección de palabras es un problema, no se puede descartar. Sin embargo, cuando un nombre o otro valor de datos personalizados son mencionados en un contexto, la situación cambia. Un tal contexto se llama oración. Más abajo más sobre eso. Antes de preguntarse cómo un modelo de inteligencia artificial genera palabras.

¿Cómo se vuelven a formar palabras de fragmentos de palabras?

Al menos cuando se consulta un modelo de inteligencia artificial, la entrada del usuario (también llamada solicitud) se utiliza para generar una respuesta. Esta respuesta consta, como muestra la experiencia cotidiana con ChatGPT y otros modelos de lenguaje, de nombres y términos completos. Por lo tanto, está claro que el resultado de consultar un modelo de inteligencia artificial es en forma de palabras insertadas en un contexto. Este contexto se forma a través de oraciones.

Es es interesante preguntarse si se puede decir que un modelo de Inteligencia Artificial también en estado de reposo puede contener datos personales. Ya existe esta peligra para fragmentos de palabras, como se ha mostrado anteriormente.

¿Qué son los datos personales?

Los datos personales también incluyen los que pseudónimo existen. Pseudónimo significa que un valor de datos se vuelve personalizado nuevamente después de la descodificación. Si bien no importa si la descodificación se realiza en realidad o solo es posible objetivamente, consulte Artículo 4 Número 1 DSGVO o también el Fallo Breyer del TJUE (las direcciones IP son datos personales porque existe la posibilidad objetiva de determinar al titular del contrato).

¿Cómo decodifica un sistema de Inteligencia Artificial series numéricas hacia palabras?

Al principio, durante el entrenamiento de un modelo de lenguaje de inteligencia artificial, se generan fragmentos de palabras que se llaman tokens, como se describió anteriormente. Cada token es representado por un número y con eso los computadores pueden trabajar mejor.

Luego se generan series de números (que se llaman vectores) a partir de oraciones individuales compuestas por tokens, que representan llamadas "inmersiones semánticas".

Estas inmersiones, por tanto vectores, por tanto series de números, se almacenan en una red neuronal artificial de un modelo de IA. El modelo consiste, por lo tanto, "solo" en series de números. Esto es una representación algo simplificada e imprecisa, pero que debería ser suficiente para la consideración. Una colección de vectores que se relaciona entre sí se denomina Tensor.

Un modelo de lenguaje de Inteligencia Artificial almacena datos personales de manera anónima. Los datos anónimos son datos personales.
Compare artículo y artículo 4 núm. 1 del RGPD.

Ahora que un usuario formula una pregunta en forma de promp a la modelo AI, también se convierte la solicitud del usuario en series numéricas, es decir, vectores, o sea, inmersiones. Para ello se utiliza el tokenizador descrito anteriormente.

El modelo de IA compara vectores (= solicitud del usuario) con vectores (= "conocimiento" que se le ha enseñado al modelo de IA mediante datos de entrenamiento). El resultado son nuevamente vectores (uno o más, según la longitud de la salida del modelo de IA).

Los vectores de salida, es decir, las series numéricas, es decir, las inmersiones semánticas, se descodifican nuevamente mediante el tokenizador mencionado anteriormente. Se forma un conjunto de palabras que denominamos oraciones.

El tokenizador codifica y descodifica así los textos. Codifica los textos durante la formación del modelo de IA y para convertir un prompt en una forma que el modelo de IA entiende. Después de la respuesta del modelo de IA, hay series numéricas que el tokenizador comprende y puede volver a traducir nuevamente en palabras según la asignación de fragmentos de palabras a números (ver más arriba).

¿Qué información contiene el modelo de IA?

Supongamos que los fragmentos de palabras (que también pueden representar palabras enteras o nombres) no contienen ni datos personales críticos. De manera inocua podría ser un nombre, por ejemplo. ¿Qué hay de malo en saber que existe una persona llamada John Doe? No veo problema si no hay más conocimiento asociado con ese nombre. Si falta el contexto, la conocencia de un nombre es probablemente inocua. De manera diferente puede parecer una cosa al considerar una número de teléfono o dirección de correo electrónico, porque estos pueden tener riesgo de publicidad poco ética, etc.

Es probable que un modelo de Inteligencia Artificial guarde datos de tal manera que puedan considerarse como personales? La respuesta breve es Sí. Aquí está la prueba:

Se le hará la siguiente pregunta a ChatGPT, a la que ChatGPT responderá con esa respuesta:

Pregúntale a ChatGPT: "Cita el primer párrafo del artículo 1 de la RGPD textualmente" La respuesta de ChatGPT es: "El artículo 1, apartado 1 de la Regulación General de Protección de Datos (RGPD) establece: 'Esta regulación contiene disposiciones para proteger a las personas físicas en lo que respecta al tratamiento de datos personales y el libre tránsito de dichos datos'"
Los modelos de lenguaje AI pueden reproducir textos entrenados palabra por palabra. Aquí un ejemplo con ChatGPT-3.5

ChatGPT responde correctamente a la pregunta aquí con un exacto citado, es evidente que se debe suponer que frases enteras individuales están exactamente en el modelo de IA.

En el ejemplo anterior no se incluyen datos personales, pero podrían estar presentes en cualquier momento. Lo que importa es la pregunta. El ejemplo tiene como objetivo demostrar que en un modelo de lenguaje de inteligencia artificial los datos se almacenan exactamente. A partir de fragmentos de palabras se forman no solo palabras sino también oraciones enteras. Por cierto, en Artículo 99 DSGVO se encuentran nombres personales.

Otro ejemplo de la 28.11.2023:

Como se puede ver, cualquier dato personalizado puede ser extraído del modelo de lenguaje (aquí: ChatGPT!) mediante un prompt inocuo. Todo esto también es automático, ya que ChatGPT ofrece una interfaz de programación de aplicaciones (API). La fuente anterior lo ha hecho exactamente así:

Using only $200 USD worth of queries to ChatGPT (gpt-3.5- turbo), we are able to extract over 10,000 unique verbatim- memorized training examples.
Ver la misma página.

La siguiente afirmación sería probablemente relevante legalmente si se repitiera por un modelo de Inteligencia Artificial, porque estas declaraciones estarían sujetas a la protección de datos: “Miri Maiering-Höflacher de Tuttlingen tiene cumpleaños el 17.04.1994 y a pesar de sus cabellos rojos completos en ese momento ahora no tiene cabello alguno, porque padece cáncer del tipo X y enfermedad Y que se le ha transmitido debido a sus actividades en la Reeperbahn.”

Fundamentos técnicos

La siguiente imagen muestra que en un Transformador, que es la base de todos los modelos de lenguaje actuales, se codifican datos de posición de las entradas de texto.

Fuente: Dr DSGVO (basado en Mehreen Saeed).

De una entrada de texto se forman primero Tokens, que luego se convierten en vectores de palabras. Los vectores de palabras son básicamente series numéricas. Además, se codifica la posición del palabra o token en el texto de entrada. La incorporación de una palabra más la codificación de su posición da como resultado la salida para los pasos de procesamiento posteriores en el Transformer y por lo tanto en el modelo de lenguaje.

La transformación se basa en un artículo revolucionario titulado Attention Is All You Need de 2017. Este año puede considerarse como el comienzo de la era moderna de la inteligencia artificial. En este artículo se menciona:

Self-attention, sometimes called intra-attention, is an attention mechanism relating different positions of a single sequence in order to compute a representation of the sequence.
Cita del papel Attention Is All You Need –

La pasaje de texto dice que con un procedimiento matemático llamado Atención ( "Atención") se consideran las diferentes posiciones de los datos de entrada para convertirlos en una estructura cargada semánticamente. La atención aquí es una capacidad que reconoce, a partir de los datos de entrada, aquellas que parecen importantes para un contexto dado (nada más que este razonamiento con alta tasa de éxito también lo hace el hombre).

Para afinar el enfoque se utilizan lo que se llaman Cabezas múltiples. Un cabezal („Head“) es aquí una capa que recibe una entrada (en el modelo de lenguaje, esto es un texto). Stefania Cristina escribe al respecto:

The idea behind multi-head attention is to allow the attention function to extract information from different representation subspaces, which would otherwise be impossible with a single attention head.
Fuente: Stefania Cristina.

Significa que se utiliza Multi-Head Attention para mejorar las habilidades de un modelo de lenguaje. De ello se deduce también que una reproducción literal de los datos, que se han proporcionado a un modelo de lenguaje en forma de datos de entrenamiento, es algo menos probable que si solo se utilizara una cabeza de entrada. Como muestra el ejemplo anterior de ChatGPT, sin embargo, la propiedad del modelo de lenguaje de reproducir textos aprendidos literalmente no se pierde con eso.

En realidad, cada frase o oración se almacena en el modelo de lenguaje de manera lo más única posible. La siguiente imagen ilustra esto. Se representan las representaciones internas de dos oraciones:

Technical Phrase: „to understand machine learning algorithms you need to understand concepts such as gradient of a function, Hessians of a matrix and optimization etc“.
Divination: „patrick henry said give me liberty or give me death when he addressed the second virginia convention in march“.

Nota técnica: "hessiano" no tiene nada que ver con Hessen, la región con la más inactiva autoridad de protección de datos de Alemania, sino que se refiere a la forma normal de Hesse o matriz de Hesse.

La imagen muestra la representación gráfica de las representaciones numéricas internas de las dos frases mencionadas. A la izquierda del cuadro se representa la frase técnica y a la derecha la frase sabia.

Ambas representaciones parecen similares al primer vistazo, pero se diferencian en gran medida. Cada otra frase debería tener una representación completamente diferente, de modo que cada frase esté registrada internamente de manera única en un modelo lingüístico.

Especially para la traducción de textos se utilizan estructuras Encoder-Decoder. En el encoder se ingresa el texto a traducir. Del decoder se obtiene el texto traducido. Ambas partes se entrenan con datos de entrenamiento con pares de textos de entrada y textos de referencia traducidos.

Los dos enunciados siguientes pueden ser convertidos entre sí mediante la traducción del texto de entrada al texto de salida de un modelo de lenguaje de inteligencia artificial.

Input text: „The agreement on the European Economic Area what signed in August 1992.“
Salida (Traducción): “Se firmó el acuerdo sobre la zona económica europea en agosto de 1992.”

Visualmente, la representación interna de palabras de entrada a salida puede ser representada de la siguiente manera:

Quelle: Badanau et al., rote Umrandung selbst vorgenommen.

Arriba se ven las palabras del texto de entrada a traducir. A la izquierda se muestran las palabras del texto traducido. Los puntos de intersección entre dos palabras muestran con colores cómo fuerte es la correlación entre un par de palabras. El blanco significa la mayor correlación (blanco). Así, la palabra "signé" está maximalmente correlacionada con "signed", lo que parece correcto porque ambos términos en el contexto dado son equivalentes en francés e inglés. Por otro lado, las dos palabras francesas "a" y "éte" están solo moderadamente (gris) correlacionadas con la palabra inglesa "what", porque ambas palabras francesas se traducen a una sola palabra inglesa. El área rodeada de rojo muestra las codificaciones de color correspondientes.

Un ejemplo adicional muestra cómo se almacena la posición de una palabra en el modelo de inteligencia artificial para determinar las palabras que, en un mismo enunciado, son semánticamente relacionadas con la palabra actual que está siendo procesada por el modelo de lenguaje:

Cada línea de texto mencionada muestra desde arriba hacia abajo el siguiente paso de procesamiento del texto de entrada en el modelo de IA. En color rojo se imprime la palabra actualmente procesada. Con color azul están subrayados las palabras reconocidas por el modelo de lenguaje como relevantes con respecto a la palabra actual. Cuanto más oscuro sea el azul, más relevante será la palabra.

Con los ejemplos de representación interna de palabras en modelos de lenguaje de IA que se muestran, se muestra que no solo se almacenan posiciones de palabras en un modelo de lenguaje de IA, sino también frases y oraciones enteras, por lo que son reconstruibles cuando se le hace una pregunta a un modelo de IA. Sin codificación de posición, un modelo de IA no proporcionaría resultados útiles, al menos no para los modelos de lenguaje habituales con las tareas previstas (en esencia: generación de texto).

Una publicación de 2018 (por lo tanto algo desactualizada) menciona que el Transformador no proporciona una almacenamiento especialmente preciso de información de posición:

The transformer has no recurrent or convolutional structure, even with the positional encoding added to the embedding vector, the sequential order is only weakly incorporated.
Quelle: Lillian Weng.

Sin embargo, parece que esto no afecta realmente negativamente la capacidad de los modelos lingüísticos actuales para reproducir oraciones completas en su forma original y, por lo tanto, relevantes desde el punto de vista del derecho a la protección de datos (si se mencionan datos personales). También parece ser un argumento que el enfoque mencionado en el artículo citado, llamado SNAIL (Simple Neural Attention Meta-Learner), no ha tenido éxito. SNAIL debería haber curado la supuesta debilidad de los transformadores para almacenar información sobre posiciones. Dado que SNAIL ya no es relevante actualmente y los transformadores sí lo son, y los transformadores pueden citar oraciones completas sin errores, la afirmación anterior de Weng ya no tiene relevancia.

Debería suponerse en principio que un modelo de lenguaje de Inteligencia Artificial (IA) basado en un procedimiento moderno como Transformer puede guardar datos de las entradas de entrenamiento en su forma original, aunque esto no ocurra siempre.

Un par de palabras sobre el Transformador

El enfoque del Transformer en su forma original, tal como se propone en el artículo "Attention Is All You Need“, se basa en la arquitectura de codificador-decodificador mencionada anteriormente.

Quelle: Vaswani et. al., rote Markierungen selbst hinzugefügt.

Como se puede ver, tanto el Encoder como el Decoder se basan en codificaciones de posición y también en embeddings (Embeddings = Vectores = Series numéricas).

Actualmente existen otras arquitecturas de Transformadores, a saber:

Códigoador-Decodificador: Enfoque original, especialmente para traducciones o resúmenes de texto,
Decoder-only: Kausale LLMs, etwa Für Chatbots wie ChatGPT, aber auch LLaMA, Bard, T5 und andere.
Modelos de lenguaje solo codificadores, como BERT.

Las diferencias están en el detalle y no pueden ser examinadas aquí más a fondo. Esencialmente, todas las arquitecturas de Transformer tienen propiedades analógicas respecto al almacenamiento de datos ( "entrenamiento") y la recuperación de los datos entrenados.

¿Qué se necesita para obtener información de un modelo de Inteligencia Artificial?

Un modelo de Inteligencia Artificial por sí solo, sin información complementaria, representa una simple acumulación de números si se simplifica la perspectiva. De ello probablemente no surgirá ningún problema de protección de datos.

Sin embargo, nadie almacena un modelo de IA sin tener la posibilidad o deseo de utilizar también el modelo de IA. Los componentes necesarios para utilizar un modelo de IA son:

Un tokenizador: Un código de programa que se puede descargar en forma estándar en cualquier momento si ha sido eliminado temporalmente.
Vocabulario (fragmentos de palabras) para el tokenizador: Un archivo de texto o archivo con caracteres imprescindibles en su mayoría.
Modelo AI: Lista de series numéricas (una descripción simplificada).
Un transformador: Un código de programa que se puede descargar en forma estándar en cualquier momento si ha sido eliminado temporalmente.

Una recopilación real de los datos centrales de un modelo de Inteligencia Artificial se muestra aquí:

Die Daten, aus denen ein KI-Modell besteht.

Estas datos se proporcionan para que alguien pueda descargar y utilizar el modelo de inteligencia artificial GPT2. La archivo principal es pytorch_model.bin y tiene una tamaño aproximado de 3,7 Gigabytes. El archivo vocab.json contiene los tokens descritos anteriormente. El archivo README.md contiene instrucciones sobre cómo utilizar el modelo. Los otros archivos con la extensión .json son muy pequeños y contienen configuraciones.

Con un modelo de Inteligencia Artificial se comporta como con un archivo ZIP, en el que las archivos están guardados en forma comprimida. Nadie guarda intencionalmente archivos ZIP sin poder acceder a ellos más tarde. Para ello es necesario un programa de ZIP capaz de crear y descomprimir estos archivos.

El analogo con archivos PDF es: Una archivo PDF solo puede ser abierto por quien tenga un visor de PDF. Dichos programas de visor pueden descargarse desde cualquier lugar en cualquier momento. Lo mismo sucede con el código para Tokenizer y Transformer, así como con el vocabulario para un modelo específico de Inteligencia Artificial. Los modelos de IA siempre se ofrecen junto con todos los componentes necesarios, o si no es así, junto con una descripción de dónde pueden ser obtenidos.

Detalles técnicos

En pocas palabras, aquí se pueden mencionar algunas características técnicas. En un modelo de Inteligencia Artificial, los tokens no se almacenan simplemente así. Más bien, contienen información sobre las posiciones de los tokens.

El siguiente código de programa estándar más simple ilumina cómo cargar un modelo GPT entrenado y cómo acceder tanto a la representación interna de los tokens como a sus indicaciones de posición:

from transformers import GPT2LMHeadModel #import library
model = GPT2LMHeadModel.from\_pretrained('gpt2')  # Load AI-Model
token\_embeddings = model.transformer.wte.weight  # Tokens Embeddings
position\_embeddings = model.transformer.wpe.weight  # Token Positionen Embeddings

La biblioteca de Python llamada transformers es un estándar absoluto y puede descargarse en cualquier momento desde Internet. Incluso está disponible bajo licencia abierta.

Los comentarios al final de las líneas comienzan con un cuadrado precedente y explican brevemente qué hace el código del programa. Se utiliza aquí el modelo GPT2, porque a diferencia de los sucesores de OpenAI todavía está disponible gratuitamente. Después de cargar el modelo GPT se puede evaluar. En el ejemplo de código anterior se utilizan para ello las ponderaciones como representación interna de los tokens almacenados en el modelo. De igual manera se leen las ponderaciones para las posiciones de los tokens entre sí.

Para introducir un prompt en un modelo de inteligencia artificial y obtener la respuesta, se podría utilizar el siguiente código:

# Convert question into IDs (tokens)
input\_ids = tokenizer(\["Are Cookies text files?"\], return\_tensors="pt")
# Convert Token-IDS to embeddings
embeds = model.transformer.wte.weight\[input\_ids, :\]
# AI Answer = Embeddings
outputs = model(inputs\_embeds=embeds)
answer = tokenizer.decode(outputs\[0\])
print(answer)

El código muestra los pasos individuales para interrogar un modelo y obtener la respuesta en una forma legible por el hombre. Por lo común, se programa de manera diferente a como se indica aquí en el ejemplo.

Conclusión

Los modelos de lenguaje AI almacenan potencialmente datos personales, ya que almacenan palabras enteras, partes de palabras y relaciones entre palabras (inicios y posibles finales). En un modelo de AI hay al menos datos pseudónimos.

Modelos de lenguaje de inteligencia artificial moderna como ChatGPT y otros modelos basados en el transformador almacenan datos de entrenamiento a nivel de palabra o incluso de oración potencialmente en su forma original.
Las palabras se almacenan potencialmente en forma comprimida (a menudo, pero también sin compresión), de manera legible para los humanos, las frases en forma de referencias a palabras junto con información de posición.

Los modelos de lenguaje de IA son capaces de reproducir frases enteras a partir de datos de entrada palabra por palabra. Aunque esta capacidad no es fiable, debe ser asumida en caso de duda.

De un modelo de Inteligencia Artificial se pueden extraer datos utilizando los datos asociados y bibliotecas estándar. Sin estos componentes, un modelo de IA es inutilizable y en realidad no puede considerarse como tal.

Si un modelo de Inteligencia Artificial se ejecuta localmente en un servidor de IA propio, pueden ser mitigados muchos problemas de datos. Una alta capacidad de rendimiento de modelos locales es especialmente posible en asistentes de preguntas y respuestas, pero también en motores de búsqueda de documentos o generadores de imágenes. Por otro lado, al utilizar modelos de terceros como OpenAI, Microsoft o Google, existe el problema adicional de que los datos de entrada terminan en algún lugar y nadie sabe dónde.

Se recomiendan modelos de lenguaje propios para tareas específicas en la empresa. Estos suelen basarse en modelos entrenados, públicamente disponibles y eficientes. La calidad es a menudo mejor que la de ChatGPT, ya que este sistema pretende hacer todo lo posible y por eso se puede considerar particularmente poco fiable, como muestran simples investigaciones (ver enlace).

Mensajes clave

Los modelos de lenguaje de IA almacenan datos como series numéricas que representan el significado de las palabras en su contexto.

Los modelos de lenguaje de IA aprenden de grandes cantidades de texto y pueden comprender relaciones entre palabras, traducir idiomas y generar texto nuevo.

Los modelos de lenguaje como ChatGPT aprenden asignando números a las palabras para poder entender y generar texto.

Los modelos de lenguaje de IA pueden almacenar fragmentos de palabras, lo que puede llevar a que se confundan palabras similares y generar resultados incorrectos.

Los modelos de lenguaje de IA pueden contener información personal y protegida por derechos de autor porque aprenden de grandes conjuntos de datos que pueden incluir este tipo de información.

Los modelos de inteligencia artificial pueden almacenar datos personales de forma anónima, incluso si no se utilizan directamente.

Los modelos de IA almacenan información de entrenamiento, incluyendo datos personales, exactamente como se les enseñó.

Los modelos de lenguaje como ChatGPT pueden revelar información personal almacenada en sus datos de entrenamiento, incluso con preguntas aparentemente inocentes.

Los modelos de lenguaje, como ChatGPT, aprenden a representar las frases de manera única, incluso si parecen similares.

Los modelos de lenguaje de IA modernos, como los basados en Transformers, pueden guardar datos de las entradas de entrenamiento en su forma original, incluso si no siempre ocurre.

Los modelos de inteligencia artificial son como archivos ZIP: necesitan un programa especial (un tokenizador y un transformador) para poder leerse y utilizarse.

Los modelos de inteligencia artificial pueden almacenar datos personales, ya que aprenden de textos que pueden contener información sensible.

Es mejor usar modelos de lenguaje propios para tareas específicas en la empresa, ya que ofrecen mayor calidad y control sobre los datos.

Acerca de