Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Inteligencia artificial: Prueba práctica del nuevo modelo de lenguaje LLaMA de Meta

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI

Meta ha liberado probablemente su modelo de inteligencia artificial LLaMA en versión 2 debido a la actual supremacía de Microsoft/OpenAI y Google en el campo del AI, y lo ha hecho también para uso comercial. Un funcionamiento local sin problemas con privacidad, secretos comerciales o datos de empleados es posible. Un test práctico.

Introducción

El modelo de inteligencia artificial de segunda generación, liberado por Meta el 18/07, es un modelo de lenguaje (Large Language Model = LLM). Se adapta para analizar textos. Por lo tanto, se puede utilizar entre otras cosas para los siguientes casos de uso:

  • Resumen de texto (abstractive summary = resumen abstraído = resumen en propias/nuevas palabras).
  • Extraer significados de documentos (Ejemplo: ¿Qué preguntas responde el documento dado?).
  • Búsqueda de documentos (vector search) = Búsqueda de vectores.
  • Responder preguntas con documentos de la empresa como base de conocimiento (question-answering = Sistema pregunta-respuesta).
  • ChatBot (conversational = Konversationen).

Actualización: Los modelos de lenguaje más recientes y capaces se utilizan en la Inteligencia Artificial Offline con Dr. RGPD.

LLaMA es la abreviatura de Large Language Model Meta AI. Meta AI es una división del conglomerado Meta, que se encarga de aplicaciones de Inteligencia Artificial. Después de que Meta ha recopilado numerosos datos sobre usuarios en Facebook, Instagram o WhatsApp, estos datos ahora se utilizan para el entrenamiento y modelos de AI como LLaMA.

El modelo de lenguaje LLaMA 2 puede ejecutarse localmente y de manera amigable con los datos, incluso para aplicaciones comerciales. Las exigencias de hardware son cumplibles.

Mira este artículo así como otro artículo.

Además de los modelos para el comprensión del lenguaje, existen otros modelos adecuados para otras formas de datos. Seguro que muchos ya han oído hablar de StableDiffusion, un modelo de IA con el que se puede generar una imagen a partir de un texto (Dall-E, Midjourney, etc.).

Para fundamentos recomiendo uno de mis contribuciones anteriores a Inteligencia Artificial:

  • Fundamentos para sistemas de Inteligencia Artificial. ([1])
  • Sistema de preguntas y respuestas con IA. ([1])
  • La inteligencia artificial actual es una revolución y no se basa principalmente en estadísticas. ([1])
  • Casos de uso típicos, protección de datos, confidencialidad, malentendidos. ([1])
  • Parámetros de configuración de un asistente de voz. ([1])

Las exigencias de hardware para los modelos más pequeños son cumplibles. El tamaño del modelo se determina por la cantidad de parámetros en el modelo. Los parámetros son conexiones neuronales. En general y simplificando, podría considerarse como parámetro el número de neuronas en el cerebro electrónico.

En modelos de AI, los parámetros se abrevian de la siguiente manera (ejemplos):

  • 7B = 7 mil millones
  • 13B = 13 mil millones
  • 70B = 70 mil millones

El "B" viene de "billion", porque en inglés no existe la millarda. Una "billion" es, por lo tanto, una millarda. Los modelos con, por ejemplo, 200 millones de parámetros se llaman entonces 200M. ¡Qué suerte, porque en alemán nos encontraríamos con el "M" para millón y el mismo "M" para millarda algo confuso.

La cantidad de parámetros de un modelo es un indicador muy bueno para su comprensión lingüística. Cuanto mayor sea esta cantidad, mejor "habla" o comprende este modelo una lengua. Pero ¿cuál? La mayoría de los modelos estaban hasta hace poco solo en inglés. Sin embargo, siempre había algo de más. Es decir: por suerte, algunos textos del internet son excepciones y no están escritos en inglés, chino o español. Por lo tanto, un modelo de Inteligencia Artificial con una cantidad de parámetros lo suficientemente grande puede "acertar" también en alemán. No era ironía, aunque suene así.

La búsqueda de Bing con un modelo de lenguaje GPT en segundo plano a menudo proporciona respuestas falsas.

Mi opinión. Ver el artículo.

Lo decisivo para un modelo es, por tanto, su número de parámetros y también la Pré-entrenada. En modelos grandes no hay ninguno que sepa hasta ahora que haya sido entrenado especialmente en alemán. Esto puede cambiar la próxima semana. De esto se ve muy bien cómo trabajan lentamente algunas empresas, autoridades o legisladores. Mientras estos piensan en años o períodos de tres años, un período de cuatro semanas es un tiempo largo en el mundo de la Inteligencia Artificial. Mucho disfrute en el futuro (que comienza ahora mismo), cuando todos seremos abrumados por avances tecnológicos y problemas. Me protejo a mí mismo con precaución y no espero leyes o sentencias.

También es decisivo para un modelo de Inteligencia Artificial (IA) la llamada longitud del contexto. La longitud del contexto indica cuántas unidades de texto pueden procesar un modelo de IA. Para ello, el modelo de IA debe ser entrenado con unidades de texto que tengan esa longitud del contexto. Cuanto mayor sea, mejor será, pero también más intensivo en cálculos será. Leí en Meta que para el entrenamiento se utilizaron numerosas tarjetas gráficas A100 cada una con 80 GB de VRAM (memoria de video) y no la memoria RAM habitual del procesador. El tiempo de cómputo fue de 3,3 millones horas de tarjeta gráfica. Una tarjeta A100 es muy cara. Un solo componente costaba hasta hace poco 15.000 euros. Una tal tarjeta puede extraer un máximo de 400 vatios de energía de la toma de corriente.

El modelo LLaMA 2 tiene una longitud de contexto de 4096 caracteres. Es mucho más que en el modelo anterior, LLaMA versión 1, que probablemente solo tenía 2048 caracteres. La mayoría de los modelos conocidos hasta ahora tenían solo 1024 caracteres. ChatGPT-4 tiene una longitud de contexto de 8096 caracteres, pero es extremadamente lento si se considera la interfaz de chat y el tiempo de reacción. Actualmente hay incluso modelos con una longitud de contexto de 128.000 caracteres. Estos últimos están equipados con pocos parámetros.

¿Cuán bueno es LLaMA 2, entonces?

Prueba práctica del modelo LLaMA 2

Mi prueba de práctica da una visión y primera impresión, nada más. Como caso de uso he utilizado la generación de texto, que debería dar respuesta a una pregunta con respuestas de los artículos de Dr. RGPD. He formulado todas las preguntas en idioma alemán.

He probado los modelos LLaMA 2 con 7B y 13B de parámetros. El modelo de 70B supera actualmente la capacidad de hardware que tengo a mi disposición. Puedo permitirme comprarlo, pero ¿para qué? Para probar modelos muy buenos ya existentes, mi servidor de inteligencia artificial es más que suficiente. Utilizo modelos recalentados para eso. Estos modelos tienen una calidad todavía muy buena con un consumo de recursos mucho menor. Los modelos completos de LLaMA 2 son aún un poco mejores. Como muestran mis pruebas hasta ahora con modelos Vicuna, la diferencia es probablemente mínima. Sin embargo, no puedo descartar que la longitud del contexto útil en los modelos recalentados también sea más baja.

Modelos de lenguaje entrenados como GPT o LLaMA son adecuados para formular textos y respuestas, pero no para utilizar directamente como motor de búsqueda y base de datos de conocimiento.

Una búsqueda de documentos propios que tiene comprensión de texto puede ser creada en base a modelos de lenguaje preentrenados.

Al responder un modelo LLaMA, se incluía una versión de WordPress y se la marcaba como la última versión de WordPress. Si se asume esto, el conocimiento proviene al menos en parte del modelo AI a principios del año 2022. Sin embargo, no es sobre eso, ya que los casos de aplicación son principalmente la análisis de documentos corporativos y no la respuesta a preguntas generales de conocimiento.

Modelo 7B:

Mis primeros tests fueron con el modelo 7B de LLaMA 2. Los resultados fueron medianos según los estándares actuales. Me hubiera sorprendido aún más hace un año. La calidad es ya asombrosamente buena para un modelo así, aunque las aplicaciones están limitadas. Veo al modelo 7B más adecuado para buscar documentos o para un simple asistente de preguntas y respuestas que no se le hagan preguntas complicadas. Además, según mi evaluación, el modelo 7B debería ser fine-tuneado para poder introducir con cierta confiabilidad conocimientos especializados.

Modelo 13B:

Mis pruebas consideran la gran longitud de contexto de 4096 para las variantes del modelo LLaMA2. Parece que el modelo se esfuerza por dar respuestas en alemán, aunque intenté forzarlo a hacerlo. Aquí hay un ejemplo:

Pregunta: ¿Pueden personas normales aconsejar legalmente a alguien?
Respuesta: Yes, normal people can give legal advice.
The BGH has decided that contract documents, in particular contract drafts, can be created by software that uses a question-answer game. Also, data protection texts are even further out of the line.
Functioning of a contract generator:
A legal publishing house offers a software that creates contracts. Against this, a German bar association had something to say. The bar association what of the opinion that the contract drafting what only allowed to lawyers.
The Federal Court of Justice gave the opinion of the bar association a clear rejection. This goes out of the BGH decision of 09/09/2021, which had to decide on the legality of a contract document generator.
The infamous software asks the user about various aspects that are important for contract drafting. The user answers accordingly.
Then the software creates a contract draft on the basis

La pregunta fue formulada de manera intencionadamente ligera. Casi cualquier persona escribe así en su dispositivo final. La respuesta estaba en inglés, a pesar de que yo había pedido que fuera en alemán (no se muestra aquí, pero se le informó al modelo de IA). La respuesta era bastante larga, pero fue truncada. Esto se debe a que las respuestas también tienen una longitud máxima. Muchos conocen esto desde ChatGPT. El cálculo de la respuesta tardó 9,2 segundos. Las mayoría de las respuestas fueron dadas en mi prueba más rápido o mucho más rápido. Todo depende de la pregunta. Gracias al llamado streaming se puede reducir el tiempo de reacción psicológicamente. Muchos pueden recordar desde hace tiempo los escritorios de inicio de Windows, que aparecían en tres variantes diferentes cada vez que se iniciaba Windows y decían que Windows estaba arrancando y estaría disponible muy pronto.

Con una longitud de contexto de 4096, al menos había algunas respuestas en alemán. Lo decisivo, sin embargo, son otros parámetros además de este. En cualquier caso, en una configuración que se acerca a lo que yo consideraría muy bueno según mis pruebas anteriores con otros modelos de inteligencia artificial, el resultado fue:

Pregunta: ¿Cuáles son mis derechos en materia de protección de datos?
Respuesta: No tengo derechos.
Tengo los derechos que me concede la RGPD.
Tengo los derechos que me concede la RGPD y los derechos que no me concede la RGPD.

La pregunta fue formulada intencionalmente con la palabra pequeña "protección de datos". Finalmente, también los encuestados humanos que teclean algo en un campo de entrada suelen ser poco cuidadosos. La incertidumbre permitida para la selección de documentos de origen estaba más hacia el lado inferior.

Después de reducir la tolerancia al error, se recibió la siguiente respuesta a otra pregunta:

Pregunta: ¿Quién es Klaus Meffert?
Respuesta: Klaus Meffert es un informático que ha obtenido su doctorado en Informática. Es el editor del blog llamado Dr. RGPD. El blog está disponible en la dirección de Internet dr-dsgvo.de. Vive en Hesse, la región federal donde la autoridad de protección de datos no tiene ganas de imponer multas. Algunos tribunales hessianos también tienen poco o ninguna ganas de ocuparse de las quejas por incumplimiento de la protección de datos a favor de las personas afectadas.

No idea cómo llegó la mención a las autoridades de Hesse en mi inteligencia artificial, cuando ya se habían emitido tantas multas en Hesse por infracciones de protección de datos. En el seguimiento web eran cero. Y Google Analytics no es tan malo, como me dijo un jefe de departamento de la oficina estatal hessia personalmente y en una conferencia. La respuesta de la inteligencia artificial se basa en el conocimiento ingresado, lo cual es muy bueno. No hay alucinaciones aquí, lo cual también es muy bueno.

A veces surgen resultados divertidos. Aquí un ejemplo:

Pregunta: ¿Quién es el Dr. Meffert?
Respuesta: Dr. Meffert es un abogado ficticio, que en la tabla de traducción de RGPD sirve como referencia para la traducción de "abogado".

Mi intento de explicación para esta respuesta de IA es que en mi blog existe un diccionario de protección de datos con traducciones de términos técnicos del alemán al inglés. Que yo sea un abogado ficticio podría haber sido inferido por la IA debido a mi afinidad con el contexto jurídico. A partir de esta suposición, generada incidentalmente por la IA, podrían surgir nuevos escenarios de aplicación. Se podría así generar perfiles psicológicos de personas en función de sus obras (texto, imagen, música…).

En otro artículo describí la respuesta de mi IA a la pregunta: „¿Es Klaus Meffert malo?“ . LLaMA 2 respondió con „No se encontró una buena respuesta.“ No hay nada en lo que uno pueda quejarse. Sin embargo, una respuesta en el mencionado artículo anterior fue mucho mejor. ([1])

Para otra pregunta se obtuvo el siguiente resultado:

Pregunta: Ist WordPress sicher?
Respuesta: WordPress es seguro siempre y cuando se preste atención a la seguridad.
Significa que se ha actualizado regularmente la instalación de WordPress, los plugins y temas, y se han cambiado regularmente las contraseñas.
Eso es la base para la seguridad.
Eso no es todo.
Hay otras medidas de seguridad que se pueden tomar.
Ejemplos son:
La instalación de WordPress en un servidor que no está directamente accesible a través de Internet.

La respuesta es muy buena, a mi parecer. Según el valor de confianza calculado, se le dio una parte del conocimiento que tengo y otra parte de la base de datos de conocimientos inherente al modelo de inteligencia artificial. Si no saben lo que significa "inherente", no hay problema. Utilizo este término aquí solo porque nadie sabe con precisión cómo un modelo de IA expone su conocimiento fuera. Eso es igual que en los humanos. No tengo idea por qué ayer di una respuesta diferente a la misma pregunta que me hicieron hoy nuevamente. Ni siquiera fue irónica, aunque el ejemplo era inventado.

Los resultados mencionados anteriormente se basan en una configuración que identifica los dos mejores documentos de origen como base para responder a la pregunta formulada por el ser humano. El proceso es multietapa porque un documento suele tener más de 4096 caracteres. Por lo tanto, los documentos se fragmentan primero y luego se introducen en la inteligencia artificial.

¿Cómo sale el resultado cuando se utilizan tres documentos de origen como base? Los resultados parecen ser aquí mucho mejores. Aquí hay un ejemplo en una pregunta muy difícil:

Pregunta: ¿Se puede determinar la ubicación de un servidor a partir de la dirección IP?
Respuesta: No, eso no es posible de manera fiable. La dirección IP puede utilizarse para cualquier servidor. El emplazamiento del servidor no puede determinarse con precisión a través de la dirección IP. La asignación de una dirección IP a un servidor puede cambiar en cualquier momento. El emplazamiento de un servidor solo se puede determinar con precisión mediante la revisión del contrato con el proveedor del servidor.

La respuesta viene casi completamente de mis artículos del blog. Es correcta y se ha probado a mi sistema de inteligencia artificial. Por otro lado, la avanzada inteligencia artificial de Microsoft en Bing responde esta pregunta solo mal. Bing da la respuesta "Sí" y cita documentos de origen con un extracto que respaldan esa respuesta falsa. Bing dice, por tanto, que se puede determinar el lugar geográfico de un servidor a partir de la dirección IP y no lo limita en absoluto.

También Copilot tiene extremas debilidades, como se ilustra en un test. Incluso las supuestas tareas cotidianas pueden no ser respondidas adecuadamente por la inteligencia artificial de Microsoft.

Opciones alternativas

Cada semana salen nuevos modelos de lenguaje que superan a los anteriores. Por ejemplo, Ornitorrinco2 es un modelo que, según mis pruebas, puede obtener mejores resultados que LLaMa 2.

Además, existen variantes de LLaMa con una longitud de contexto mucho mayor. Una gran longitud de contexto permite introducir grandes documentos o textos extensos en la inteligencia artificial de una sola vez. El corte en porciones manejables, como es necesario en otras ocasiones, se evita. Como modelo de este tipo se puede mencionar a Yarn-Llama-2. Si se forman porciones, siempre existe el peligro de que las informaciones sean distorsionadas o pierdan su significado. Una gran longitud de contexto resuelve estos problemas.

Las variantes de LLaMa 2 bien entrenadas a menudo proporcionan mejores resultados en pruebas relevantes como ARC o TruthfulQA. Sin embargo, debe comprobarse para el caso de uso específico si un modelo es realmente mejor que otro. La mayoría de los casos de uso en Alemania deben tener alemán como lengua principal. En consecuencia, no hay mucho que ganar con un modelo que se haya condicionado principalmente sobre textos o juegos de preguntas y respuestas en inglés, incluso si proporciona resultados excelentes.

Una demostración de lo que es posible con control total de datos se muestra en la Inteligencia Artificial Offline de Dr. RGPD.

Conclusión

Algunas otras preguntas y respuestas las he dejado fuera de aquí. No es raro que el modelo LLaMA 2 no diera respuesta, lo cual es mejor que una respuesta falsa. Por lo menos se pueden proporcionar los documentos originales para cada pregunta, que son más propensos a dar la respuesta correcta.

En este momento no veo un beneficio de LLaMA 2 frente a otros modelos en cuanto a textos o diálogos en alemán. Sin embargo, la longitud del contexto ya es un argumento que justifica una consideración más detallada del modelo. ¿Cómo se comportará el modelo de inteligencia artificial liberado por Meta después Fine-Tuning, es otra cuestión. Sin embargo, probablemente poco emocionante sucederá o resultados análogos a los de otros modelos se producirán (si no fuera por la longitud del contexto que puede procesar respuestas más largas).

Mensajes clave

Meta ha lanzado un nuevo modelo de inteligencia artificial llamado LLaMA 2 que puede ser usado para tareas como resumir textos, responder preguntas y crear chatbots.

La cantidad de parámetros y la longitud del contexto son claves para que un modelo de lenguaje sea bueno.

El modelo LLaMA 2 de 7B parámetros es adecuado para tareas sencillas como buscar documentos o responder preguntas básicas, pero necesita ser ajustado para manejar conocimientos especializados. El modelo de 13B parámetros tiene una mejor capacidad de contexto, pero aún tiene dificultades para responder preguntas en alemán con precisión.

Un tribunal alemán decidió que las personas pueden usar software para crear contratos, incluso si la asociación de abogados quería que solo abogados contratos redactar könnten.

La inteligencia artificial puede dar respuestas muy buenas y útiles, incluso a preguntas difíciles, al usar información de varios documentos como base.

Determinar la ubicación de un servidor solo a partir de su dirección IP es poco fiable y no preciso.

El modelo de inteligencia artificial de Meta probablemente no será muy diferente a otros modelos existentes, a menos que la capacidad de procesar respuestas más largas tenga un impacto significativo.

Acerca de

Sobre el autor
Me llamo Klaus Meffert. Soy doctor en informática y llevo más de 30 años dedicándome profesional y prácticamente a las tecnologías de la información. También trabajo como experto en informática y protección de datos. Obtengo mis resultados analizando la tecnología y el Derecho. Esto me parece absolutamente esencial cuando se trata de protección de datos digitales.

Inteligencia artificial en la administración: a menudo problemática y no útil