¿Qué modelo de lenguaje ganó el benchmark AlpacaEval?

El modelo de lenguaje NullModel ganó el benchmark AlpacaEval, a pesar de proporcionar siempre la misma respuesta a todas las preguntas. Esto llevó a una manipulación del benchmark.

¿Por qué podría no ser fiable la evaluación AlpacaEval?

La métrica no es fiable debido al engaño del modelo nulo, que siempre proporciona la misma respuesta. Además, la métrica suele estar optimizada para el inglés, lo que es problemático para las empresas alemanas, ya que el idioma alemán no se tiene en cuenta lo suficiente.

¿Qué tipo de modelos de IA son los más adecuados para clasificar correos electrónicos en categorías específicas?

Los modelos de clasificación son excelentes para la categorización de correos electrónicos, como solicitudes, quejas o cancelaciones. Estos modelos se entrenan con conjuntos de datos específicos para reconocer los diferentes tipos de correo electrónico.

¿Por qué a menudo son mejores los modelos con entrenamiento fino que los modelos de IA genéricos como ChatGPT?

Los modelos entrenados con precisión proporcionan mejores resultados, ya que están adaptados a tareas específicas. Al entrenarlos con datos relevantes, pueden resolver tareas con mayor precisión y eficiencia que los modelos entrenados de forma universal.

¿Qué hardware se necesita para utilizar eficazmente Qwen2.5-72B?

Qwen2.5-72B requiere hardware bastante caro debido a que es un modelo muy grande y optimizado para la generación de código. No es adecuado para su funcionamiento en hardware más económico.

¿Cómo afecta el tamaño del modelo de IA a los resultados en la generación de texto?

Modelos más pequeños como los modelos de 7B o 8B suelen ser más adecuados para la gramática alemana y, por lo tanto, más adecuados para tareas sencillas de generación de texto.

¿Es la búsqueda semántica una aplicación de IA significativa como primera?

Sí, la búsqueda semántica en documentos corporativos es un buen punto de partida, ya que no requiere grandes necesidades de hardware y se centra en la búsqueda de conocimiento.

Sichere KI, digitaler Datenschutz & Website-Compliance

Un nuevo modelo lingüístico (LLM) ha causado recientemente un gran revuelo. Alcanzó la puntuación más alta en una popular prueba comparativa e incluso fue significativamente mejor que ChatGPT-4 Omni, el actual modelo premium de OpenAI. Pero, ¿qué modelo de lenguaje es realmente el mejor?

Introducción

Con el Punto de referencia AlpacaEval se prueban nuevos modelos de lenguaje. La llamada Win-Rate indica cómo bien un LLM realiza en la prueba. Aquí están los primeros lugares de los modelos que se consideran conocidos:

En primer lugar se encuentra GPT-4 Omni de OpenAI con una tasa de victoria del 57,5 %. Esta tasa es corregida por longitud („LC Win Rate“). Esto significa que las tasas de ganancia de longitud controlada (LC) reducen las distorsiones de longitud de GPT-4. De esta manera se tiene en cuenta que GPT-4 es un caballo de apuestas y tiene algunas peculiaridades que beneficiarían a otros modelos si no se corrige.

Pasemos ahora a los modelos lingüísticos de la comunidad que son menos conocidos. La lista de clasificación de los modelos de la comunidad tiene este aspecto:

Como puede verse, el modelo con el nombre NullModel ocupa el primer lugar. Tiene un LC Win Rate del 86,5 %. Por el contrario, ChatGPT-4 Omni sólo obtuvo un 57,5 % (16º puesto en la clasificación, que también incluye los modelos comunitarios).

El benchmark en sí mismo no es un buen representante para las tareas de Inteligencia Artificial que se presentan en su empresa o institución. Porque, por un lado viene a ser muy importante la tarea. Algunos modelos pueden entender mejor las preguntas, otros pueden sacar mejores conclusiones o incluso otros pueden resumir o traducir textos mejor.

Sin embargo, lo más relevante para las empresas alemanas es que alemán es de habitual la lengua principal en el empresa y en documentos de texto. Los benchmarks están optimizados normalmente para inglés o otras lenguas como chino o indio.

La particularidad del ganador de la prueba

En sí mismo, un punto de referencia es más un indicador que una afirmación fiable.

Hay una peculiaridad con el ganador del test, NullModel:ha trucado. Lo peor es que aún viene: El modelo de lenguaje NullModel siempre da la misma respuesta* a todas las preguntas que se le hacen en la prueba de referencia. Código incluso accesible al público.

El modelo nulo ocupa así el primer lugar en los resultados del test, a pesar de que siempre diesel mismo respuesta proporciona para todas las preguntas formuladas. Las preguntas tienen respuestas correctas completamente diferentes entre sí. Si las respuestas correctas fueran siempre "Sí", entonces no habría motivo para preocuparse aquí.

En realidad, hay muchas respuestas diferentes para las muchas preguntas en el benchmark que son correctas. Sin embargo, el benchmark proporciona Las mejores notas para el LLM, que siempre da la misma respuesta.

Así que el punto de referencia ha sido engañado.

¿Cuál es el mejor modelo lingüístico?

Un abogado diría: Depende. Depende de la solicitud.

Si no se sabe para qué se va a utilizar un sistema de IA, el problema es completamente distinto al de encontrar el mejor modelo lingüístico. Los modelos familiares que se muestran en la primera ilustración son muy adecuados para un chatbot general.

Si se quiere extraer conocimiento del Internet, ChatGPT falla regularmente. La razón es que un sistema de bajo costo (desde la perspectiva del usuario, quien a menudo también paga con sus datos) no puede realizar por cada solicitud una cantidad ilimitada de búsquedas en el Internet. Eso sería simplemente poco rentable para OpenAI. Como se puede leer sobre Anthropic y su Computer Use-enfoque, pronto se vuelve muy caro. Se pueden acumular hasta 20 dólares por hora para una tarea que requiere investigación. Desafortunadamente, al enviar la tarea a la inteligencia artificial no está claro cuán laborioso es obtener el resultado.

El mejor modelo lingüístico para un caso de uso en su empresa es un LLM bien entrenado.

Algunas recomendaciones para los modelos lingüísticos ayudan a la configuración correcta y al inicio de una estrategia de IA.

Tamaño del modelo lingüístico

Como regla general, cuanto menos específica sea la enunciado de tarea, más grande debería ser el LLM. El ejemplo máximo es ChatGPT. Este modelo es tan gigante que el hardware para su funcionamiento cuesta millones de euros (y mucho más para OpenAI, porque más de 10 usuarios utilizan el sistema).

ChatGPT puede responder preguntas de todo tipo y a menudo produce resultados muy buenos. Sin embargo, a veces incluso las preguntas más simples no se responden correctamente. Así que ChatGPT no puede determinar la cantidad de "r" en la palabra Strawberry. Además, ChatGPT también recurre al falso saber que está almacenado en el LLM. No solo eso, sino que Halluzinationes resultan de ello.

El tamaño de un modelo lingüístico se especifica en miles de millones de parámetros. Mil millones es 1 B (B = mil millones). Un parámetro es una conexión entre dos neuronas de la red neuronal.

Modelos de lenguaje muy pequeños, como por ejemplo Llama3.2-1B, son adecuados para dispositivos móviles o en general para velocidades de respuesta altas. Sin embargo, sufre la calidad de respuesta. Preguntas generales pueden ser respondidas con frecuencia bastante bien. Cuando se formula la pregunta en alemán, la situación cambia y es peor. La gramática alemana no es valorada lo suficiente aquí.

Modelos de lenguaje más pequeños como 7B o 8B dominan a menudo el idioma alemán muy bien. Pueden resumir textos, generar ideas o traducir textos. La velocidad de ejecución en un servidor AI estándar es moderada.

Con la ayuda de modelos desglosados, se puede aumentar la velocidad de inferencia. La calidad sufre solo mínimamente.

Los modelos de IA son mejores cuando están integrados en un sistema de IA y deben realizar tareas concretas. Un sistema de IA es una especie de programa de marco que contiene, además del componente de IA, lógica convencional. ¿Por qué debería un modelo de lenguaje tener que contar la cantidad de letras en una palabra si un código de programación clásico puede hacerlo mucho más rápido y mejor, es decir, con 100% de precisión?

Un ejemplo de una tarea concreta es un asistente de Inteligencia Artificial para la Sección de Personal. Un candidato envía su currículum en respuesta a un anuncio de empleo al personalista. El personalista quiere saber ahora cuán bien el currículum del candidato se ajusta a las exigencias que (esperadamente) están mencionadas en el anuncio de empleo. El asistente de Inteligencia Artificial compara entonces el currículum con el anuncio de empleo. El sistema de Inteligencia Artificial alrededor sopesa para asegurarse de que el currículum y las habilidades allí mencionadas sean vistas desde varias perspectivas: ¿Cuáles de las exigencias son bien cumplidas y cuáles no? ¿Cuáles son las cualidades destacadas del candidato en general, que pueden ser valiosas para cualquier empresa?

Además, se consideran detalles: un informático no necesita mencionar en su currículum que conoce JSON. O lo conoce o lo aprende en 5 a 45 minutos. Algo así es algo que ChatGPT simplemente no puede saber. Pero la sección de especialistas lo sabe y puede programarlo en el sistema AI.

También podría el asistente de Inteligencia Artificial para la sección de personal realizar una Búsqueda en línea sobre el candidato y presentarle los resultados al reclutador. Esto tampoco puede hacerse con un modelo de IA. Un sistema de IA, como también es ChatGPT, no lo hace por usted. En cualquier caso, no lo hará por unos 22 euros al mes o por centésimas de céntimo por solicitud. OpenAI no buscará el Internet ampliamente porque usted no quiere darle dinero a OpenAI o ya está pensando en sus gastos desde que llega a los 50 euros.

Con la ayuda de Ajuste fino se pueden ajustar modelos lingüísticos a tareas específicas. Los resultados suelen ser mucho mejores que los obtenidos con ChatGPT o cualquier otra inteligencia universal. Dichos modelos bien entrenados pueden ser muy pequeños. Por lo tanto, la velocidad de inferencia potencial es muy alta.

Otros modelos además de los LLM

Los modelos lingüísticos clásicos son probablemente los modelos de IA más extendidos. Pero hay muchos más.

Por ejemplo, existen los llamados Safeguard-Modelos. Estos LLMs solo sirven para revisar las entradas de un usuario o las salidas de otro modelo de lenguaje. ¿La entrada contiene una solicitud de acción ilegal? ¿La salida contiene instrucciones para la fabricación de bombas?

Para tareas de clasificación son más adecuados otros tipos de modelos en lugar de LLMs. Quieren saber, por ejemplo, qué tipo de correo electrónico alguien ha enviado a su empresa. ¿Fue una solicitud? ¿Fue una queja? ¿Fue una carta de rescisión? O el remitente solo quería que se le mencionara un contacto. Para esto se entrena un clasificador. Es poco esfuerzo, pero aporta enormemente mucho.

Para apoyar a empleados menos experimentados, resultan muy adecuadas Buscadores vectoriales. Un cliente de una empresa de alquiler de autos informa un daño por correo electrónico o aplicación. El empleado en la empresa de alquiler de autos debe decidir ahora cómo regular el daño. El asistente de Inteligencia Artificial busca casos comparables del pasado y presenta al empleado recomendaciones para lo que probablemente sea el mejor curso de acción. Tales datos históricos están especialmente disponibles en abundancia en las compañías de seguros.

Los modelos de imagen son ampliamente conocidos. Prestan buenos a excelentes servicios. Pero se puede hacer aún mejor con modelos de imagen refinados o Adaptador. Con ellos se pueden producir imágenes según su preferencia (estilo, tono, coloración, tema). Aquí un ejemplo:

Seguramente podrá averiguar cuál era la plantilla de este tipo de imagen. El número de ejemplos para enseñar un adaptador de imágenes puede ser muy reducido. A menudo bastan 8 ó 15 ejemplos, en función de la extensión del material de imagen. El número de ejemplos puede aumentarse mediante la adición sintética.

Transcripción de audio hay modelos Whisper excelentes que ya existen. Proporcionan resultados mucho mejores que el estándar de Microsoft en Teams. Al menos eso es lo que ha resultado un test con una editorial de protección de datos. Se comparó la transcripción con Microsoft Teams y la realizada por Dr. RGPD con ayuda de un propio sistema AI. El propio sistema AI tiene en cuenta un vocabulario específico de la empresa, incluyendo apellidos. Nadie sabe si Schmitt se escribe con una o dos "t" o con "dt", ni hablar de una AI.

Ejemplos de modelos de IA y sus capacidades

Se utilizarán algunos ejemplos para demostrar cómo afectan a la calidad de la respuesta el tamaño del modelo, su actualidad y el tipo de entrada de datos (texto, imagen, …):

Llama3-7b: malo para los estándares actuales, genial cuando se lanzó; puede funcionar bien en su propio hardware
Llama3-1:8b: Muy buena para muchas tareas; puede funcionar bien con hardware propio
Llama3-70b: de buena a muy buena para muchas tareas, pero en parte peor que la más reciente Llama3.1:8b; sólo puede funcionar razonablemente con hardware caro
Llama3.1-70b: Muy bueno para muchas tareas; algunos puntos débiles para el alemán; sólo puede ejecutarse correctamente en hardware caro
Llama3.1-405b: Aún mejor que Llama3.1:70b, pero no necesariamente para el alemán; sólo puede ejecutarse razonablemente en hardware muy caro
Llama3.2-3b: Bien, pero peor que Llama3.1:8b, pero respuestas más rápidas

Además de estos LLM, existen otros tipos de modelos. He aquí algunos ejemplos:

Pixtral-12B: Muy bueno para interrogar imágenes. Requisitos de hardware aceptables
Qwen2.5-72B: muy bueno para generar código de programa; sólo puede funcionar razonablemente en hardware caro
FLUX.1-fast: a veces muy buenos resultados al generar imágenes, pero a menudo inadecuados al generar textos en alemán en la imagen; también puede funcionar razonablemente en hardware más barato con trucos

Por tanto, la calidad de los resultados varía en función de la actualidad y el tamaño del modelo. El texto suele requerir un resultado exacto, salvo para tareas creativas. En el caso de las imágenes, la situación suele ser diferente.

Conclusión

Defina su caso de uso. Si no tienes ni idea de en qué puede ayudarte la IA, entonces no la necesitas. Utiliza un motor de búsqueda en su lugar, como siempre.

Empiece con un caso de uso sencillo. Si no está seguro de qué puede ser sencillo, pida consejo.

Cuanto más pequeño sea el modelo de IA, más específico debe ser el caso de uso. Los modelos muy grandes, como los que tienen parámetros 405B, no deberían ser operados normalmente por su propia empresa. Aunque se dispusiera de los recursos necesarios, suele haber opciones mejores.

Un modelo 70B como Llama3.1-70B ya es bastante grande para el funcionamiento autónomo. Esto es sólo para darle una idea general. Los modelos que no superan la mitad de este tamaño son mejores.

Para tareas que no requieren respuestas generativas, hay mejores opciones que los modelos de IA que "todo el mundo" conoce. Estos modelos son ideales para encontrar conocimientos en los documentos de su empresa. Además, los requisitos de hardware son tan bajos que nadie tiene que pensar en los precios de compra o alquiler. La búsqueda semántica, es decir, la comparación de textos o imágenes (o audio o…), es otro ejemplo de comienzo sensato de la era de la IA.

Quien maneja su propia AI, no necesita preocuparse por la seguridad de los datos en absoluto. Tampoco si un servidor con GPU está alquilado en Alemania por un proveedor alemán con DPA, y ni siquiera si tiene su propio servidor en el centro de cómputo o está alquilado por colocación.

Propia Inteligencia Artificial significa: Control total de los datos. Los datos no van a ninguna parte, excepto si lo deseas. Los datos no se recuperan desde ninguna parte, excepto si lo deseas. Solo los usuarios pueden acceder a documentos mediante IA que tengan permiso para ello. Esto se llama Inteligencia Artificial Offline.

En conclusión: Qué modelo lingüístico u otro modelo de IA es el más adecuado para su caso de uso debe evaluarse en función del caso de uso específico. Cada semana aparecen nuevas innovaciones y modelos de IA. Así que merece la pena echar un vistazo más de cerca.

Mensajes clave de este artículo

El NullModel es el "mejor" modelo del benchmark, pero siempre da la misma respuesta a todas las preguntas, lo que no es realmente útil. El mejor modelo lingüístico depende de la aplicación.

Para las preguntas sencillas, son más adecuados los modelos lingüísticos más pequeños, como los modelos 7B u 8B, ya que suelen dominar mejor la gramática alemana que los modelos más grandes.

Los asistentes de IA pueden buscar casos históricos para recomendar el mejor curso de acción.

Empiece con una aplicación sencilla, como la búsqueda semántica en documentos de empresa.

Acerca de estas declaraciones fundamentales