¿Por qué los modelos de lenguaje alemán son un desafío en comparación con otros idiomas como el inglés?

El alemán es un idioma tratado de manera rudimentaria y solo se comprende gracias a su propiedad emergente en el modelo de lenguaje FLAN-T5 de Google. La gramática de género y el uso de dos puntos dificultan su procesamiento correcto.

¿De dónde provienen los datos de entrenamiento para los modelos de lenguaje de IA alemanes?

Los datos de entrenamiento se extraen principalmente de fuentes públicas como las sentencias del Tribunal Federal de Justicia y Libertad y el Bundesanzeiger, que a menudo solo están disponibles en formato PDF. Estos se convierten manualmente o semi-automáticamente a formato de texto por plataformas como openjur.

¿Qué ventajas ofrece un modelo de lenguaje alemán propio para las empresas?

Un modelo de lenguaje alemán propio permite centrarse en el idioma alemán, reduce la carga adicional mediante otros idiomas y optimiza la experiencia del usuario. Además, los costos de utilizar un sistema de este tipo a menudo son menores que los de las soluciones en la nube.

¿Por qué el artículo considera el lenguaje de género como un problema en los modelos de IA?

El artículo critica el lenguaje de género, ya que dificulta el procesamiento de textos para modelos de IA. Las formas verbales dobles y la falta de gramática clara causan incertidumbres que no son resolubles de forma fiable para el análisis de aprendizaje automático.

¿Qué impacto tiene el uso de lenguaje de género en la calidad de los datos para modelos de IA?

El uso de lenguaje de género conduce a una mayor complejidad y incertidumbre en los datos de entrenamiento. Esto resulta en una menor calidad de los datos, ya que los modelos de IA tienen dificultades para interpretar y aprender las estructuras gramaticales correctamente.

¿Por qué es relevante la divergencia de opiniones sobre el uso de lenguaje de género en modelos de IA para el artículo?

El artículo tiene en cuenta las diferentes opiniones sobre el uso de lenguaje de género, ya que este influye en la calidad de los datos y el rendimiento de los modelos de IA. La mayoría de los alemanes se muestran críticamente hacia el lenguaje de género, lo que subraya la necesidad de datos limpios y objetivos.

¿Por qué es problemático el uso de formulaciones de género en los modelos de IA?

Las formulaciones de género dificultan el entrenamiento de los modelos de lenguaje de IA, ya que requieren más datos y confunden a los modelos, lo que conduce a un procesamiento de información más deficiente.

¿Cuáles son las ventajas de utilizar modelos de lenguaje en alemán propios?

Modelos de lenguaje alemanes propios están mejor adaptados al idioma alemán y requieren menos recursos que modelos poco fiables como ChatGPT. Esto permite un procesamiento más preciso de la información.

Inteligencia Artificial: Textos alemanes en modelos de lenguaje de IA

Bases de datos de documentos, chatbots, asistentes de voz, sistemas de preguntas y respuestas: todos ellos pueden ser adecuados para el alemán, una lengua mundialmente subordinada. ChatGPT no proporciona respuestas exactas. A pesar de algunas pequeñas peculiaridades como la forma de género en alemán, modelos de lenguaje AI confiables son posibles.

Introducción

El uso de inteligencia artificial en la empresa se diferencia fundamentalmente de la utilización privada de ChatGPT, Microsoft Bing,Google Bard o cualquier otro sistema de Datacracker.

Las empresas dan sus datos junto con secretos comerciales, patentes, datos de empleados, datos de clientes, contratos o cualquier otro tipo de datos confidenciales a menudo solo con reticencia a ChatGPT. Por otra parte, se deben proporcionar más datos a otros en el futuro. Eso dice la Data Governance Act (DGA) de la UE, que entró en vigor en septiembre de 2023 debido a su carácter reglamentario.

Además, las exigencias a respuestas correctas de un chatbot o cualquier otro sistema de lenguaje artificial son mucho más altas en el ámbito público que en el privado. Esto es cierto al menos fuera del área creativa. La élite son cuestiones jurídicas, que sistemas modernos pero generales como ChatGPT y la KI de Bing de Microsoft no pueden responder bien (razón: ver enlace). También las administraciones que sirven a los ciudadanos no deberían recurrir a chatbots poco fiables, incluido ChatGPT.

El punto de género es adecuado para contaminar datos de entrenamiento para modelos de lenguaje.
Especialmente por eso, porque el punto de dos puntos es normalmente un signo de puntuación de fin de oración.

La función de corrección automática de texto de Google Bard, publicada recientemente, no funciona correctamente, como se demostró en un texto práctico con una mirada más detallada.

Se dificulta innecesariamente a los modelos de lenguaje de inteligencia artificial, ya que en los datos de entrenamiento la gramática se atenúa a veces debido al uso del género. Además, el doble punto de género garantiza que frases enteras en textos no son reconocidas con seguridad.

El alemán es una lengua maltratada en comparación con el resto del mundo (ver imagen abajo). Los modelos de lenguaje poderosos que se centran en el inglés solo entienden al alemán porque esta lengua ha sido adoptada casi como un subproducto emergente, sin quererlo.

Ventajas de modelos de lenguaje propios

Un modelo de lenguaje puede obtenerse de las siguientes maneras:

Crear desde cero. Esto suele requerir varias decenas de miles de horas de tiempo de cómputo en GPU (GPU = procesador gráfico), por lo que no es factible para muchas empresas.
Reutilizar modelos de lenguaje abiertos, caracterizados por un refinado ajuste: camino más exigente pero controlable.
Reutilizar modelos de lenguaje abiertos que solo reciben como contexto documentos propios del prompt.

Las primeras dos posibilidades tienen la posibilidad de adoptar un lenguaje de género de manera diferente. El fine-tuning tendrá problemas que no se pueden evitar por completo.

Deutsch ist keine Weltsprache. Die Liste zeigt die Sprachen in der Nennung ihrer Relevanz für das Sprachmodell FLAN-T5 von Google. Vor Deutsch sind sogar Sprachen wie Gujarati genannt, die vielen gänzlich unbekannt sein dürften.

La tercera posibilidad de reutilizar modelos de lenguaje abierto es la más técnica y a menudo funciona. No se adapta en absoluto con el lenguaje de género. Esto es una afirmación técnica y no política.

Un modelo de lenguaje alemán propio no solo es posible, sino que también tiene muchos beneficios. Entre otros, los beneficios son:

La lengua alemana es lo principal. Vivimos en Alemania y no en España. Los anglicismos pueden entender un modelo lingüístico alemán también.
El lastre de cientos de otras lenguas no tiene que ser arrastrado. Bueno para las exigencias de hardware (tarjeta gráfica!) y la velocidad de funcionamiento.
Contenido de alta calidad puede utilizarse en lugar de basura informativa (= material generalmente disponible que no ha sido seleccionado previamente).
Enfocarse en un campo de estudio (o también varios).
Guía del usuario óptima con sensibilización de los resultados en lugar de actuar como si cada respuesta fuera correcta (ver ChatGPT o Bing).
Costos más bajos o fijos: Un sistema de Inteligencia Artificial propio se basa principalmente en los costos de adquisición o alquiler de un servidor de IA. Una frecuente utilización no cambia eso. Los costos siguen siendo igualmente bajos. Algo muy diferente son las soluciones en la nube como ChatGPT. La consulta de un documento se vuelve rápidamente cara a medida que aumenta su uso. Quien utiliza la API del chatbot de OpenAI debería evitar programar recursividad o bucle infinito, ya que de lo contrario el presupuesto se agotará en minutos y sin ningún beneficio. Eso no puede pasar con un sistema propio.

El siguiente apartado trata de datos de entrenamiento para modelos de lenguaje artificial alemanes, porque estos forman la base de la inteligencia artificial en lengua. De ahí se derivan también varias propuestas para las autoridades y otras instituciones estatales que podrían permitir la inteligencia artificial a velocidad alemana.

Datos de entrenamiento para asistentes de lenguaje de inteligencia artificial alemanes

Los datos de entrenamiento son lo que la educación de un niño por parte de sus padres equivalen. Para los modelos lingüísticos se necesitan textos en alemán. ¿De dónde sacar estos textos si no es robar?

El Internet ofrece una gran variedad de textos en alemán. También las empresas tienen en su Red interna numerosos documentos que son adecuados como fuente de conocimiento.

PDF en lugar de HTML

El Tribunal Federal de Casación (BGH) publica sus sentencias aparentemente solo en formato PDF. La plataforma benéfica openjur extrae estos PDF y extrae del texto (manualmente?) a partir de ellos. A continuación, openjur pone los fallos a disposición gratuita en línea. También el Bundesanzeiger publica muchos documentos solo en formato PDF.

Analogamente se comporta con algunas otras fuentes públicas importantes que pueden ser de interés para los modelos de IA, por ejemplo, muchas autoridades emiten informes o directrices de actividades únicamente en formato PDF.

Kompliziertes zweispaltiges PDF einer Datenschutzbehörde.

La imagen muestra un extracto de un documento oficial y público en formato PDF de una autoridad alemana de protección de datos. No solo que dos columnas complican el importe del texto por sí mismas. Las dos columnas se segmentan además con una encabezado intermedio. Lo que para la gente es fácilmente comprensible a simple vista, es un problema para una etapa previa de la Inteligencia Artificial. Casi todo es resoluble, pero ¿con qué esfuerzo y con qué precisión? ¿Por qué no proporcionar datos brutos o al menos (también o solo) formatos que son de una sola columna? Ejemplos son HTML o texto bruto. El HTML puede ser una página web legible por humanos, que también puede leerse bien por la máquina, lo cual se conoce como Scraping.

Evitar el lenguaje pesado

Desde un punto de vista lógico y técnico, el gendern es lo opuesto a una lengua simple ( "Lengua fácil" ). Aquí hay un ejemplo de un documento de una autoridad alemana de protección de datos:

Trabajadores/as en lugar de trabajadores

En otros documentos de la misma autoridad se encuentra, por ejemplo:

Trabajadores*as

Estas formulaciones no son ni coherentes ni "fáciles". Además, parece que solo se aplica la lengua de género a los textos que se entregan como salida en motores de búsqueda o chatbots.

La cuestión es si cada usuario consulta un modelo de inteligencia artificial con lenguaje de género o si tal vez no hay ninguno. Tampoco la inteligencia artificial puede realizar milagros. Igualmente, ningún ser humano es un genio. La mayoría de las personas en Alemania ni siquiera pueden cambiar una rueda a un automóvil.

La calidad de los datos es importante: Un modelo de lenguaje llamado Zephyr tiene solo un décimo de los parámetros de un poderoso modelo de 70B y es (también) debido a la calidad de los datos igualmente bueno.
Esto conlleva un cargado del modelo mucho más rápido y una generación de respuestas mucho más rápida.

Se vuelve más complicado desde el punto de vista técnico, porque antes del procesamiento por IA no está claro cómo debería llevarse a cabo la normalización de los términos que se han distorsionado por el giro de género. Aquí hay dos ejemplos de oraciones con el sustantivo principal normalizado correspondiente:

.empleados:es … –> empleados
Por empleados: … –> Empleado

Como se puede ver, de dos formas de una palabra se pasa a una sola al hacer desaparecer la gramática mediante el género. El hombre puede seguir este camino, ya que es inteligencia (no siempre, pero ocasionalmente). Un ordenador que está procesando textos previos para ser utilizados en el entrenamiento de un modelo de lenguaje artificial no puede resolver esta ambigüedad con precisión. En cualquier caso, se necesitan muchas consideraciones individuales hasta que el resultado general sea bastante aceptable.

La siguiente formulación es difícil de procesar con máquinas porque la gramática aquí se desvanece completamente. Probablemente también muchos personas tienen problemas para entender esta lengua.

Ciudadano/a

Quien lo encuentre aún más complicado utiliza en su lugar el asterisco de género:

Ciudadano/a

Los modelos AI se basan en muchos millones, a menudo mil millones de conjuntos de datos. Algunos grandes modelos lingüísticos consideran un conjunto de datos como una parte del texto. Dado que los modelos AI aprenden debido a muchos ejemplos, es necesario utilizar la lengua de género numerosos ejemplos adicionales. El problema fundamental se vuelve innecesariamente complicado.

Independientemente de eso, la gramática sufre, como se ha mostrado anteriormente. De claridad a oscuridad. Quien sepa un poco sobre modelos de IA sabe cuán importante son los datos de entrada limpios. Más distinciones y más oscuridad en sí mismas son manejables, pero requieren más esfuerzo. El esfuerzo para entrenar o afinar modelos de IA es alto en sí mismo y para muchos resulta inabordable.

Los métodos de procesamiento del lenguaje natural clásicos, como la lemmatización y la formación de raíces, se ven confundidos por el punto de género.
Determinación objetiva y puramente técnica. NLP = Procesamiento de Lenguaje Natural.

Una cuestión interesante sería si defensores del lenguaje de género lo introducen también en campos de búsqueda de motores de búsqueda o como promp en modelos de Inteligencia Artificial. De manera consecuente, un defensor del lenguaje de género tendría que hacerlo. Por lo menos ahora sabrá él o ella que los motores de búsqueda y los modelos de IA también aprenden de las entradas de los usuarios. Si los usuarios siempre utilizan una lengua tradicional y común, y no la versión gendereada, entonces lamentablemente (o afortunadamente?) la aplicación no dominará el lenguaje de género lo suficientemente bien.

Se trata de la argumentación pura, abolir el género a favor de la Inteligencia Artificial. Sin embargo, una nota al margen. Me llegó un comentario previo que decía: „'La lengua es del pueblo' – Resolución del Bundestag del 26.3.1998“. A este respecto se debe mencionar que la mayoría de los alemanes está en contra del lenguaje de género. Si el decisión democrática mayoritaria es respetada, la decisión del pueblo ha caído. Otro comentario decía que una KI consultada respondió que entendía el lenguaje de género. Probablemente era ChatGPT, un sistema que da respuestas Respuestas de favor constantemente, y también responde falsamente a menudo, y en general es inadecuado para proporcionar resultados precisos para tareas específicas en la empresa.

Propuestas para una mejor calidad de datos

Las siguientes recomendaciones se dirigen tanto a empresas como a instituciones públicas. En particular, estas últimas tienen la capacidad de proporcionar información de interés general en un formato digital fácilmente procesable.

Los documentos públicamente disponibles deberían ser presentados en un formato de texto bruto. Por lo común, se utiliza una mayor nivel, es decir, HTML. Proporcionar solo un PDF suele causar problemas con la procesabilidad mecánica. Los PDFs con más de una columna para el texto fluyente son aún más problemáticos. Quien desee proporcionar un PDF debería presentar idealmente un formato de documento fácilmente procesable. También los personas ciegas que quieren o deben utilizar un lector de pantalla se adaptan mejor a simples documentos como PDF.

Un índice de documentos facilita la búsqueda de documentos existentes y evita el rastreo o scraping. Al rastrear, se automatiza la recopilación de páginas web. Esto no solo agota al recolector, sino que también perjudica al servidor del sitio web recopilado, ya que se genera un mayor y sobre todo innecesario tráfico de datos.

La lengua de género es una catástrofe desde un punto de vista técnico. No hay más que decir al respecto desde un punto de vista técnico. Quien desee proporcionar textos comprensibles para todos debería renunciar a la forma de género. Muchas personas también pueden encontrar algunos formulados en términos de género difíciles de entender, como el lenguaje común. La inclusión es diferente a través de la complicación. Al menos parece que la llamada Lengua Leve no solo se distancia del gendern sino que introduce otras simplificaciones.

Quien cambie el género, debería hacerlo de manera consecutiva desde un punto de vista lógico y por su propio interés a partir de ahora. Consecutivo significa que debe hacerlo en cada oración, al menos también en las búsquedas o promociones. Nadie puede ser obligado a hacerlo, pero tampoco debería sorprenderse si un chatbot o una búsqueda no responde en género.

Conclusión

La contaminación técnica de la lengua de género en los datos de entrenamiento para modelos de lenguaje de inteligencia artificial o hace que el entrenamiento sea más difícil, ya que se requieren más datos de entrada. La contaminación lingüística complica algunas oraciones, especialmente cuando también se alteran los artículos indeterminados antes del sustantivo principal. Esto provoca la exclusión de lectores que ya tienen problemas para entender textos escritos a nivel de cerveza.

En este punto NO se discute género. Aquí solo se tratan consideraciones puramente funcionales.

Quien en la era de la Inteligencia Artificial desee proporcionar documentos, ya sea para el público o para sistemas internos de IA, debería por razones técnicas prescindir del lenguaje de género, o duplicar todos los datos de entrenamiento y dotar a las copias con formas contrarias.

Quien encuentra divertida la lengua de género debería usarla en todas partes por internet, incluso si eso significa más trabajo de teclear. De lo contrario, el modelo de lenguaje de inteligencia artificial alimentado con las entradas se volverá cada vez más fino para la lengua utilizada hasta ahora, que no necesita asteriscos de género ni similares.

Mensajes clave

Es importante desarrollar modelos de lenguaje de IA específicos para el alemán, ya que los modelos existentes, entrenados principalmente en inglés, no lo comprenden completamente.

Para que la inteligencia artificial en alemán sea realmente efectiva, se necesitan datos de entrenamiento en alemán de alta calidad.

Para que las inteligencias artificiales funcionen bien, los datos que se les dan deben ser claros, simples y consistentes.

El lenguaje de género dificulta que las máquinas lo procesen y puede confundir a los modelos de inteligencia artificial.

Para que los modelos de inteligencia artificial funcionen mejor, es mejor evitar el lenguaje de género porque complica el entrenamiento y dificulta la comprensión para algunos lectores.

Acerca de