Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Inteligencia Artificial: Textos alemanes en modelos de lenguaje de IA

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI

Bases de datos de documentos, chatbots, asistentes de voz, sistemas de preguntas y respuestas: todos ellos pueden ser adecuados para el alemán, una lengua mundialmente subordinada. ChatGPT no proporciona respuestas exactas. A pesar de algunas pequeñas peculiaridades como la forma de género en alemán, modelos de lenguaje AI confiables son posibles.

Introducción

El uso de inteligencia artificial en la empresa se diferencia fundamentalmente de la utilización privada de ChatGPT, Microsoft Bing,Google Bard o cualquier otro sistema de Datacracker.

Las empresas dan sus datos junto con secretos comerciales, patentes, datos de empleados, datos de clientes, contratos o cualquier otro tipo de datos confidenciales a menudo solo con reticencia a ChatGPT. Por otra parte, se deben proporcionar más datos a otros en el futuro. Eso dice la Data Governance Act (DGA) de la UE, que entró en vigor en septiembre de 2023 debido a su carácter reglamentario.

Además, las exigencias a respuestas correctas de un chatbot o cualquier otro sistema de lenguaje artificial son mucho más altas en el ámbito público que en el privado. Esto es cierto al menos fuera del área creativa. La élite son cuestiones jurídicas, que sistemas modernos pero generales como ChatGPT y la KI de Bing de Microsoft no pueden responder bien (razón: ver enlace). También las administraciones que sirven a los ciudadanos no deberían recurrir a chatbots poco fiables, incluido ChatGPT.

El punto de género es adecuado para contaminar datos de entrenamiento para modelos de lenguaje.

Especialmente por eso, porque el punto de dos puntos es normalmente un signo de puntuación de fin de oración.

La función de corrección automática de texto de Google Bard, publicada recientemente, no funciona correctamente, como se demostró en un texto práctico con una mirada más detallada.

Se dificulta innecesariamente a los modelos de lenguaje de inteligencia artificial, ya que en los datos de entrenamiento la gramática se atenúa a veces debido al uso del género. Además, el doble punto de género garantiza que frases enteras en textos no son reconocidas con seguridad.

El alemán es una lengua maltratada en comparación con el resto del mundo (ver imagen abajo). Los modelos de lenguaje poderosos que se centran en el inglés solo entienden al alemán porque esta lengua ha sido adoptada casi como un subproducto emergente, sin quererlo.

Ventajas de modelos de lenguaje propios

Un modelo de lenguaje puede obtenerse de las siguientes maneras:

  • Crear desde cero. Esto suele requerir varias decenas de miles de horas de tiempo de cómputo en GPU (GPU = procesador gráfico), por lo que no es factible para muchas empresas.
  • Reutilizar modelos de lenguaje abiertos, caracterizados por un refinado ajuste: camino más exigente pero controlable.
  • Reutilizar modelos de lenguaje abiertos que solo reciben como contexto documentos propios del prompt.

Las primeras dos posibilidades tienen la posibilidad de adoptar un lenguaje de género de manera diferente. El fine-tuning tendrá problemas que no se pueden evitar por completo.

Deutsch ist keine Weltsprache. Die Liste zeigt die Sprachen in der Nennung ihrer Relevanz für das Sprachmodell FLAN-T5 von Google. Vor Deutsch sind sogar Sprachen wie Gujarati genannt, die vielen gänzlich unbekannt sein dürften.

La tercera posibilidad de reutilizar modelos de lenguaje abierto es la más técnica y a menudo funciona. No se adapta en absoluto con el lenguaje de género. Esto es una afirmación técnica y no política.

Un modelo de lenguaje alemán propio no solo es posible, sino que también tiene muchos beneficios. Entre otros, los beneficios son:

  • La lengua alemana es lo principal. Vivimos en Alemania y no en España. Los anglicismos pueden entender un modelo lingüístico alemán también.
  • El lastre de cientos de otras lenguas no tiene que ser arrastrado. Bueno para las exigencias de hardware (tarjeta gráfica!) y la velocidad de funcionamiento.
  • Contenido de alta calidad puede utilizarse en lugar de basura informativa (= material generalmente disponible que no ha sido seleccionado previamente).
  • Enfocarse en un campo de estudio (o también varios).
  • Guía del usuario óptima con sensibilización de los resultados en lugar de actuar como si cada respuesta fuera correcta (ver ChatGPT o Bing).
  • Costos más bajos o fijos: Un sistema de Inteligencia Artificial propio se basa principalmente en los costos de adquisición o alquiler de un servidor de IA. Una frecuente utilización no cambia eso. Los costos siguen siendo igualmente bajos. Algo muy diferente son las soluciones en la nube como ChatGPT. La consulta de un documento se vuelve rápidamente cara a medida que aumenta su uso. Quien utiliza la API del chatbot de OpenAI debería evitar programar recursividad o bucle infinito, ya que de lo contrario el presupuesto se agotará en minutos y sin ningún beneficio. Eso no puede pasar con un sistema propio.

El siguiente apartado trata de datos de entrenamiento para modelos de lenguaje artificial alemanes, porque estos forman la base de la inteligencia artificial en lengua. De ahí se derivan también varias propuestas para las autoridades y otras instituciones estatales que podrían permitir la inteligencia artificial a velocidad alemana.

Datos de entrenamiento para asistentes de lenguaje de inteligencia artificial alemanes

Los datos de entrenamiento son lo que la educación de un niño por parte de sus padres equivalen. Para los modelos lingüísticos se necesitan textos en alemán. ¿De dónde sacar estos textos si no es robar?

El Internet ofrece una gran variedad de textos en alemán. También las empresas tienen en su Red interna numerosos documentos que son adecuados como fuente de conocimiento.

PDF en lugar de HTML

El Tribunal Federal de Casación (BGH) publica sus sentencias aparentemente solo en formato PDF. La plataforma benéfica openjur extrae estos PDF y extrae del texto (manualmente?) a partir de ellos. A continuación, openjur pone los fallos a disposición gratuita en línea. También el Bundesanzeiger publica muchos documentos solo en formato PDF.

Analogamente se comporta con algunas otras fuentes públicas importantes que pueden ser de interés para los modelos de IA, por ejemplo, muchas autoridades emiten informes o directrices de actividades únicamente en formato PDF.

Kompliziertes zweispaltiges PDF einer Datenschutzbehörde.

La imagen muestra un extracto de un documento oficial y público en formato PDF de una autoridad alemana de protección de datos. No solo que dos columnas complican el importe del texto por sí mismas. Las dos columnas se segmentan además con una encabezado intermedio. Lo que para la gente es fácilmente comprensible a simple vista, es un problema para una etapa previa de la Inteligencia Artificial. Casi todo es resoluble, pero ¿con qué esfuerzo y con qué precisión? ¿Por qué no proporcionar datos brutos o al menos (también o solo) formatos que son de una sola columna? Ejemplos son HTML o texto bruto. El HTML puede ser una página web legible por humanos, que también puede leerse bien por la máquina, lo cual se conoce como Scraping.

Evitar el lenguaje pesado

Desde un punto de vista lógico y técnico, el gendern es lo opuesto a una lengua simple ( "Lengua fácil" ). Aquí hay un ejemplo de un documento de una autoridad alemana de protección de datos:

  • Trabajadores/as en lugar de trabajadores

En otros documentos de la misma autoridad se encuentra, por ejemplo:

  • Trabajadores*as

Estas formulaciones no son ni coherentes ni "fáciles". Además, parece que solo se aplica la lengua de género a los textos que se entregan como salida en motores de búsqueda o chatbots.

La cuestión es si cada usuario consulta un modelo de inteligencia artificial con lenguaje de género o si tal vez no hay ninguno. Tampoco la inteligencia artificial puede realizar milagros. Igualmente, ningún ser humano es un genio. La mayoría de las personas en Alemania ni siquiera pueden cambiar una rueda a un automóvil.

La calidad de los datos es importante: Un modelo de lenguaje llamado Zephyr tiene solo un décimo de los parámetros de un poderoso modelo de 70B y es (también) debido a la calidad de los datos igualmente bueno.

Esto conlleva un cargado del modelo mucho más rápido y una generación de respuestas mucho más rápida.

Se vuelve más complicado desde el punto de vista técnico, porque antes del procesamiento por IA no está claro cómo debería llevarse a cabo la normalización de los términos que se han distorsionado por el giro de género. Aquí hay dos ejemplos de oraciones con el sustantivo principal normalizado correspondiente:

  • .empleados:es … –> empleados
  • Por empleados: … –> Empleado

Como se puede ver, de dos formas de una palabra se pasa a una sola al hacer desaparecer la gramática mediante el género. El hombre puede seguir este camino, ya que es inteligencia (no siempre, pero ocasionalmente). Un ordenador que está procesando textos previos para ser utilizados en el entrenamiento de un modelo de lenguaje artificial no puede resolver esta ambigüedad con precisión. En cualquier caso, se necesitan muchas consideraciones individuales hasta que el resultado general sea bastante aceptable.

La siguiente formulación es difícil de procesar con máquinas porque la gramática aquí se desvanece completamente. Probablemente también muchos personas tienen problemas para entender esta lengua.

  • Ciudadano/a

Quien lo encuentre aún más complicado utiliza en su lugar el asterisco de género:

  • Ciudadano/a

Los modelos AI se basan en muchos millones, a menudo mil millones de conjuntos de datos. Algunos grandes modelos lingüísticos consideran un conjunto de datos como una parte del texto. Dado que los modelos AI aprenden debido a muchos ejemplos, es necesario utilizar la lengua de género numerosos ejemplos adicionales. El problema fundamental se vuelve innecesariamente complicado.

Independientemente de eso, la gramática sufre, como se ha mostrado anteriormente. De claridad a oscuridad. Quien sepa un poco sobre modelos de IA sabe cuán importante son los datos de entrada limpios. Más distinciones y más oscuridad en sí mismas son manejables, pero requieren más esfuerzo. El esfuerzo para entrenar o afinar modelos de IA es alto en sí mismo y para muchos resulta inabordable.

Los métodos de procesamiento del lenguaje natural clásicos, como la lemmatización y la formación de raíces, se ven confundidos por el punto de género.

Determinación objetiva y puramente técnica. NLP = Procesamiento de Lenguaje Natural.

Una cuestión interesante sería si defensores del lenguaje de género lo introducen también en campos de búsqueda de motores de búsqueda o como promp en modelos de Inteligencia Artificial. De manera consecuente, un defensor del lenguaje de género tendría que hacerlo. Por lo menos ahora sabrá él o ella que los motores de búsqueda y los modelos de IA también aprenden de las entradas de los usuarios. Si los usuarios siempre utilizan una lengua tradicional y común, y no la versión gendereada, entonces lamentablemente (o afortunadamente?) la aplicación no dominará el lenguaje de género lo suficientemente bien.

Se trata de la argumentación pura, abolir el género a favor de la Inteligencia Artificial. Sin embargo, una nota al margen. Me llegó un comentario previo que decía: „'La lengua es del pueblo' – Resolución del Bundestag del 26.3.1998“. A este respecto se debe mencionar que la mayoría de los alemanes está en contra del lenguaje de género. Si el decisión democrática mayoritaria es respetada, la decisión del pueblo ha caído. Otro comentario decía que una KI consultada respondió que entendía el lenguaje de género. Probablemente era ChatGPT, un sistema que da respuestas Respuestas de favor constantemente, y también responde falsamente a menudo, y en general es inadecuado para proporcionar resultados precisos para tareas específicas en la empresa.

Propuestas para una mejor calidad de datos

Las siguientes recomendaciones se dirigen tanto a empresas como a instituciones públicas. En particular, estas últimas tienen la capacidad de proporcionar información de interés general en un formato digital fácilmente procesable.

Los documentos públicamente disponibles deberían ser presentados en un formato de texto bruto. Por lo común, se utiliza una mayor nivel, es decir, HTML. Proporcionar solo un PDF suele causar problemas con la procesabilidad mecánica. Los PDFs con más de una columna para el texto fluyente son aún más problemáticos. Quien desee proporcionar un PDF debería presentar idealmente un formato de documento fácilmente procesable. También los personas ciegas que quieren o deben utilizar un lector de pantalla se adaptan mejor a simples documentos como PDF.

Un índice de documentos facilita la búsqueda de documentos existentes y evita el rastreo o scraping. Al rastrear, se automatiza la recopilación de páginas web. Esto no solo agota al recolector, sino que también perjudica al servidor del sitio web recopilado, ya que se genera un mayor y sobre todo innecesario tráfico de datos.

La lengua de género es una catástrofe desde un punto de vista técnico. No hay más que decir al respecto desde un punto de vista técnico. Quien desee proporcionar textos comprensibles para todos debería renunciar a la forma de género. Muchas personas también pueden encontrar algunos formulados en términos de género difíciles de entender, como el lenguaje común. La inclusión es diferente a través de la complicación. Al menos parece que la llamada Lengua Leve no solo se distancia del gendern sino que introduce otras simplificaciones.

Quien cambie el género, debería hacerlo de manera consecutiva desde un punto de vista lógico y por su propio interés a partir de ahora. Consecutivo significa que debe hacerlo en cada oración, al menos también en las búsquedas o promociones. Nadie puede ser obligado a hacerlo, pero tampoco debería sorprenderse si un chatbot o una búsqueda no responde en género.

Conclusión

La contaminación técnica de la lengua de género en los datos de entrenamiento para modelos de lenguaje de inteligencia artificial o hace que el entrenamiento sea más difícil, ya que se requieren más datos de entrada. La contaminación lingüística complica algunas oraciones, especialmente cuando también se alteran los artículos indeterminados antes del sustantivo principal. Esto provoca la exclusión de lectores que ya tienen problemas para entender textos escritos a nivel de cerveza.

En este punto NO se discute género. Aquí solo se tratan consideraciones puramente funcionales.

Quien en la era de la Inteligencia Artificial desee proporcionar documentos, ya sea para el público o para sistemas internos de IA, debería por razones técnicas prescindir del lenguaje de género, o duplicar todos los datos de entrenamiento y dotar a las copias con formas contrarias.

Quien encuentra divertida la lengua de género debería usarla en todas partes por internet, incluso si eso significa más trabajo de teclear. De lo contrario, el modelo de lenguaje de inteligencia artificial alimentado con las entradas se volverá cada vez más fino para la lengua utilizada hasta ahora, que no necesita asteriscos de género ni similares.

Mensajes clave

Es importante desarrollar modelos de lenguaje de IA específicos para el alemán, ya que los modelos existentes, entrenados principalmente en inglés, no lo comprenden completamente.

Para que la inteligencia artificial en alemán sea realmente efectiva, se necesitan datos de entrenamiento en alemán de alta calidad.

Para que las inteligencias artificiales funcionen bien, los datos que se les dan deben ser claros, simples y consistentes.

El lenguaje de género dificulta que las máquinas lo procesen y puede confundir a los modelos de inteligencia artificial.

Para que los modelos de inteligencia artificial funcionen mejor, es mejor evitar el lenguaje de género porque complica el entrenamiento y dificulta la comprensión para algunos lectores.

Acerca de

Sobre el autor
Me llamo Klaus Meffert. Soy doctor en informática y llevo más de 30 años dedicándome profesional y prácticamente a las tecnologías de la información. También trabajo como experto en informática y protección de datos. Obtengo mis resultados analizando la tecnología y el Derecho. Esto me parece absolutamente esencial cuando se trata de protección de datos digitales.

ChatGPT y la inteligencia artificial de Bing como garantía para resultados falsos. Amistad con los datos y precisión de los datos?