Los sistemas de IA ofrecen resultados impredecibles. El problema no puede resolverse para los sistemas de IA con una finalidad general (ChatGPT), pero sí para los sistemas de IA propiedad de la empresa con una finalidad específica. La obligación de transparencia puede derivarse únicamente del RGPD. Los operadores y proveedores de sistemas de IA deben cumplir obligaciones adicionales en virtud de la Ley de IA.
Introducción
¿Cómo se puede hacer que un sistema de IA sea transparente? La respuesta a esta pregunta para los sistemas generales de IA es: en absoluto. Esto se debe a que estos sistemas generales, incluido ChatGPT, funcionan sobre la base de redes neuronales. El funcionamiento de estas redes es bien conocido. Si se escribiera una fórmula que describiera la red, nadie la entendería, y mucho menos sería capaz de leerla correctamente.
La RGPD establece en el artículo 5 la obligación de transparencia al procesar datos personales. Esto es aplicable a todos los sistemas de Inteligencia Artificial, en los que se procesan datos personales. Son todos los sistemas en los que durante el entrenamiento o cuando se ingresa un usuario (a menudo mediante un prompt) se han introducido datos personales. Es una realidad que (solo?) el Comisionado de Protección de Datos de Hamburgo niega de manera peligrosa.
En el Artículo 5, apartado 1, letra d de la RGPD se exige que los datos sean correctos en su contenido, es decir, que sean precisos. Esto es aplicable a todos los datos personales en sistemas de Inteligencia Artificial. En cualquier caso, esta norma jurídica debe cumplirse al menos en el momento de la inferencia, es decir, cuando un sistema de IA genera una salida.
La ordenanza AI (Ley de Inteligencia Artificial) define obligaciones que, en particular, deben cumplir los proveedores de sistemas de inteligencia artificial. Se imponen obligaciones especiales para la Inteligencia Artificial de alto riesgo. Este tipo de sistema debe ser el caso excepcional en la práctica.
Las mayoría de las empresas que utilizan sistemas de Inteligencia Artificial son Propietarios. Para los propietarios se aplican mucho menos obligaciones que para Ofrecedores. Propietario es uno como empresa o organización según el Artículo 3 Número 4 AI-VO, si uno "utiliza un sistema de IA en propia responsabilidad". Todo lo que va más allá cae bajo el concepto de Ofrecedor (Artículo 3 Número 3 AI-VO).
La idea de aumentar la transparencia y la documentación de los sistemas de IA se le ocurrió al autor en una reunión del grupo de expertos en IA del Comisionado Estatal de Protección de Datos de Baja Sajonia, del que el autor es miembro. El autor también ha publicado anteriormente un libro sobre desarrollo de software basado en pruebas.
Por un lado, la transparencia es una presentación externa de los resultados de la IA. Sin embargo, la transparencia interna, es decir, para el operador de una IA, es casi más importante: ¿Cómo funciona la IA? ¿Qué resultados produce?
Prueba de la corrección de los resultados de la IA
En general, no es posible garantizar completamente que una IA sólo gaste correctamente. Sin embargo, es posible acercarse. Antes de hacer una sugerencia en este sentido, se da un ejemplo por el muy buen traductor DEEPL (¡de Alemania!), que utiliza AI sí mismo y, al igual que cualquier otro sistema de IA, a veces comete errores:

Se pidió a DEEPL que tradujera un texto que contenía una cantidad monetaria. DEEPL tradujo 1.050,00 euros de tal forma que la cifra en euros fue sustituida por una cifra en libras. Esto es obviamente incorrecto. Para quien quiera probarlo por sí mismo: ¡Depende del texto global! Esto se ha ocultado parcialmente en la captura de pantalla anterior porque se trataba de información semisensible. Probablemente obtendrá un resultado correcto si sólo introduce la última frase en DEEPL. Pero si el texto del preámbulo es diferente, puede producirse el error. Esto demuestra por sí solo cómo funcionan los sistemas de IA no transparentes.
Por lo tanto, no se pueden evitar los errores. ¿Cómo puede seguir cumpliendo con su deber de transparencia y garantizar la corrección de los resultados de la IA en la medida de lo posible?
La respuesta es: A través de pruebas de casos.
Los casos de prueba son pares de entradas reales y salidas objetivo. Un caso de prueba consta de una entrada real y una salida real que se acepta como buena. Al parecer, el Reglamento sobre IA (AI-VO) incluso ha tenido esto en cuenta:
Esto se debe a que el art. 3 nº 53 del Reglamento AI define el término "plan para un ensayo en condiciones reales" como "un documento que describe los objetivos, la metodología, el ámbito geográfico, poblacional y temporal, el seguimiento, la organización y la realización de un ensayo en condiciones reales".
La núm. 56 del mismo artículo define Experiencia en IA como "las habilidades, conocimientos y comprensión que permiten a los proveedores, operadores y afectados, en consideración de sus respectivos derechos y obligaciones dentro de este reglamento, utilizar sistemas de inteligencia artificial con competencia profesional, así como ser conscientes de las oportunidades y riesgos de la inteligencia artificial y posibles daños que pueden causar
Con la ayuda de los casos de prueba, los operadores (y más aún los proveedores) pueden ser más conscientes de las oportunidades y los riesgos de la IA que operan u ofrecen.
También pueden ser creados los Deepfakes mencionados en el n.º 60 del Artículo 3 de la AI-VO. En este caso, se trata de un "contenido de imagen, sonido o video generado o manipulado por inteligencia artificial que parece a personas, objetos, lugares, instituciones o eventos reales y podría hacer que una persona parezca auténtica o verdadera". Al utilizar modelos de imágenes, se aseguraría de que las entradas dirigidas a personas reales y que pretenden presentarlas en un sentido negativo sean detectadas y evitadas lo mejor posible. En cualquier caso, ya se puede documentar con la ayuda de casos de prueba dónde (todavía) están los debilidades del sistema AI.
Los casos de prueba son un medio excelente para documentar la calidad de los sistemas de IA. También pueden hacer que esos sistemas sean más transparentes y poner de relieve los puntos débiles que aún presentan.
La obligación de que los proveedores de sistemas de IA no de alto riesgo evalúen su propio sistema, establecida en el artículo 6 (4) del Reglamento sobre IA, también puede tener lugar a través de casos de prueba.
El sistema de gestión de riesgos a que se refiere el apartado 1 del artículo 9 del Reglamento sobre IA puede apuntalarse muy bien con la ayuda de casos de prueba.
Otras numerosas disposiciones de la Ley de IA imponen obligaciones a los proveedores y operadores de sistemas de IA que pueden cumplirse mediante casos de prueba documentados. Entre ellas figuran las siguientes:
- Art. 11 (1) Reglamento sobre IA: documentación técnica de un sistema de IA de alto riesgo
- Art. 17 AI-VO: Gestión de la calidad
- Art. 53 Reglamento sobre IA en su conjunto: Obligaciones de los proveedores de modelos de IA de propósito general
- Los artículos 91 y 101 del Reglamento sobre IA pueden tener consecuencias negativas para los proveedores de IA si su documentación no parece suficiente.
- El artículo 4 del Reglamento sobre IA también exige a los operadores que garanticen que sus empleados tienen suficientes conocimientos de IA.
Ejemplos de casos de prueba
¿Qué aspecto tiene un caso de prueba? He aquí un ejemplo de modelo lingüístico diseñado para responder a preguntas:
Es (pregunta = entrada)Debería (respuesta = salida de la IA)¿Qué son las cookies? Las cookies son registros de datos…¿Las cookies son archivos de texto?
Estos dos casos de prueba por sí solos dejan claro que no es buena idea querer manejar un chatbot universal. Nadie podrá escribir suficientes casos de prueba para probar todas las preguntas del mundo, es decir, para garantizar la calidad.
Por lo tanto, un sistema de IA debe adaptarse a un caso de uso o a un ámbito especializado. Esto no solo facilita el cumplimiento de las obligaciones derivadas del Reglamento sobre IA, sino que también mejora la calidad de los resultados. La calidad de los chatbots especializados, por ejemplo para el sector de la construcción, es significativamente mejor de lo que cualquiera podrá conseguir con ChatGPT.
El número de casos de prueba debe ser razonablemente alto. Los casos de prueba adicionales pueden añadirse gradualmente. En concreto, si la respuesta de la IA a una pregunta del usuario no ha sido satisfactoria, es aconsejable incluir un caso de prueba para ello. El caso de prueba sirve al menos como documentación, pero preferiblemente como base para optimizar el sistema de IA y utilizar el caso de prueba para comprobar el éxito de la optimización.
Cuando se construye un sistema de conocimiento (como uno de los muchos posibles sistemas de IA), existe un truco para aumentar significativamente la calidad de los resultados. El llamado enfoque RAG sólo conduce a un éxito limitado y a la cima. De qué se trata se describirá en un artículo posterior,
¿Cómo pueden ejecutarse los casos de prueba?
Una vez creados los casos de prueba, hay que ejecutarlos. En concreto, esto significa:
- El "real" definido de un caso de prueba se presenta a la IA como entrada.
- La IA responde.
- La respuesta de la IA se compara con el "objetivo" del caso de prueba.
Los casos de prueba pueden ejecutarse automáticamente.
Los humanos sólo tienen que ver los resultados.
Existen varias opciones para comparar el resultado de la IA con el óptimo esperado del caso de prueba:
- Análisis de IA con comparación de similitud semántica
- Análisis de IA mediante un modelo lingüístico (¡o varios!)
- Análisis convencional (ejemplo: "No" en el objetivo y "Sí" en la salida de la IA se contradicen)
- Mezcla de todos los métodos (recomendado)
La alternativa mencionada en el caso dos de utilizar varios modelos lingüísticos simultáneamente para analizar los resultados de las pruebas funciona muy bien con los modelos de código abierto. Los costes son siempre los mismos, es decir, cero (más los costes fijos de funcionamiento del servidor). Si se utilizara ChatGPT, los costes serían bastante elevados a largo plazo.
Con estos métodos de análisis, los casos de prueba pueden analizarse en gran medida de forma automática. A continuación, el humano comprueba el resultado y puede escribir una conclusión en la documentación.
Conclusión
La funcionalidad de los sistemas de IA puede documentarse con la ayuda de casos de prueba y hacerse así transparente. Por supuesto, la transparencia también incluye información sobre la arquitectura del sistema de IA. Esto puede hacerse fácilmente si usted mismo maneja la IA. En el caso de sistemas de terceros, como ChatGPT, hay que confiar en la información facilitada por el proveedor (OpenAI o similar).
Los casos de prueba también pueden utilizarse para comprobar y mejorar la corrección de los resultados de la IA.
Los casos de prueba tienen, por tanto, varias ventajas y grandes beneficios. A menudo se crean rápidamente. Con el apoyo de la IA, los casos de prueba pueden incluso derivarse automáticamente. El creador humano de casos de prueba recibe así una plantilla muy buena para los casos de prueba y puede solucionarlos con una fracción del esfuerzo manual que de otro modo sería necesario.



Me llamo Klaus Meffert. Soy doctor en informática y llevo más de 30 años dedicándome profesional y prácticamente a las tecnologías de la información. También trabajo como experto en informática y protección de datos. Obtengo mis resultados analizando la tecnología y el Derecho. Esto me parece absolutamente esencial cuando se trata de protección de datos digitales.
