Los datos sensibles no deben estar en manos ajenas o americanas, como por ejemplo ChatGPT, las nubes de Microsoft, Google o AWS. Lo bueno es que los sistemas de inteligencia artificial propios son posibles y asequibles. Por fin, los secretos comerciales ya no tienen que ser invitados a entrar en ChatGPT o alguna nube. Un experimento para un asistente de preguntas-respuestas para este blog sobre protección de datos, Dr. RGPD.
Introducción
Si hasta ahora nos daba igual el Protección de datos, tal vez ahora sí le demos importancia a que nuestros Secretos comerciales no se dispersen por todo el mundo. Es posible que incluso existan acuerdos de confidencialidad legales para ciertos documentos. Si un documento es cargado en la nube de ChatGPT o Google, dudo que su confidencialidad sea respetada.
Amigable con los datos: Seguro para todos tipos de datos, ya sean personales (protección de datos), confidenciales o secretos comerciales.
Amigable con los datos es más que amigable con el secreto.
El no menos frecuente desagrado por la protección de datos vuelve a entrar en la conciencia de muchos. Mientras que las motores de búsqueda podían y pueden procesar datos sin intervención, los mismos datos de sistemas de Inteligencia Artificial no pueden ser procesados sin una solicitud previa de las autoridades de protección de datos. ¡Qué curioso! Probablemente también se debe a las posibilidades que ofrece la Inteligencia Artificial, pero igualmente seguro es el impulso del rebaño (si una autoridad revisa, entonces podemos hacerlo también sin ser considerados como obstaculizadores, piensan algunos funcionarios. Sólo así puedo explicármelo, por qué el país más inactivo en materia de protección de datos del mundo (Hesse) anunció un tímido avance en forma de una solicitud a ChatGPT).
Un uso común de la Inteligencia Artificial es la búsqueda de documentos. Más exigente son los sistemas de preguntas y respuestas o motores de búsqueda que proporcionan resúmenes de texto directamente con los resultados. Mi plan era crear un sistema de búsqueda para el blog Dr. RGPD Protección de datos, y es fácil de usar.
El asistente de búsqueda para el Dr. RGPD debería proporcionar una respuesta a preguntas en idioma natural. Aquí un ejemplo:
¿Necesita mi sitio web un popup de cookies?
La respuesta de la inteligencia artificial es mejor que la de la mayoría de las personas. Respuesta del Dr. RGPD AI: véase abajo.
Al igual que se puede inferir de la pregunta en cuestión, algunas preguntas están formuladas de manera diferente a lo que sería académicamente correcto. Muchas preguntan si algo es conforme con el derecho a la protección de datos. Lo que se pretende es generalmente saber si una determinada procesamiento de datos está de acuerdo con la RGPD.
La respuesta deberá darse en mis propias palabras, y se basará en los artículos publicados hasta ahora sobre Dr. RGPD. En este caso, hallucinaciones deben evitarse, ya que se trata de hechos y conocimientos legales relevantes. Las hallucinaciones son afirmaciones inventadas que no existen. Me referiré específicamente a cómo surgen las hallucinaciones en un futuro artículo, ya que pueden explicarse fundadamente sin recurrir a especulaciones.
Prototipo demuestra viabilidad
He probado mediante un prototipo que los sistemas de Inteligencia Artificial propios pueden ser programados y ejecutados localmente en servidores propios. El caminos fácil habría sido una de las siguientes posibilidades:
- Utilizar la interfaz de ChatGPT, o
- Gastar mucho dinero en el problema y regalar a los americanos (Cloud)
- No más dinero para tirarlo al problema y comprar hardware caro.
Comprar hardware caro es un camino viable para empresas más grandes, pero no para muchas PME. Por lo tanto, he elegido otro Setup. Al elegir el hardware se tuvo en cuenta el costo. Para ello hay que saber que las cálculos de Inteligencia Artificial (IA) tienen lugar en Tarjetas gráficas. La tarjeta gráfica no se utiliza aquí para la salida de imágenes o textos. Más bien, se aprovechan los muchos miles de miniprocesadores de una tarjeta gráfica para realizar el trabajo intensivo de cálculo de IA más rápido que un solo procesador Einstein del ordenador personal más bueno podría hacerlo. Lamentablemente, las tarjetas gráficas con mucho almacenamiento principal son muy caras. Una tarjeta gráfica con 48 GB de almacenamiento principal costaba hace unos meses aún 15.000 euros. Para buenos modelos de IA se necesitan sin embargo más bien 96 GB o incluso 400 GB de almacenamiento principal más caro de varias tarjetas gráficas (no el almacenamiento de disco duro y no el RAM barato del ordenador).
Mis sistemas de Inteligencia Artificial funcionan en Hardware mínimo, entendiendo el término en contexto de Inteligencia Artificial. Un ejemplo: La búsqueda de (propios) documentos del Intranet de la empresa a través de preguntas en lenguaje natural funciona en un servidor alquilado de la mini-clase. Por supuesto, también se puede utilizar un propio servidor de la empresa. Esto es posible gracias a la explotación de procedimientos de optimización que se pagan con una mayor complejidad técnica. Una vez resuelto, el problema de complejidad está resuelto.
Aplicaciones de Inteligencia Artificial eficaces y modelos lingüísticos
Para asistentes de preguntas y respuestas se necesita algo más que para la búsqueda inteligente de documentos. Pues no solo deben encontrarse los documentos, sino también extraerse contenidos de ellos y presentarlos como respuesta. La forma simple es una respuesta extractiva. Eso es un citado literal del texto original. Más difícil y mejor son sistemas de respuestas abstractivas. Eligen una respuesta en sus propias palabras y pueden incluso combinar el conocimiento de varios documentos para presentar una respuesta en nuevas palabras. La respuesta no habría sido posible con un solo documento. El hombre habría tenido que encontrar, leer y procesar intelectualmente muchos documentos. La inteligencia artificial asume esta desagradable, tiempo consumidor y sobre todo inalcanzable para muchas personas tarea y resuelve el problema.
Mis sistemas de Inteligencia Artificial tienen el objetivo de ser amigables con los datos. Además, deben funcionar en hardware lo más económico posible. Ambas cosas son posibles, como muestra la práctica.
Aplicaciones más profundas probadas hasta ahora: búsqueda de documentos, comprensión de texto, generación de imágenes, análisis de imágenes, aplicaciones de audio.
Cuando hablamos de buscar y resumir documentos, nos referimos normalmente a documentos y respuestas en idioma alemán. Para decirlo muy brevemente: el alemán es desafortunadamente una lengua no universal. Por eso resulta mucho más difícil procesar textos alemanes con una aplicación de Inteligencia Artificial, que textos ingleses o chinos (donde último me resultaría particularmente difícil).
Para mi sistema de inteligencia artificial es necesario un cerebro electrónico (un "modelo") que entienda y pueda hablar alemán. Esto aumenta significativamente las demandas para una arquitectura de IA. Pero también este problema es resoluble, como he descubierto. El modelo de IA requerido por la exigencia alemana tiene un tamaño que no sería utilizable en hardware económico.
Para utilizar sistemas de inteligencia artificial eficaces en servidores que sean a la vez accesibles y disponibles en Alemania (protección de datos! Secretos comerciales! Confidencialidad!), se necesitan algunas trucadas. Al crear la solución de IA me sentí como si estuviera participando en "Jugend forscht!" (concurso escolar nacional). También para el informático esta materia compleja es un desafío que finalmente pudo resolverse.
Técnicas y procedimientos matemáticos modernos como la cuantificación, modelos optimizados de parámetros y arquitecturas de modelos de Inteligencia Artificial especializadas ayudan a lograr una solución eficiente en recursos.
Aquí algunas respuestas reales, generadas por mi AI a partir de cientos de contribuciones de Dr. RGPD a las preguntas mencionadas.
| Pregunta | Respuesta a través de IA |
|---|---|
| ¿Qué significa el seguimiento en la web? | El seguimiento web se refiere a la supervisión y análisis del comportamiento de visitantes en una página web o aplicación. Esto puede realizarse mediante el uso de tecnologías como cookies, registros del servidor u rastreo de conversión. El objetivo es recopilar datos sobre los usuarios para aumentar la comprensión del comportamiento de visitantes. |
| El seguimiento de Ist es conforme a la RGPD? | Sí, el rastreo está conforme con la RGPD si la recopilación, almacenamiento y tratamiento de datos personales se realizan según las exigencias de la RGPD. La política de privacidad debe hacer accesible a los usuarios una explicación correspondiente y debe haber una autorización. El uso de cookies suele requerir una autorización. Google Analytics solo puede justificarse si hay una autorización o existen garantías adecuadas para que el destinatario de los datos, es decir Google, no utilice estos datos a sus propias intenciones. |
| ¿Quién es Max Schrems? | Max Schrems es un activista austriaco de la protección de datos y cofundador de la organización noyb (None Of Your Business), que se esfuerza por una presentación clara y comprensible de las directrices de protección de datos en la práctica. También es el iniciador de varias demandas contra Facebook y otras empresas estadounidenses por violaciones de la privacidad a través de los programas de vigilancia estadounidenses. |
| ¿Qué son las cookies? | Los cookies son conjuntos de datos utilizados por una página web. Están compuestos por un par de datos, un clave y un valor. Un cookie es gestionado y almacenado en el dispositivo del usuario por su navegador. Los cookies a menudo se denominan falsamente como archivos de texto, lo cual no es correcto. |
| ¿Qué son las direcciones IP? | Las direcciones IP son una secuencia numérica asignada a cada dispositivo en Internet para distinguirlo de otros dispositivos en Internet. Son un tipo de dirección que se asocia con cada dispositivo en Internet y permite acceder a otros dispositivos en Internet. IP significa Protocolo de Internet. |
| ¿Son las direcciones IP personales? | Sí, las direcciones IP son personales porque pueden referirse directa o indirectamente a una persona. Esto fue confirmado por el TJUE y el BGH en sus sentencias Breyer de 2016 y 2017. Los cookies que se transmiten junto con una dirección IP a un sitio web también son personales, ya que están vinculados a la dirección de red personalizada. |
| ¿A quién se aplica la RGPD? Quiero saberlo con exactitud! | La RGPD es aplicable a todas las empresas que procesan datos personales. A ellas pertenecen tanto las empresas con sede en la UE como aquellas con sede fuera de la UE, pero que procesan datos personales de ciudadanos de la UE. |
| ¿Aplica la RGPD a Dr. RGPD? | Sí, la RGPD también es aplicable a Dr. RGPD. Esto se indica de manera clara y explícita en la política de privacidad del empresa que opera Dr. RGPD. La política de privacidad puede ser encontrada en el sitio web de la empresa y contiene todas las informaciones relevantes sobre el tratamiento de datos personales por parte de la empresa. |
| En qué casos aplica la RGPD? | La RGPD es aplicable cuando una persona afectada ve violados sus derechos de protección de datos y hace valer un derecho a abstenerse. |
| ¿Es Cloudflare malo? | Los documentos de origen sugieren que Cloudflare no puede utilizarse de manera compatible con la protección de datos. También hay rumores sobre posibles manipulaciones de datos por parte de Cloudflare. |
| ¿Es Klaus Meffert malo? | Basado en los documentos proporcionados no puedo evaluar si Klaus Meffert es malo. No hay información sobre qué significa ser malo o si Klaus Meffert alguna vez fue o es malo. |
| ¿Qué es la inteligencia artificial? | La inteligencia artificial (IA) es el desarrollo de computadoras y software que poseen habilidades humanas como aprender, resolver problemas, comprender y producir lenguaje, percepción sensorial, control de acción y toma de decisiones autónoma. |
| Funciona la seguridad de la información sin protección de datos? | La seguridad de la información y el protección de datos están estrechamente relacionadas, como se desprende del texto que se proporciona. La seguridad de la información y la protección de datos dependen mutuamente según la definición, como se menciona en el artículo 32 de la RGPD. Es responsabilidad del responsable garantizar la seguridad de los datos, como se desprende de ISO 27001. Los reglamentos de protección de datos, especialmente la RGPD, regulan la protección de los datos que son personales o están administrados en dispositivos finales de usuario. Por lo tanto, la seguridad de la información y la protección de datos están verdaderamente relacionadas entre sí. |
| Pueden personas normales aconsejar legalmente a alguien? | Sí, personas normales pueden asesorar a alguien legalmente siempre y cuando no realicen una consideración jurídica individual profunda. La asesoría de protección de datos también puede ser realizada por alguien que no es abogado. El RDG parece obsoleto y superado. Como informático, quiero tener el mismo derecho que los abogados para proteger mi perfil de actividades frente a proveedores de servicios no calificados. |
Estas respuestas no fueron generadas con ChatGPT o cualquier otro sistema externo. También la búsqueda de documentos se realizó mediante una máquina de búsqueda vectorial local y no con Pinecone (privacidad, etc.).
Las respuestas corresponden en gran medida a lo que yo firmaría. En la pregunta de cuál es el ámbito para el cual rige la RGPD, habría que agregar aún más que no solo se aplica a las empresas. Detalles semejantes una IA no puede realmente realizarlos con los datos de entrada disponibles. Esto está en primer lugar debido a los datos de entrada y en segundo lugar también al modelo, que todavía no ha sido optimizado.
Algunas preguntas fueron formuladas de manera "grosera", como por ejemplo si la RGPD también se aplica a Dr. RGPD. Aunque la respuesta de mi propia AI aquí no es perfecta, la calificaría como muy buena. Otros pueden tener otras expectativas. Quien tenga expectativas mucho más altas que las mías, parece que un sistema de preguntas y respuestas amigable con los datos no está en consideración para él.
La pregunta de en qué casos aplica la RGPD es ambigua. La respuesta de Dr. RGPD AI es buena, pero no óptima. Para esa respuesta nadie debe sentirse avergonzado, a mi juicio. En fin, aquí se trata de una crítica de nivel superior comparando al "hombre promedio que no tiene la menor idea sobre protección de datos" con el "experto en protección de datos que cree saber muchas cosas" (con experto en protección de datos me refiero a cualquier persona, para evitar malentendidos).
¿Y a la pregunta de si las páginas web necesitan un popup de cookie?:
Pregunta: ¿Debo tener un popup de cookies en mi sitio web? Respuesta de Dr. RGPD AI: No, una página web no necesita tener un popup de cookies. Los cookies son solo un herramienta para identificar al usuario y hacer que el servidor envíe ciertas informaciones al usuario. Una página web puede funcionar sin cookies, por ejemplo, mediante la inclusión de JavaScript.
La respuesta es en su núcleo correcta y supera a la mayoría de la humanidad. El profesional del secreto que está fascinado con la tecnología no estaría, sin embargo, completamente satisfecho con la respuesta.
La optimización de una IA
Antes de que una inteligencia artificial proporcione buenas respuestas, es un largo camino, pero uno que solo hay que recorrer una vez. He recorrido este camino en gran medida. Los resultados mencionados anteriormente provienen de la aplicación de inteligencia artificial aún no muy optimizada.
El problema con los modelos de lenguaje que deben proporcionar respuestas en sus propias palabras es una superposición de hechos introducidos (llamados contexto) y el conocimiento inherente al vocabulario. Aprender una lengua no se logra prácticamente sin adquirir conocimientos (o información falsa).
Este problema se vuelve más evidente cuando se pregunta qué son los cookies. Casi todo el internet afirma falsamente que los cookies son archivos de texto. Esto es incorrecto, como he explicado y demostrado varias veces. En mi modelo de lenguaje de inteligencia artificial, basado en muchos textos del internet, esta información falsa está profundamente arraigada. Si ahora introduzco los artículos del blog Dr. RGPD en mi AI, estos documentos con su afirmación "los cookies son conjuntos de datos" apenas se oponen a la afirmación falsa en el modelo de lenguaje de que los cookies son archivos de texto. Un modelo de lenguaje puede tener dificultades para distinguir entre condicional y indicativo. Hice uso del condicional con respecto a los cookies dos oraciones antes. Solo eso podría confundir a una AI si este artículo, que está leyendo ahora, se introduce en un modelo de AI.
Todas las personas son tontas, y en la mayoría de los campos del conocimiento. Los sistemas de Inteligencia Artificial pueden ser significativamente más inteligentes en muchos campos del conocimiento que el experto más capacitado en un campo específico.
Prueba del primer enunciado: Mire a su alrededor. Prueba del segundo enunciado: Consulte GPT-4, así como algunos de los ejemplos que se muestran a continuación.
Hecho esto, no he dejado de trabajar en el contexto para mi sistema de preguntas y respuestas, sino que también he realizado algunas mejoras adicionales. Un modelo de inteligencia artificial no puede ser entrenado al azar si no se dispone del supercomputador necesario. Por lo tanto, me he visto obligado a utilizar procedimientos ahorradores de recursos. Esto es como correr un maratón contra problemas cada vez más nuevos. Pues una vez que se resuelve un problema, otro nuevo surge de la solución del anterior problema.
Un ejemplo de esto es: Para hacer que los modelos de IA sean más pequeños, para que encontren cabida en un almacenamiento gráfico que hace dos años era considerado de alta gama, hay la posibilidad de cuantización. En pocas palabras, se convierten números con gran precisión en números con menor precisión sin que esto afecte significativamente la calidad de la Inteligencia Artificial. Ahora bien, las bibliotecas actuales de programación no apoyan todas las métodos de entrenamiento para modelos de IA cuando se utiliza la cuantización. Por lo tanto, deben introducirse otros procedimientos que resuelvan este problema. Luego surgen problemas con el ajuste fino, etc.
Un ejemplo de cómo la optimización de una Inteligencia Artificial afecta a sus resultados.
Respuesta de la no optimizada Inteligencia Artificial a la pregunta "¿Cuál es la respuesta a todas las preguntas?":
La respuesta a todas las preguntas es: "¿Qué es la respuesta a todas las preguntas?"
También o:
La respuesta a todas las preguntas es: "No lo sabemos."
También
La respuesta a todas las preguntas es: "Si lo sabes, entonces lo sabes."
También
La respuesta a todas las preguntas es: "Si sabes qué hacer, puedes hacerlo"."
También
La respuesta a todas las preguntas es: "Quien como yo corresponde con autoridades, organizaciones, empresas y defensores de la privacidad extranjeros, a menudo busca la traducción inglesa para un término de protección de datos. Mi diccionario reúne los términos más importantes desde mi punto de vista"."
También
La respuesta a todas las preguntas es: "Si hay una respuesta, entonces es la respuesta a esta pregunta." Por lo tanto, si tienes una pregunta que no tiene respuesta, entonces no tienes respuesta a esa pregunta.
También
La respuesta a todas las preguntas es: "Si quieres saberlo con exactitud, debes formularla de manera más precisa"."
También
La respuesta a todas las preguntas es que no hay respuesta a todas las preguntas.
También
La respuesta a todas las preguntas es que la página web ha sido generada por varios ordenadores y redes, por lo tanto todos los contenidos son generados por ordenadores.
También
La respuesta a todas las preguntas es que no hay respuesta a todas las preguntas. Solo existen respuestas a ciertas preguntas.
Al margen de esto, cabe mencionar que la formulación de la pregunta "¿Cuál es la respuesta a todas las preguntas?" parece inapropiada para ser respondida en o desde un blog sobre protección de datos como Dr. RGPD. Pero eso solo al margen.
La respuesta de la propia optimizada inteligencia artificial a la misma pregunta:
La respuesta a todas las preguntas es 42.
La respuesta de mi inteligencia artificial optimizada a la pregunta sobre la respuesta a todas las preguntas.
Finalmente hay la respuesta correcta. La técnica se llama “Grounding”. Si una IA tradujera el término con “Fundación”, sería la respuesta incorrecta… En cambio, significa que se le enseña a un modelo de IA a estar en contacto con la realidad (ground truth), es decir, a conocer su Fuente de Verdad. Si se quiere, se le enseña quién es su Tutor Legítimo.
También fue desafiante enseñarle a la IA que mediante una dirección IP no se puede determinar de manera fiable el lugar donde está ubicado un servidor. La mejor respuesta de su propia IA a la pregunta de si mediante la dirección IP se puede determinar el lugar donde está ubicado un servidor era:
A partir de la dirección IP no se puede determinar con precisión la ubicación de un servidor, ya que la conexión entre la dirección IP y el servidor puede cambiar en cualquier momento. Sin embargo, existen métodos para determinar la ubicación de un servidor, como la utilización de geolocalización por IP o la comparación de metadatos.
Respuesta de la Dra. RGPD AI a la pregunta "¿Se puede determinar el lugar de un servidor mediante la dirección IP?
Creo que esta respuesta puede ser dada por solo el 0,01 % de la gente. El progreso logrado a través de modelos de IA es cada vez más evidente.
Conclusión
Sistemas de Inteligencia Artificial complejos pueden ser construidos en Hardware de Grado Consumidor. Para algunas problemáticas, incluso un servidor alquilado decente (o peor servidor propio) es suficiente. A esta última categoría pertenece por ejemplo la búsqueda de documentos o Tickets Jira en el Intranet sobre la base de preguntas en lenguaje natural. El fastidioso buscar por términos de búsqueda, donde lo más alto de los sentimientos hasta ahora fue la búsqueda automática de sinónimos, puede ser asignado al pasado.

Los sistemas de inteligencia artificial mismos pueden funcionar en servidores asequibles y generar respuestas en sus propias palabras. Esto es válido incluso cuando se utiliza el (desafortunadamente) insignificante idioma alemán a nivel mundial. También es posible combinar conocimientos de varios documentos y formular una respuesta central con tales sistemas. Todo esto se vuelve práctico al aplicar técnicas de optimización modernas. Llámeme si desea saber si el caso de aplicación de su empresa es económicamente resoluble. Económico significa que no será un proyecto de cohete, sino un marco de costos manejable que lo emocionará.
Mensajes clave
Es importante proteger los datos sensibles y evitar usar sistemas de inteligencia artificial externos como ChatGPT, ya que estos pueden poner en riesgo la confidencialidad de la información.
Se puede crear y ejecutar inteligencia artificial localmente en servidores propios, incluso con recursos limitados, usando técnicas de optimización.
Se ha desarrollado un sistema de inteligencia artificial amigable con los datos y eficiente que puede procesar textos en alemán, incluso con los desafíos que presenta este idioma.
El uso de Google Analytics solo es justificable si hay permiso o garantías de que Google no utilice los datos para sus propios fines.
La seguridad de la información y la protección de datos están estrechamente relacionadas.
Aunque las páginas web pueden funcionar sin pop-ups de cookies, es importante entender que las cookies son conjuntos de datos, no archivos de texto, y sirven para identificar a los usuarios.
La inteligencia artificial puede ser implementada en hardware accesible para resolver problemas específicos de forma eficiente y económica.



Me llamo Klaus Meffert. Soy doctor en informática y llevo más de 30 años dedicándome profesional y prácticamente a las tecnologías de la información. También trabajo como experto en informática y protección de datos. Obtengo mis resultados analizando la tecnología y el Derecho. Esto me parece absolutamente esencial cuando se trata de protección de datos digitales.
