Los datos son un valioso recurso, especialmente cuando se trata de secretos comerciales. Pero también los datos confidenciales y personales no deben ser dados a terceros (como ChatGPT) por razones legales. Los sistemas de Inteligencia Artificial propios ofrecen además la ventaja de una gran flexibilidad y del enfoque puntual en concretas necesidades. Un informe práctico.
Introducción
El slogan de un proveedor de servicios móviles decía: "Es simple, simplemente es simple". Pero en aplicaciones intensivas en datos, a menudo se podría decir que lo nuevo es falso. La protección de datos no interesa a muchos realmente. Si se trata de datos de empleados, verificados como confidenciales contractualmente, fundamentos de patentes o otros secretos comerciales, entonces las empresas están más sensibilizadas. Finalmente, nadie quiere problemas legales. El deseo de difundir el conocimiento interno de la empresa en el mundo es probablemente menos extendido.
Inteligencia artificial: El enfoque jurídico verifica lo que puede ser permitido y aclarar riesgos. El enfoque técnico proporciona sistemas amigables con los datos y resuelve muchas cuestiones legales por sí solo.
Actuar constructivamente en lugar de discutir es una buena estrategia, a mi parecer. Los abogados siempre tienen suficiente trabajo que hacer.
Es es fácil utilizar ChatGPT, pero algunos lo hacen de manera muy sencilla zulasten del beneficio. De esto se puede ver que pensar es más difícil que hacer algo falso o poco óptimo. Incluso mayores esfuerzos son aceptados si los esfuerzos son solo lo suficientemente pequeños, pero a menudo ocurren. Mejor 100 veces un pequeño esfuerzo con un alto total de esfuerzo que 1 vez un esfuerzo moderado con un total mucho menor de esfuerzo.
Recientemente, Zoom como proveedor de una software para conferencias en video formuló nuevas condiciones de uso. Con ello se otorga a Zoom el derecho de utilizar los datos recibidos en las conferencias de video de Zoom de manera casi ilimitada. Incluidas están la difusión de sus datos, incluyendo transcripciones y su utilización para aprendizaje automático ("entrenamiento de una IA"). Esto no habría pasado con una solución amigable con los datos de Alemania. Tampoco sería un problema con su propio sistema. Ahora todos los usuarios de Zoom tienen potencialmente un problema.
Todos los usuarios de Zoom tienen un problema potencial porque prefieren supuestamente utilizar sistemas gratuitos terceros en lugar de soluciones amigables con los datos.
Gracias a Zoom por la ayuda para tomar decisiones.
Si no lo hace más fácil de lo que es, al menos utiliza la Interfaz de ChatGPT a través de un propio programa. De esta manera se pueden crear muchas aplicaciones. ChatGPT trae junto con sus asombrosas habilidades varios problemas incurables:
- ChatGPT es muy lento.
- La mayoría de los datos de la inteligencia artificial ChatGPT son irrelevantes para aplicaciones empresariales (peso muerto, fomenta alucinaciones, ralentiza el sistema, aumenta la vulnerabilidad a errores).
- Todos los datos terminan en OpenAI y por lo tanto en Microsoft.
- En ChatGPT los datos no están seguros (ver opt-out recién incorporado – en lugar de consentimiento, fuga de datos, política de empresas estadounidenses, etc.).
- ChatGPT se basa en conocimientos generales obsoletos.
- ChatGPT no conoce los documentos de su empresa y espero que tampoco los conozca nunca.
- ChatGPT cuesta dinero, y dependiendo de la cantidad de trozos de texto procesados (Tokens). Cargar un PDF más grande y analizarlo te deja algo más pobre. Un programa mal programado (bucle infinito o recursividad) arruina cualquier presupuesto en poco tiempo.
- ChatGPT no es ampliable de manera arbitraria.
Si sus respuestas también se utilizan para el entrenamiento del modelo de IA de un tercero o para la ajustación fina, no se garantiza más la privacidad y confidencialidad. Un modelo de lenguaje aprende no solo la gramática y estructura de una lengua, sino que también asimila conocimientos. Las deficiencias resultantes son más fastidiosas e ineficaces que un problema jurídico. Esto significa al mismo tiempo que estos problemas no pueden ser resueltos legalmente.
Inteligencia artificial en línea como solución para empresas y administraciones.
Información adicional. ([1])
Lo mismo puede decirse de generadores de imágenes como Dall-E o Midjourney. Muchos de estos generadores se basan en el enfoque llamado Stable Diffusion. Casi todos los procedimientos relevantes de este tipo utilizan el conjunto de datos LAION. Este ha utilizado la descarga Common Crawl para encontrar sitios web que incluyen imágenes con descripciones de las mismas. Common Crawl, a su vez, es una gran descarga de casi cualquier sitio web. Si uno de sus logotipos o imágenes del producto ha terminado en el conjunto de datos de imágenes, no estará allí en forma pura. Más bien, la imagen de su empresa (logotipo, imagen del producto, etc.) habrá llegado a través de una almacenamiento estructural en las neuronas artificiales del conjunto de datos de inteligencia artificial de un tercero. Sacar esa imagen nuevamente es prácticamente imposible. Más bien, se necesitaría recalcular el modelo de IA. Si el propietario del modelo lo hará, es cuestionable. En cualquier caso, la tarea de entrenamiento es una tarea computacionalmente intensiva con una obtención de datos desafiante.
Sistemas de Inteligencia Artificial propios del negocio
Todos los problemas mencionados anteriormente desaparecen si su empresa utiliza un Sistema de Inteligencia Artificial propia. Este tipo de sistemas llamo a ellos sistemas de inteligencia artificial locales o autárquicos. Estos sistemas no requieren conexión a Internet y podrían estar en el mejor de los casos debajo de su escritorio.
Estos son los beneficios de sistemas de Inteligencia Artificial propios de la empresa:
- Control de datos completos: Usted determina qué datos de entrenamiento o modelos de inteligencia artificial preentrenados se utilizan.
- Pregúntenle a sus datos y no los datos de internet: Alimenten sus documentos y medios corporativos.
- Velocidad alta: En cualquier caso, su sistema será más rápido que ChatGPT si lo desean. El número de usuarios será claramente menor que el de las plataformas de inteligencia artificial populares. Además, pueden reducir significativamente la cantidad de datos.
- Beliebige Anpassbarkeit: Weiter unten mehr dazu.
- Amplia gama de aplicaciones: Búsqueda semántica, comprensión de texto, asistentes de preguntas y respuestas, generadores de imágenes,transcripción de audio, y mucho más.
Aquí un ejemplo de la práctica, lo que es posible con un sistema local para su empresa. El ejemplo funciona en un servidor Low Cost y funciona. Sin embargo, todavía está en desarrollo y puede verse mucho más a la altura final. La falta de terminación no es una gran cuestión y solo tiene algo que ver con mi priorización.
Búsqueda semántica para documentos corporativos
Busque en sus documentos, su sistema de tickets (como Jira), sus páginas intranet y mucho más con un sistema inteligente. Haga que todos sus documentos sean una base de conocimiento y combine el conocimiento de su empresa en un cerebro electrónico.
Para tipos de documentos estándar como PDF se pueden utilizar fácilmente rutas de importación que no conllevan costes adicionales para usted. La nube de Adobe es innecesaria al menos en este punto. Todo lo que puede ser automatizado dentro de su empresa garantiza una alta actualidad y más tiempo libre para todos, excepto para las máquinas.
Una búsqueda de Inteligencia Artificial no es una máquina de búsqueda, sino una búsqueda semántica. Las inteligencias artificiales son muy buenas en buscar estructuralmente, semánticamente o quizás también de manera imprecisa. Son malas en realizar búsquedas exactas, aunque en principio es posible. Esto, por cierto, es análogo a los humanos.
Por eso propongo un enfoque de varios pasos que ChatGPT ni siquiera puede permitirse:
- Optimización: Reconocimiento de errores de escritura o malos sinónimos en los términos de búsqueda. De esta manera, "CommonCrawl" se convierte en una sugerencia para un término probablemente pretendido.
- Busque con una búsqueda tradicional de motor de búsqueda. Esto es sobre todo útil cuando busca " Common Crawl ". Una inteligencia artificial está tan desfavorecida por este tipo de búsqueda que proporciona resultados malos.
- Búsqueda semántica: Este tipo de búsqueda se presta especialmente bien a preguntas formuladas en lenguaje natural. Un ejemplo: „¿Con la ayuda de la dirección IP de un servidor, puede determinarse su ubicación?
- Respuesta a una pregunta formulada en sus propias palabras. Por ejemplo, mi AI responde a la pregunta número 3 con: "A través de la dirección IP no se puede determinar con precisión la ubicación de un servidor, ya que la conexión entre la dirección IP y el servidor puede cambiar en cualquier momento. Sin embargo, existen métodos para determinar la ubicación de un servidor, como por ejemplo, el uso de geolocalización de IP o la comparación de metadatos". La AI de Bing responde erróneamente con "Sí" y cita fuentes que pretenden justificar la respuesta incorrecta.
- Transparencia: Dado que una inteligencia artificial puede dar respuestas falsas, como demuestra la búsqueda de Bing de Microsoft, la guía del usuario debe ser diseñada en consecuencia. Con esto me refiero no solo a las indicaciones, sino también a la emisión de las fuentes que condujeron al resultado y un poco más.
Para la búsqueda en este blog uso desde hace poco un muy barato servidor, que ni siquiera tiene una tarjeta gráfica capaz de realizar tareas de inteligencia artificial. Las tarjetas gráficas potentes (GPUs con capacidad CUDA) de Nvidia se utilizan para aplicaciones de inteligencia artificial porque pueden realizar cálculos mucho más rápidos que los procesadores comunes (CPUs).
Si mi servidor está disponible en este momento, hacer clic en los enlaces mencionados en los puntos 1 y 2 arriba proporciona resultados reales de mi búsqueda. La búsqueda semántica también puedo hacerlo, pero no tengo un servidor en línea para ello. En su lugar, uso el servidor de inteligencia artificial que he alquilado (el segundo servidor, distinto del malo mencionado anteriormente) para trabajos de desarrollo.
Los siguientes resultados salen de mi búsqueda en nivel uno si se te detecta un error y se reconoce:

No es nada emocionante corregir un pequeño error de escritura. Sin embargo, la búsqueda propia de WordPress, que tiene varios años de trabajo de desarrollo detrás de sí, no devuelve ningún resultado si el término de búsqueda no aparece en los artículos del blog.
Mi búsqueda reconoce algunos errores de escritura. Para ello se ha creado un Vocabulario de términos que aparecen en (casi) todos mis artículos. Solo estos términos son "correctos" o adecuados para una búsqueda sobre mis documentos. Como optimización, un término de búsqueda falso es corregido y se introduce en el campo de búsqueda en su forma probablemente correcta. Si WordPress no encuentra ningún resultado, se muestra directamente un resultado para la búsqueda corregida. De lo contrario, se da una retroalimentación constructiva con el mensaje "¿Se refirió a…?.
Si un término de búsqueda no contiene espacio en blanco, es evidente que no se trata de una pregunta a la que una IA podría responder competentemente. Por lo tanto, tampoco se inicia aquí una búsqueda semántica, sino una búsqueda normal.
Si el término de búsqueda es más largo, podría ser una pregunta. En primer lugar, se muestran los resultados de la búsqueda de WordPress (si existen). Luego siguen los resultados de la búsqueda de Inteligencia Artificial semántica. Aquí un ejemplo:

Erstaunlicherweise encuentra la búsqueda clásica un resultado. Esto es, sin embargo, probablemente solo el caso porque la pregunta que yo le hago a menudo se utiliza para demostrar las capacidades de mi inteligencia artificial. En los resultados de la búsqueda se muestra transparentemente que un resultado proviene de la búsqueda clásica y 18 resultados de la búsqueda difusa fueron encontrados. La búsqueda difusa es una máquina de búsqueda por vectores en hardware mínimo.
Ejemplo contrario a eso es el resultado de la búsqueda en Bing:

Como se puede ver, Bing proporciona la respuesta "Sí" a la pregunta formulada. La respuesta es falsa porque las direcciones IP no siempre apuntan a un servidor específico y si lo hacen, esta asignación podría verse diferente en una segunda.
WordPress no encuentra coincidencias en preguntas de errores de escritura como la siguiente: "¿Son datos personales los Cokies?" En este caso, se escribió faltando una "o" al término "Cookies". Por otro lado, con la búsqueda semántica a través de un modelo de lenguaje se encuentra el resultado:

La búsqueda de IA es exitosa con este resultado. Lo que aquí no se hace patente, porque aún no está completamente programado: Mi búsqueda de IA no solo devuelve un documento como resultado, sino que también puede nombrar la ubicación del hallazgo en el texto con una precisión bastante buena. Pues para la búsqueda se crea un índice sobre documentos de tal manera que cada documento se divide en porciones manejables. Estas porciones pueden ser buscadas mejor que un texto largo. Podría haber mostrado, por tanto, el relevante trozo del resultado de búsqueda en lugar de mostrar todo el documento.
El artículo encontrado responde a la pregunta con mucha precisión, como se puede ver en el siguiente extracto del texto del artículo:

La siguiente etapa es emitir la Respuesta directamente en los resultados de búsqueda, y lo mejor es hacerlo de manera abstractiva. Abstractivo significa que se da una resumen en nuevas palabras. Lo mismo hace el hombre. Una pre-etapa sería la llamada extracción de resúmenes, que es similar a un citado.
Recientemente he descrito un Showcase ya implementado para un asistente de preguntas y respuestas para documentos propios de la empresa. Los detalles se encuentran en el artículo vinculado.
Conclusión
Con un sistema de Inteligencia Artificial interna en la empresa se pueden resolver numerosos casos de aplicación. Tales sistemas son amigables con los datos. Permiten el control total sobre los flujos de datos.
El ejemplo con la Búsqueda de Documentos es solo uno de muchos casos de uso. La lógica de búsqueda no está aún completamente programada, pero ya muestra lo que se puede hacer. Se ejecuta en un servidor al que se puede contratar por "un huevo y una manzana" a un proveedor alemán, si no hay un propio servidor disponible. Las posibilidades de adaptación a necesidades individuales son casi ilimitadas.
Si quieres invertir unos cientos de euros al mes, puedes obtener un servidor AI bastante eficaz. Con él podrás utilizar modelos de lenguaje muy desarrollados incluso en alemán. También es posible generar imágenes en masa. En lugar de crear cinco veces una imagen con DALL-E hasta que obtengas un resultado aceptable, simplemente deja que se genere cientos de imágenes. Tu AI aprenderá qué tipo de imágenes te gustan y eliminará los resultados malos en el futuro.
Como en todos los Servicios de la Nube, los sistemas de Inteligencia Artificial tercerizados no son solo problemáticos en cuanto a la confidencialidad, sino también en cuanto a los costos (Pagas por uso). Con sistemas locales que pertenecen a su empresa, no hay estos costos. Pagan solo el precio mensual por su servidor, que puede ser un alquiler o las costos de funcionamiento. Estos costos son manejables y para cada uno es atractivo quien realmente tiene algún beneficio de tales sistemas de IA. Sin ningún gran beneficio, en fin, tampoco es muy sensato el uso de ChatGPT.
Si el protección de datos y la confidencialidad no son un problema, al menos podrían considerar utilizar la interfaz ChatGPT de manera programática. La inteligencia artificial hace que, de cualquier forma, sean resolubles problemas económicos que hasta ahora ni siquiera eran resolubles o lo eran con un gran esfuerzo.
Póngase en contacto conmigo si desea un sistema de inteligencia artificial propio para su empresa o quiere utilizar una interfaz de un sistema de terceros para reducir trabajos manuales. Al utilizar interfaces con sistemas de inteligencia artificial de terceros, al menos algunos de los problemas de datos pueden ser reducidos. Por ejemplo, los datos personales pueden ser automatizados hasta cierto punto y manipulados.
Mensajes clave
Es mejor usar sistemas de inteligencia artificial propios para proteger tus datos confidenciales y tener más control sobre su uso.
ChatGPT y otras IA en línea tienen problemas de seguridad, privacidad y precisión. Es mejor usar un sistema de IA propio para tener control total sobre los datos.
Un sistema de inteligencia artificial local para tu empresa es más rápido, adaptable y preciso que las plataformas populares de IA.
Es importante que las respuestas de las IA sean transparentes y que se muestren las fuentes utilizadas para evitar respuestas falsas.
Un sistema de inteligencia artificial interno puede resolver muchos problemas dentro de una empresa, como buscar información en documentos de forma precisa y eficiente.
Usar inteligencia artificial propia en tu empresa puede ser más rentable y seguro que usar servicios de terceros, especialmente si necesitas proteger datos confidenciales.



Me llamo Klaus Meffert. Soy doctor en informática y llevo más de 30 años dedicándome profesional y prácticamente a las tecnologías de la información. También trabajo como experto en informática y protección de datos. Obtengo mis resultados analizando la tecnología y el Derecho. Esto me parece absolutamente esencial cuando se trata de protección de datos digitales.
