¿Cuáles son los principales puntos de crítica de Microsoft Copilot, según la prueba?

La prueba demuestra que Copilot es completamente inútil para tareas sencillas, como resumir textos, y proporciona respuestas falsas o irrelevantes. Además, existen importantes preocupaciones de seguridad con respecto al acceso a los datos.

¿Qué riesgos implica el acceso de las autoridades y servicios de inteligencia estadounidenses a los datos procesados por Copilot?

Incluso si los datos de las empresas de la UE se almacenan en la UE, existe el riesgo de que las autoridades y los servicios de inteligencia estadounidenses puedan acceder a ellos sin autorización, lo que representa un riesgo de seguridad significativo.

¿Por qué falló Microsoft Copilot al resumir el artículo del blog?

Copilot proporcionó una respuesta que no tenía ninguna relación con el texto original, por lo que no cumplió con la tarea de resumir el texto. La respuesta contenía muchas afirmaciones irrelevantes y, por lo tanto, era completamente inútil.

¿Cómo se diferencia el resultado de Copilot de la respuesta de una IA offline?

La IA offline logró resumir el artículo del blog de manera correcta y proporcionó un resumen preciso y relevante, mientras que Copilot produjo una respuesta sin sentido e irrelevante. Esto demuestra las significativas diferencias de rendimiento entre los dos sistemas.

¿Cuál es el principal problema con Microsoft Copilot, como se describe en el artículo?

Copilot falla en tareas sencillas como resumir textos. Los resultados suelen ser incorrectos, irrelevantes y no contienen información esencial del texto original.

¿Por qué se critica a Copilot en el artículo como poco fiable e ineficaz?

El artículo determina que Copilot no es capaz de realizar de manera fiable la tarea de resumir un artículo de blog. Los resúmenes son inexactos y no son útiles para el usuario.

¿Cuáles son las consecuencias del uso de Copilot en cuanto a seguridad de datos?

El artículo destaca problemas de datos al utilizar Microsoft Copilot. Existe la preocupación de que los datos confidenciales podrían no estar suficientemente protegidos, lo que genera inquietudes sobre la seguridad de los datos.

El rotundo fracaso de Microsoft Copilot

Microsoft alaba Copilot como una solución profesional que supuestamente ofrece un soporte especialmente bueno para todo tipo de actividades. Una prueba con una tarea estándar demuestra que esto es completamente inexacto, incluso cuando se ve con buenos ojos. Además de estas deficiencias funcionales, también está la cuestión de la seguridad de los datos.

¿Qué es Microsoft Copilot?

Copilot es algo relacionado con la inteligencia artificial. No fue posible averiguar exactamente qué es Copilot durante la prueba. Los resultados de la prueba no animaron a seguir probando.

La respuesta a la pregunta de qué se supone que es Copilot la proporciona Microsoft por correo electrónico después de que te hayas registrado en la versión de prueba gratuita. Según Microsoft, Copilot es un potente sistema de IA:

Tanto si quieres aprender a programar, planificar las vacaciones perfectas o simplemente necesitas un poco de ayuda para escribir un correo electrónico difícil, tu compañero de IA diario te ayudará a hacerlo todo como un profesional"
Fuente: Correo electrónico de bienvenida de Microsoft "Bienvenido a Microsoft Copilot, tu compañero de IA en la vida cotidiana".

Esta afirmación hace pensar que se pueden hacer muchas cosas muy bien con Copilot. Con Copilot, podrás "hacerlo todo como un profesional", dice Microsoft.

El correo electrónico contiene incluso un ejemplo concreto, que se menciona en un lugar destacado del mismo:

Fuente: Correo electrónico de bienvenida de Copilot mencionado anteriormente. Marco rojo añadido para este post (la imagen se ha traducido automáticamente).

Por lo tanto, el término se refiere a resumir las respuestas. El autor de este artículo no tiene claro a qué se refiere exactamente. La página de Microsoft enlazada ("Test now") también brilla por sus generalizaciones: "Implementa inspiraciones" y "Simplemente haz más – en cualquier momento, en cualquier lugar".

La prueba del copiloto

Este test no es representativo de todas las posibilidades que ofrece Copilot, pero verifica su idoneidad para una tarea muy frecuente: Resumir textos.

Microsoft escribe algo sobre respuestas resumidas, al menos como primer caso de uso (véase más arriba). ¿Se refiere tal vez (también o especialmente) a la síntesis de textos?

Por tanto, la tarea no es abrumadoramente difícil, ni tampoco ajena al mundo. Casi todo el mundo pensaría en ella como un caso de uso para los sistemas de IA.

Copilot tuvo que realizar dos pruebas. En la primera prueba, Copilot recibió una URL de un artículo de blog y se le pidió que resumiera el artículo. El resultado fue tan malo que una segunda prueba pareció justa. En este caso, el llamado Copilot de Microsoft realizó la prueba manualmente para que Copilot no se viera abrumado al recuperar un artículo de Internet.

Test: Resumir artículos de blog mediante URL

La pregunta a Copilot era sencilla:

Resuma el siguiente artículo de blog: ¿El hombre no es también un token de pavo real? https://dr-dsgvo.de/ki-und-intelligenz-ist-der-mensch-nicht-auch-ein-token-papagei/
Pregunta exacta que debería responder Copilot.

La respuesta del copiloto fue la siguiente:

Respuesta de Copilot a la pregunta anterior. Estado: 08.05.2024 (la imagen se ha traducido automáticamente).

Las fuentes se han hecho irreconocibles en la captura de pantalla. De las cinco fuentes mencionadas, cuatro remiten a un sitio web y la quinta a otro. Ambos sitios web no se mencionan ni enlazan en el texto, que debe resumirse.

El texto proporcionado, que Copilot debía resumir, no contiene ninguna información sobre los "sistemas ADM". El autor del texto ignora por completo qué es un "sistema ADM". Como informático, nunca ha oído hablar de ello. O bien sus más de 30 años de experiencia informática fueron una pérdida de tiempo, o bien Copilot estaba fabulando o lanzando antifactos irrelevantes (en relación con la tarea).

Copiloto responde a una tarea estándar de forma completamente incorrecta. La respuesta de Copilot brilla por su inutilidad.
Véase el artículo para más detalles.

Copilot escribe algo sobre "transparencia, autorregulación y supervisión". Estos términos no aparecen en el texto. Debajo del texto, en un recuadro de contacto, sólo aparece la palabra clave "control total de datos", que hace referencia a una IA fuera de línea que hace innecesario Copilot para muchas tareas y que, al parecer, a menudo puede superar a Copilot. Tampoco se menciona "discriminación" en el texto original, que Copilot incluyó en su respuesta.

El artículo que Copilot debía resumir no trata principalmente del RGPD, sino de la IA. Los términos "protección de datos" y "RGPD" no se mencionan en el texto principal (y si se mencionan, es muy raramente y en forma de "… en el blog Dr RGPD" o similar).

Conclusión: El copiloto falló completamente y no resolvió la tarea.

En ninguna parte se indicaba que la respuesta podía ser incorrecta, que era mejor comprobarla ni nada parecido.

El 5 de julio de 2024, Copilot dio la siguiente respuesta a la misma pregunta (con una redacción ligeramente diferente):

Fuente: Microsoft Copilot con anotaciones en rojo del autor (la imagen se ha traducido automáticamente).

La imagen habla por sí sola.

Test: Resumir el texto de un artículo de blog

Pasemos a la segunda prueba. Queremos descartar la posibilidad de que se debiera a la recuperación de una URL de Internet. Podría ser que Copilot estuviera saturado.

Para esta prueba, queríamos ponérselo más fácil a Copilot, ya que Copilot falló mucho en la prueba anterior. Ahora el texto del artículo del blog se introdujo manualmente en Copilot usando copiar y pegar. Quedó así:

Prueba de Copilot: Resuma un texto dado (sólo se muestra el extracto del texto, ya que es demasiado largo para la captura de pantalla). La imagen se ha traducido automáticamente.

Lamentablemente, no fue posible copiar todo el artículo en el chatbox de Copilot. Por supuesto, esto se tuvo en cuenta. Sin embargo, esta no es la razón del siguiente resultado de la prueba. La respuesta que Copilot proporcionó fue:

Fuente: https://copilot.microsoft.com/, Estado: 08.07.2024 (la imagen se ha traducido automáticamente).

La respuesta no tiene nada que ver con la pregunta original. Una prueba de la mala calidad de la respuesta, que está por debajo de la de un niño pequeño. El niño pequeño habría hecho menos mal no diciendo nada en absoluto:

El GPT-3 no se mencionaba en el texto que Copilot debía resumir (párrafos 1º, 2º y 3º de la respuesta de Copilot).
Los investigadores mencionados por Copilot y su estudio no se mencionan en el texto (1er + 2º párrafo).
Los aspectos "capacidad para formar analogías" y "problemas de analogía" mencionados en el tercer párrafo no se mencionaban en el texto. Allí sólo se mencionaban las señales analógicas (frente a las digitales) y la palabra "analógico" se utilizaba en otra frase, pero completamente subordinada ("…entonces estamos hablando analógicamente de robots con ordenador incorporado").
Los "grandes modelos lingüísticos" mencionados por Copilot no se mencionaban en el texto. Sólo se hablaba de "modelos lingüísticos". Las palabras "grandes" o incluso "LLM" (como en "modelo de lenguaje grande") no aparecían.
Las fuentes mencionadas por Copilot no se mencionan en el texto (1er, 2º y 3er párrafo, así como las fuentes de Copilot).

Si se eliminan todas las afirmaciones de la respuesta del copiloto que no tienen nada que ver con el texto original que había que resumir, queda muy poco. En la escuela, el profesor probablemente calificaría la respuesta del copiloto con un 6 de "insatisfactoria".

El resultado proporcionado por Copilot es una impertinencia. Brilla con afirmaciones arbitrarias y puede ser calificado como completamente falso. La tarea era resumir un texto dado. Esta tarea no se cumplió siquiera en su intento. En su lugar, la respuesta parece un resultado de búsqueda aleatorio, que fue resumido por un modelo de lenguaje. Además, se hace ver que la respuesta es (la) (perfecta)* respuesta.

Nirgendwo en la superficie de usuario (UI web) se encuentra un aviso* sobre el hecho de que las respuestas de Copilot podrían ser falsas o incorrectas. Al menos, si uno busca por todo el pantalla. Quizás Microsoft espera que el usuario busque y lea artículos de conocimiento hasta encontrar algo que diga "Copilot también puede decir tonterías. Pero eso no sucede con mucha frecuencia porque somos Microsoft y fingimos que Copilot realmente puede ayudar en todas las tareas posibles, como por ejemplo, resumir respuestas".

Resultado con IA propia

Puede que la prueba fuera injusta (lo que parece bastante irónico si se analiza la tarea). Resumir un texto era quizás demasiado difícil y estaba más allá de las capacidades del ser humano más inteligente (lo cual era definitivamente irónico). Para descartar esta posibilidad, se encomendó la misma tarea a otra IA sin conexión. Sin Microsoft, Copilot, Azure o ChatGPT.

La tarea para la Inteligencia Artificial Offline era:

Resuma la siguiente página web: https://dr-dsgvo.de/ki-und-intelligenz-ist-der-mensch-nicht-auch-ein-token-papagei
Tarea idéntica para la IA fuera de línea, que era demasiado difícil para Copilot.

La respuesta no procesada de la IA offline fue:

"El autor afirma que la IA (inteligencia artificial) y los humanos funcionan de forma similar a los loros simbólicos tomando decisiones basadas en probabilidades. Subraya que lo importante no es el mecanismo en sí, sino el resultado. El autor critica el hecho de que mucha gente tenga una idea falsa de la inteligencia y no pueda encontrar una definición de la misma. Sostiene que los sistemas de IA, como las redes neuronales, son mecanismos "simples" que pueden resolver problemas complejos. También afirma que los humanos son loros simbólicos en el sentido de que toman decisiones basadas en probabilidades. El autor presenta una versión beta de una IA offline y subraya que esta solución es mejor que ChatGPT y no envía datos a terceros. Ofrece asesoramiento gratuito para empresas y autoridades que necesiten una solución de IA. En general, el autor sostiene que los sistemas de IA funcionan como loros simbólicos y que lo importante no es el mecanismo en sí, sino el resultado."
Resultado de la tarea mencionada con una IA que hace el trabajo, es decir, no un copiloto.

Cada cual puede juzgar por sí mismo el resultado. Una comparación con Copilot debería mostrar a todo el mundo dónde están las diferencias de calidad.

Pero seguramente debe ser muy complicado hacer algo así, que parece casi imposible incluso para los copilotos

Sí, es muy complicado (ironía). Casi llevó más tiempo escribir el programa que esperar la respuesta (que llegó rápidamente). La base de esta IA offline ya existía. Cada empresa puede tener su propia IA. Se pueden construir prototipos con la misma rapidez para probar la idoneidad básica de una IA para determinados casos de uso.

La inteligencia artificial en línea, que proporcionó el resultado anterior, hizo automáticamente lo siguiente:

Recuperar la URL especificada en el prompt
Extracción del contenido central (=artículo de blog)
Resumen del artículo del blog
Salida de la respuesta

Offline-AI significa que la IA puede funcionar de forma completamente autónoma y comunicarse con Internet u otros sistemas informáticos si es necesario. Esto es exactamente lo que ocurrió cuando se recuperó el artículo del blog de Internet.

ChatGPT: Excursión corta

Para el extracto de texto copiado, ChatGPT proporcionó el siguiente resumen muy breve de este artículo (aprox. 4700 caracteres):

"El artículo del blog critica duramente a Microsoft Copilot. A pesar de la publicidad de Microsoft como una herramienta de IA versátil, Copilot falló la prueba al no poder realizar una tarea simple de resumir un artículo de blog. Los resultados fueron inexactos e irrelevantes. Los evaluadores no encontraron información clara sobre la funcionalidad de Copilot y también cuestionaron la seguridad de sus datos. En general, Copilot se describe como poco fiable e ineficaz"."

Como puede verse, el resumen puede calificarse de semánticamente útil. Su longitud, sin embargo, es bastante inutilizable. Se puede llegar más lejos con un ajuste rápido. Pero entonces faltan algunas afirmaciones básicas. Aquí es donde puede ser útil afinar más el prompt. Si desea que le resuman los textos de vez en cuando y no quiere dedicarse a la profesión de sintonizador, es mejor que utilice su propio sistema de inteligencia artificial.

Conclusión

Copilot es, al parecer, una herramienta de marketing de Microsoft y no una IA que deba tomarse en serio. Al menos ese es el caso de la prueba mencionada. Por cierto, las tareas de programación también se pueden completar sin Copilot. Esto se hace utilizando modelos de IA que están disponibles y hacen un muy buen trabajo.

Si quiere cargar sus propias datos en la nube de Microsoft, debería pensarlo dos veces antes de hacerlo. Con la condición de que no esté ya desanimado por las dudosas capacidades de Copilot.

Lo que molesta es la máxima autoconfianza de Microsoft, que no se corresponde en absoluto con las carencias de Copilot. En todas partes (correo, sitio web) pretende que Copilot es el salvador.

¿No preferiría utilizar una solución mejor? El requisito previo es que se consideren casos de uso concretos en lugar de declaraciones de marketing. Estudiar casos de uso concretos es siempre un enfoque sensato, especialmente en el entorno de la IA.

Mensajes clave

Microsoft Copilot no funciona bien para tareas simples como el resumen de artículos de blog.

Copilot, un sistema de inteligencia artificial, no puede resumir textos correctamente.

El modelo de IA Copilot no fue capaz de resumir correctamente el texto dado, generando una respuesta llena de información irrelevante e incluso falsa.

El autor cree que su IA offline es mejor que ChatGPT porque es más precisa y no envía datos a terceros.

Existen alternativas a Copilot que funcionan mejor y son más confiables.

Acerca de