Quali sono i principali punti critici di Microsoft Copilot, in base al test?

Il test dimostra che Copilot è completamente inutilizzabile per compiti semplici, come la sintesi di testi, e fornisce risposte false o irrilevanti. Inoltre, ci sono notevoli preoccupazioni per la sicurezza riguardo all'accesso ai dati.

Quali rischi derivano dall'accesso delle autorità e dei servizi segreti americani ai dati elaborati da Copilot?

Anche se i dati delle aziende dell'UE sono memorizzati nell'UE, esiste il rischio che le autorità e gli servizi segreti americani possano accedervi senza autorizzazione, il che rappresenta un significativo rischio per la sicurezza.

Perché Microsoft Copilot è fallito nel riassumere l'articolo del blog?

Copilot ha fornito una risposta che non aveva alcun collegamento con il testo originale e, pertanto, non ha soddisfatto l'obiettivo della domanda, ovvero riassumere il testo. La risposta conteneva molte affermazioni irrilevanti e quindi era completamente inutilizzabile.

Come si differenzia il risultato di Copilot dalla risposta di un'IA offline?

L'IA offline è riuscita a riassumere correttamente l'articolo del blog, fornendo un riassunto preciso e pertinente, mentre Copilot ha prodotto una risposta senza senso e irrilevante. Ciò dimostra le significative differenze di prestazioni tra i due sistemi.

Qual è il principale problema di Microsoft Copilot, come descritto nell'articolo?

Copilot fallisce su compiti semplici come la sintesi di testi. I risultati sono spesso errati, irrilevanti e non contengono informazioni essenziali dal testo originale.

Perché Copilot viene criticato nell'articolo come inaffidabile e inefficace?

L'articolo stabilisce che Copilot non è in grado di svolgere in modo affidabile il compito di riassumere un articolo di blog. I riassunti sono imprecisi e non utili per l'utente.

Quali sono le conseguenze dell'utilizzo di Copilot in termini di sicurezza dei dati?

L'articolo evidenzia problemi di dati nell'utilizzo di Microsoft Copilot. Esiste la preoccupazione che i dati sensibili potrebbero non essere adeguatamente protetti, il che solleva preoccupazioni in materia di sicurezza dei dati.

Il completo fallimento di Microsoft Copilot

Microsoft presenta Copilot come una soluzione professionale che dovrebbe supportare tutte le attività possibili. Un test con un compito standard mostra che ciò è del tutto inesatto, anche considerando benevolmente la situazione. Oltre a queste carenze funzionali si pone la domanda sulla sicurezza dei dati.

Che cos'è Microsoft Copilot?

Copilot è qualcosa con l'intelligenza artificiale. Ciò che esattamente sia Copilot non si è potuto scoprire durante il test. I risultati del test non hanno incoraggiato a proseguire ulteriormente.

La risposta alla domanda su cosa sia Copilot viene fornita da Microsoft tramite e-mail, dopo aver registrato la versione di prova gratuita. Secondo Microsoft, Copilot è un sistema di intelligenza artificiale performante:

Quale che sia il vostro obiettivo, se volete imparare a programmare, pianificare il perfetto viaggio o semplicemente avere un po' di aiuto per scrivere un difficile e-mail, il vostro assistente AI nel quotidiano vi aiuterà a fare tutto come un professionista
Fonte: La mail di benvenuto di Microsoft "Benvenuti a Microsoft Copilot, il vostro accompagnatore AI nella vita quotidiana".

Questa affermazione suona come se si potesse fare con il Copilot moltissime cose molto bene. Si viene messi in condizione di "fare tutto come un professionista", dice Microsoft.

La mail contiene addirittura un esempio concreto che viene citato in modo prominente nella mail:

Fonte: La mail di benvenuto sopra citata per Copilot. Riquadro rosso aggiunto a questo post (l'immagine è stata tradotta automaticamente).

Chiamato quindi il riassunto delle risposte. Ciò che precisamente si intende con ciò, non è chiaro all'autore di questo contributo. Anche la pagina Microsoft collegata ( "Ora prova" ) brilla con luoghi comuni: "Tradurre ispirazioni" e "Fare semplicemente più – in qualsiasi momento e ovunque".

Il test del copilota

Questo test non è certamente rappresentativo di tutte le possibilità che Copilot dovrebbe offrire. Verifica però l'adeguatezza di Copilot per un compito molto frequente:Riassumere i testi*.

Microsoft scrive almeno come primo caso di utilizzo (vedi sopra) qualcosa sul riassunto delle risposte. Forse (anche o proprio) il riassunto dei testi è ciò che si intende con questo?

La sfida non è quindi estremamente difficile e neanche troppo astratta. Probabilmente a quasi tutti sarebbe venuta in mente come applicazione dei sistemi di intelligenza artificiale.

Copilot è stato costretto a eseguire due test. Nel primo test, Copilot ha ricevuto l'URL di un articolo di blog e doveva riassumere l'articolo. Il risultato era così pessimo che il secondo test sembrava equo. In questo secondo test, Microsoft's sogenannte Copilot ha fornito manualmente i dati al Copilot, in modo da non sovraccaricare Copilot con l'accesso ad un articolo dal web.

Prova: riassumere l'articolo di blog su URL

La domanda alla Copilot era semplice:

Riepilogo dell'articolo di blog: https://dr-dsgvo.de/ki-und-intelligenz-ist-der-mensch-nicht-auch-ein-token-papagei/ L'intelligenza artificiale e l'intelligenza umana, non è il uomo anche un token parrot?
Domanda esatta che Copilot dovrebbe rispondere.

La risposta di Copilot è stata la seguente:

Risposta di Copilot alla domanda precedente. Data: 08.05.2024 (l'immagine è stata tradotta automaticamente).

Le fonti sono state fatte anonime nello screenshot. Di queste cinque fonti citate, quattro si riferivano a un sito web e la quinta a un altro sito web. Entrambi i siti web non sono stati menzionati o collegati nel testo che doveva essere riassunto.

Il testo fornito, che Copilot avrebbe dovuto riassumere, non contiene alcuna informazione sugli "ADM-Systemi". L'autore del testo è completamente ignaro di cosa sia un "ADM-System". Come informatizzato ha mai sentito parlare di esso. O 30+ anni di esperienza IT sono stati per la gatta o Copilot ha inventato qualcosa o si è scagliato contro fatti irrilevanti (in relazione alla richiesta di lavoro).

Il Copilot risponde a una domanda standard completamente inesatta. La risposta di Copilot brilla per la sua inutilità.
Vedi il post per i dettagli.

Il copilota scrive qualcosa di "trasparenza, autocontrollo e controllo". Questi termini non compaiono nel testo. Sotto il testo c'è un riquadro di contatto con solo la parola chiave "dati completi", che si riferisce a una AI offline che rende inutile per molte domande il copilota e sembra spesso poter superarlo. Anche nel testo originale non c'era parlato di "discriminazione" che il copilota ha inserito nella sua risposta.

Nell'articolo che Copilot avrebbe dovuto riassumere, non si tratta principalmente della GDPR, ma dell'intelligenza artificiale. I termini "datenschutz" e "DGSVO" non sono menzionati nel testo centrale (e se lo fossero, sarebbero stati citati raramente e in forma di "… nel blog Dr. GDPR" ecc.).

La conclusione è che Copilot ha completamente fallito e non ha risolto la domanda.

Nessun luogo indicava che la risposta potesse essere sbagliata, che fosse meglio verificare o cose simili.

Il 5 luglio 2024, Copilot ha risposto alla stessa domanda (con una formulazione leggermente diversa):

Fonte: Microsoft Copilot con annotazioni rosse dell'autore (l'immagine è stata tradotta automaticamente).

L'immagine parla da sé.

Prova: riassumere il testo di un articolo di blog

Passiamo al secondo test. Vogliamo escludere che il problema fosse legato all'invio di una richiesta URL dal web. Potrebbe essere stato infatti che Copilot era sovraccaricato.

Per questo test dovrebbe essere più facile per Copilot, dopo che Copilot si era lamentata molto nel test precedente. Ora il testo dell'articolo di blog è stato inserito manualmente e con Copy & Paste in Copilot. Questo era l'aspetto:

Purtroppo non è stato possibile copiare l'intero articolo nella chat di Copilot. Ciò è stato naturalmente tenuto in considerazione. Tuttavia, questo non è la causa del risultato di test che segue. La risposta fornita da Copilot era:

Fonte: X1 Data: 08.07.2024 (l'immagine è stata tradotta automaticamente).

La risposta non ha nulla a che fare con la domanda iniziale. Alcuni esempi della scarsa qualità della risposta, al di sotto di quella di un bambino piccolo. Il bambino piccolo avrebbe detto "nulla" e sarebbe stato meno sbagliato:

Il GPT-3 non è stato menzionato nel testo che Copilot avrebbe dovuto riassumere (1., 2. e 3. paragrafo della risposta di Copilot).
I ricercatori citati da Copilot e la loro ricerca non sono stati menzionati nel testo (paragrafi 1 e 2).
I tratti menzionati nel terzo paragrafo, ovvero "abilità di formare analogie" e "problemi di analogia", non sono stati citati nel testo. Lì si è parlato solo di segnali analoghi (contro segnali digitali) e il termine "analogo" è stato utilizzato in un altro contesto, ma completamente subordinato ("…allora parliamo di robot con un computer integrato").
I modelli linguistici "grandi" citati da Copilot non sono stati menzionati nel testo. Lì si è parlato solo di "modelli linguistici". Le parole "grande" o addirittura "LLM" (come "Large Language Model") non sono state utilizzate.
Le fonti citate da Copilot non sono state menzionate nel testo (paragrafi 1, 2 e 3, nonché le note a piè di pagina di Copilot).

Rimovendo dalle risposte di Copilot tutte le affermazioni che non hanno nulla a che fare con il testo originale, da riassumere, rimane molto poco. In una scuola il professore darebbe alla risposta di Copilot un voto 6 per "insufficiente".

Il risultato fornito da Copilot è un'impudenza. Si distingue per affermazioni arbitrarie e può essere definito completamente falso. La domanda di lavoro era riassumere un testo dato. Questa richiesta non è stata neanche appena soddisfatta. Invece, la risposta sembra un risultato di ricerca casuale, che è stato riassunto da un modello linguistico. Ciò si aggiunge al fatto che si fa finta che la risposta sia la (perfetta) risposta.

Da nessuna parte sulla superficie di utilizzo (Web-UI) si trova un avviso sul fatto che le risposte di Copilot potrebbero essere false o inesatte. In ogni caso, non se ne troverà traccia guardando ovunque lo schermo. Forse Microsoft aspetta che l'utente cerchi e legga gli articoli di conoscenza di Microsoft fino a quando non trova "Copilot può anche dire assurdità. Ma speriamo che questo non accada spesso, perché siamo Microsoft e facciamo finta che Copilot possa davvero aiutare con tutte le possibili attività, come ad esempio la sintesi delle risposte".

Risultato con IA propria

Il test potrebbe essere stato ingiusto (il che suona ironico se si considera la formulazione delle domande). Riassumere un testo poteva essere troppo difficile e superava anche le capacità dell'uomo più intelligente (questo era assolutamente ironico). Per escluderlo, è stata sottoposta alla stessa domanda una AI offline autonoma. Senza Microsoft, Copilot, Azure o ChatGPT.

La sfida alla Intelligenza Artificiale Offline era:

Riassumi la seguente pagina web: https://dr-dsgvo.de/ki-und-intelligenz-ist-der-mensch-nicht-auch-ein-token-papagei
Stessa richiesta di compito all'offline-IA che era troppo difficile per Copilot.

La risposta non elaborata della AI offline fu:

"L'autore afferma che l'intelligenza artificiale e l'uomo funzionano in modo simile alle Token-Papagalli, prendendo decisioni basate sulla probabilità. Sottolinea che non è il meccanismo stesso a contare, ma il risultato. L'autore critica il fatto che molte persone abbiano una visione sbagliata dell'intelligenza e non riescano a trovarne una definizione. Argomenta che i sistemi di intelligenza artificiale come le reti neurali sono "meccanismi semplici" in grado di risolvere problemi complessi. Afferma anche che l'uomo è un pappagallo del token, prendendo decisioni basate sulla probabilità. L'autore presenta una versione beta di un'intelligenza artificiale offline e sottolinea che questa soluzione è migliore di ChatGPT e non invia dati a terzi. Offre consulenza gratuita per aziende e autorità che hanno bisogno di una soluzione AI. In generale l'autore sostiene che i sistemi di intelligenza artificiale come le Token-Papageien funzionano e che non è il meccanismo in sé a contare, ma il risultato."
Risultato dell'incarico menzionato con un'intelligenza artificiale che svolge il lavoro, quindi non Copilot.

Il risultato può essere valutato da ognuno. Un confronto con Copilot dovrebbe mostrare a ciascuno dove siano le differenze di qualità.

Dovrebbe essere molto complicato fare qualcosa che sembra quasi insormontabile anche per un copilota

Sì, è già molto complicato (ironia). È costato quasi più tempo scrivere il programma che aspettare la risposta (che è arrivata velocemente). La base per questa AI offline era già presente. Ogni azienda può avere una propria AI simile. Prototipi possono essere costruiti con grande rapidità, in modo da poter verificare l'adeguatezza di una AI per determinati casi d'uso.

La AI offline, che ha fornito il risultato sopra, ha fatto automaticamente:

Richiamo dell'URL indicato nel prompt
Estrazione del contenuto centrale (=articolo di blog)
Riassunto dell'articolo del blog
Esecuzione della risposta

La AI offline significa che la AI può funzionare completamente autonomamente e comunicare con l'Internet o altri sistemi IT quando necessario. Ecco precisamente cosa è accaduto quando l'articolo del blog è stato scaricato dall'Internet.

ChatGPT: Piccola escursione

Per il testo estratto sopra, ChatGPT fornì questo articolo (circa 4700 caratteri) una breve sintesi molto breve:

"L'articolo di blog critica aspramente Microsoft Copilot. Nonostante la pubblicità di Microsoft come strumento AI versatile, Copilot è fallito nel test, non riuscendo a svolgere un compito semplice, ovvero riassumere un articolo di blog. I risultati sono stati imprecisi e irrilevanti. Gli tester hanno trovato poche informazioni chiare sulla funzionalità di Copilot e hanno messo in dubbio la sicurezza dei dati. In generale, Copilot è stato descritto come non affidabile ed inefficace."

Come si può vedere, la sintesi può essere considerata semanticamente utile. La sua lunghezza è però piuttosto inutile. Con il tuning dei prompt ci si avvicina di più. Poi mancano però alcune affermazioni fondamentali. Ecco, qui aiuta ulteriore tuning dei prompt. Chi vuole spesso avere testi riassunti e non vuole intraprendere la professione del tuner, è meglio servirsi di un proprio sistema AI.

Conclusione

Copilot sembra essere uno strumento di marketing di Microsoft e non una vera e propria intelligenza artificiale. Comunque per il test in questione è così. In ogni caso, anche le esercitazioni di programmazione possono essere svolte senza Copilot utilizzando modelli di IA disponibili gratuitamente che fanno un ottimo lavoro.

Chi vuole caricare i propri dati nella Microsoft Cloud dovrebbe rifletterci ancora una volta su questo argomento. A patto che non si sia già scoraggiati dalle capacità dubbie di Copilot.

C'è qualcosa che non va, è il massimo dell'autostima di Microsoft, che in nessun modo si adatta alle insufficienze di Copilot. Si fa finta (mail, sito web) ovunque che Copilot sia l'unico salvatore.

Volete forse utilizzare una soluzione migliore? La condizione è che si considerino casi di applicazione concreti invece di guardare a dichiarazioni pubblicitarie. Considerare casi di applicazione concreti è soprattutto in ambito di intelligenza artificiale sempre un approccio sensato.

Messaggi chiave

Microsoft Copilot non funziona bene e non riesce a svolgere compiti semplici come riassumere un testo.

Copilot, un'intelligenza artificiale, ha fallito ripetutamente nel riassumere un articolo di blog, fornendo risposte inesatte e irrilevanti.

Copilot, un modello linguistico di Microsoft, ha fornito una risposta completamente errata e inventata al compito di riassumere un testo.

L'autore sostiene che i sistemi di intelligenza artificiale, come quelli basati su "Token-Papagalli", funzionano bene e che il risultato è ciò che conta, non il meccanismo stesso.

Copilot è un prodotto di marketing di Microsoft che non è una vera intelligenza artificiale. Esistono soluzioni migliori e gratuite.

Ulteriori informazioni