Vilka är de främsta kritikpunkterna mot Microsoft Copilot, baserat på testet?

Testet visar att Copilot är helt värdelöst vid enkla uppgifter, som att sammanfatta texter, och ger felaktiga eller irrelevanta svar. Dessutom finns det allvarliga säkerhetsbekymmer gällande åtkomst till data.

Vilka risker uppstår genom amerikanska myndigheters och underrättelsetjänsters åtkomst till data som bearbetas av Copilot?

Även om data från EU-företag lagras inom EU, finns det en risk att amerikanska myndigheter och underrättelsetjänster obehörligen får tillgång till den, vilket utgör en betydande säkerhetsrisk.

Varför misslyckades Microsoft Copilot med att sammanfatta blogginlägget?

Copiloten levererade ett svar som inte hade någon koppling till den ursprungliga texten och därmed inte uppfyllde uppgiften att sammanfatta texten. Svaret innehöll många irrelevanta påståenden och var därför helt oanvändbart.

Hur skiljer sig resultatet från Copilot från svaret på en offline-AI?

Den offline-AI lyckades det att korrekt sammanfatta blogginlägget och leverera en precis och relevant sammanfattning, medan Copilot producerade ett meningslöst och missvisande svar. Detta visar de betydande prestationsskillnaderna mellan de två systemen.

Vilket är det huvudsakliga problemet med Microsoft Copilot, som beskrivs i artikeln?

Copilot misslyckas med enkla uppgifter som att sammanfatta texter. Resultaten är ofta felaktiga, irrelevanta och innehåller ingen väsentlig information från den ursprungliga texten.

Varför kritiseras Copilot i artikeln som opålitlig och ineffektiv?

Artikeln visar att Copilot inte är kapabel att på ett tillförlitligt sätt utföra uppgiften att sammanfatta en bloggartikel. Sammanfattningarna är felaktiga och inte användbara för användaren.

Vilka konsekvenser har användningen av Copilot med avseende på datasäkerhet?

Artikeln visade på dataproblem vid användning av Microsoft Copilot. Det finns oro för att känslig data kanske inte tillräckligt skyddas, vilket leder till oro för datasäkerhet.

Fullständiga misslyckandet med Microsoft Copilot

Microsoft marknadsför Copilot som en professionell lösning som ska kunna stödja alla möjliga uppgifter. En test med en standarduppgift visar att detta även vid en välmenande betraktelse är helt felaktigt. Utöver dessa funktionella brister uppstår frågan om dataskydd.

Vad är Microsoft Copilot?

Copilot är något med artificiell intelligens. Vad exakt Copilot är kunde inte upptäckas under testet. Testresultaten uppmuntrade inte till ytterligare tester.

Svaret på frågan vad Copilot ska vara, ger Microsoft via e-post efter att man har registrerat sig för den kostnadsfria testversionen. Enligt Microsoft är Copilot ett kapabelt AI-system:

Oavsett om du vill lära dig programmera, planera den perfekta semester eller bara behöva lite hjälp med att skriva en svår e-post, hjälper din AI-kompis i vardagslivet dig att göra allt som ett proffs
Källa: Microsofts välkomstmail "Välkommen till Microsoft Copilot, er AI-kompanjon i vardagslivet.

Denna uttalande låter som att man med Copilot kan klara mycket av det bra. Man kommer att kunna "göra allt som en proffs", säger Microsoft.

Brevet innehåller till och med ett konkret exempel som nämns i brevet:

Källa: Ovan nämnda välkomstmail till Copilot. Röda ramar för denna artikel har lagts till (bilden översattes automatiskt).

Det kallas alltså för att sammanfatta svar. Vad exakt det innebär är dock inte tydligt för författaren till detta inlägg. Även den länkade Microsoft-sidan ("Nu testa") glänsar med allmänna påståenden: "Omsätta inspirationer" och "Gör mer – varje tid och överallt".

Copilotprövning

Denna test är säkert inte representativ för alla möjligheter som Copilot ska kunna ge. Den prövar dock lämpligheten av Copilot för en mycket vanlig uppgift:Sammanfattning av texter*.

Microsoft skriver ju åtminstone om ett första användningsfall (se ovan) något om sammanfattade svar. Är kanske (även eller just) det att sammanfatta texter med detta menat?

Uppgiften är alltså inte överväldigande svår och heller inte obegriplig. Nästan vem som helst skulle nog tänka på det som ett tillämpningsfall för AI-system i sitt arbete.

Copilot tvingades att genomföra två tester. I det första testet fick Copilot en URL till en blogginlägg och skulle sammanfatta artikeln. Resultatet var så dåligt att ett andra test tycktes vara rättvist. Här fick Microsofts s.k. Copilot testen manuellt föreskrivas, för att inte överbelasta Copilot med att hämta en artikel från internet.

Test: Sammanfatta blogginlägg med hjälp av URL

Frågeställningen (prompten) till Copilot var enkel:

Sammanfattning av blogginlägget: https://dr-dsgvo.de/ki-und-intelligenz-ist-der-mensch-nicht-auch-ein-token-papagei/ Artikeln diskuterar om människan är mer än bara ett "token" (en token är en enhet som representerar något) och om artificiell intelligens (AI) kan ersätta mänsklig intelligens
Precisa frågeställning som Copilot borde svara på.

Copilots svar var följande:

Svar från Copilot på ovanstående fråga. Senast uppdaterad: 08.05.2024 (bilden översattes automatiskt).

Källorna blev i skärmdumpen anonymiserade. Av de fem nämnda källorna hänvisade fyra till en webbplats och den femte till en annan webbplats. Båda webbplatserna omnämns inte och länkas inte i det text som skulle sammanfattas.

Den givna texten, som Copilot borde sammanfatta, innehåller inga uppgifter om "ADM-system". Författaren till texten vet inte vad ett "ADM-system" är. Som datalog har han aldrig hört talas om det. Antingen var hans 30+ år av IT-erfarenhet för ingen nytta eller så har Copilot fabulerat eller använt irrelevanta antifakta (i förhållande till uppgiftsbeskrivningen) för att vinna tid.

Copilot svarar helt felaktigt på en standarduppgift. Copilots svar glänser av sin användbarhet.
Se inlägg för detaljer.

Copilots skriver något om "transparens, självkontroll och tillsyn". Begreppen förekommer inte i texten. Under texten står i en kontakt ruta endast ordet "fullständig datakontroll", som hänvisar till en offline-AIsom kan göra Copilot överflödig för många uppgifter och ibland tydligt övertrumfa Copilot. Dessutom var det inte fråga om "diskriminering" i ursprungstexten, som Copilot införde i sin svar.

I artikeln som Copilot borde sammanfatta handlar det inte heller i första hand om dataskydd, utan om AI. Begreppen "dataskydd" och "DSGVO" nämns inte alls (och om de gör det är det mycket sällan och i form av "… på Dr DSGVO-bloggen" m.m.).

Sammanfattning: Copilot har helt misslyckats och inte löst uppdraget.

Ingenstans syntes det att svaret kunde vara felaktigt, att man borde kontrollera det eller liknande.

Den 5 juli 2024 svarade Copilot på samma fråga (med något annorlunda formulering) med följande svar:

Källa: Microsoft Copilot med röda anteckningar av författaren (bilden översattes automatiskt).

Bilden talar för sig själv.

Test: Sammanfatta blogginläggstext

Kommer vi till test nummer två. Vi vill utesluta att det beror på att man kallar upp en URL från internet. Det kan ju vara så att Copilot därmed överbelastades.

För denna testning borde det vara lättare för Copilot, efter att Copilot misslyckades i föregående test. Nu har texten från blogginlägg manuellt och med Copy & Paste infogats i Copilot. Det såg ut såhär:

Klass="wp-element-caption">Test av Copilot: Sammanfatta given text (bara utdraget av texten visas, eftersom den är för lång för skärmdump). Bilden översattes automatiskt.

Tyvärr var det inte möjligt att kopiera hela artikeln in i Copilots chattbox. Detta har naturligtvis beaktats. Även om detta inte är orsaken till följande testresultat. Svaret som Copilot gav ut var:

Källa: https://copilot.microsoft.com/ Datum: 08.07.2024 (bilden översattes automatiskt).

Svaret har ingenting med den ursprungliga frågan att göra. Några bevis för svarets dåliga kvalitet, som är under ett litet barns nivå. Det lilla barnet hade sagt "ingenting" och varit mindre felaktigt:

GPT-3 nämndes inte i texten som Copilot skulle sammanfatta (1., 2. och 3. stycket i Copilots svar).
Forskarna och deras studie som nämns av Copilot nämns inte i texten (1. + 2. stycke).
De i tredje stycket nämnda aspekterna "förmåga att bilda analogier" samt "analogiproblem" omnämndes inte i texten. Där talades bara om analoga signaler (mot digitala signaler) och ordet "analog" användes i ett ytterligare mening, men helt underordnat ("…då talar vi analogt om robotar med en inbyggd dator").
De "stora språkmodellerna" som Copilot nämner, omnämns inte i texten. Där talas bara om "språkmodeller". Ordet "stor" eller till och med "LLM" (som "Large Language Model") förekommer inte alls.
Källorna som nämns av Copilot har inte nämnts i texten (1., 2. och 3. stycke samt källhänvisningar från Copilot).

Om man tar bort alla påståenden i Copilots svar som inte har med det ursprungliga texten att göra, återstår mycket lite. I skolan skulle läraren säkert ge Copilotens svar betyget 6 för "igenomgående".

Det resultat som Copilot levererade är en obehaglighet. Det glänser av slumpartade påståenden och kan betraktas som helt felaktigt. Uppgiften var att sammanfatta ett given text, uppgiften blev inte ens tillgodosedd i någon utsträckning. Istället läser svaret ut som ett slumpmässigt sökresultat, vilket har samlats ihop av ett språkmodell. Dessutom ges det sken av att svaret är (det perfekta) svaret.

Ingenstans på användargränsen (Web-UI) finns det någon anmärkning om att Copilot-svarna kan vara felaktiga eller inkorrekta. I alla fall inte, om man tittar runt på skärmen hela dagarna. Kanske förväntar Microsoft att användaren ska leta och läsa Microsoft-artiklar till dess de hittar "Copilot kan också berätta fullständigt nonsens. Men det hoppas vi inte kommer att ske så ofta, eftersom vi ju är Microsoft och försöker ge intrycket att Copilot faktiskt kan hjälpa med alla möjliga uppgifter, till exempel att sammanfatta svar".

Resultat med egen AI

Testen kunde kanske varit ojävig (det låter mer ironiskt ut om man ser på uppgiftsformuleringen). Att sammanfatta en text kan ha varit för svårt och överstiger enskilt även den mest intelligenta människans förmåga (detta var nu definitivt ironiskt). För att utesluta detta, ställdes samma uppgift till en egen Offline-AI. Utan Microsoft, Copilot, Azure eller ChatGPT.

Uppgiften till den offline-AL var:

Sammanfatt webbplatsen: https://dr-dsgvo.de/ki-und-intelligenz-ist-der-mensch-nicht-auch-ein-token-papagei
Samma uppgift som var för svår för Copilots Offline-AI.

Den ohanterade svaret från Offline-AI var:

"Författaren påstår att AI (konstig intelligens) och människan fungerar likt token-papegojor, genom att de sannolikhetsbaserade beslut fattas. Han betonar att det inte är mekanismen i sig som gäller utan resultatet. Författaren kritiserar att många människor har en felaktig uppfattning om intelligens och inte hittar någon definition av den. Han argumenterar att AI-system som neuronala nätverk är "enkla" mekanismer som kan lösa komplexa problem. Han hävdar också att människan är en token-papegoja, eftersom hon fattar sannolikhet baserade beslut. Författaren presenterar en beta-version av en offline-AIoch betonar att denna lösning är bättre än ChatGPT och inte skickar data till tredje part. Han erbjuder gratis rådgivning för företag och myndigheter som behöver en AI-lösning. Totalt argumenterar författaren att AI-system som token-papegojor fungerar och att det inte är på mekanismen i sig som det handlar, utan på resultatet."
Resultatet av den uppgift som nämnts med en AI som utför arbetet, alltså inte Copilot.

Resultatet kan var och en bedöma själv. En jämförelse med Copilot borde visa vem som helst var kvalitetsfördelningen ligger.

Det måste ju vara väldigt komplicerat att göra något sådant som till och med för en copilot ter sig omöjligt att lösa

Yes, det är redan mycket komplicerat (ironi). Det har nästan tagit mer tid att skriva programmet än att vänta på svaret (som var snabbt tillgängligt). Grundläggningen för denna offline-AIfanns redan. Varje företag kan ha en sådan egen AI. Likaså kan prototyper byggas, med vilka den grundläggande lämpligheten av en AI för vissa tillämpningsfall kan prövas.

Den offline-beräkningskraften som gav det ovanstående resultatet gjorde automatiskt följande:

Laddning av den i prompten nämnda URL
Utdrag av innehållscentrum ( = blogginlägg )
Sammanfattning av blogginlägget
Uppgiften till svar

Offline-AI innebär att kraftsystemet kan fungera helt självständigt och kommunicera med internet eller andra IT-system vid behov. Precis det hände när blogginlägget hämtades från internet.

ChatGPT: En kort utlandsresa

För det härskrivna citatet gav ChatGPT denna artikel (ungefär 4700 tecken) följande mycket korta sammanfattning:

"Artikeln om bloggen kritiserar Microsoft Copilot starkt. Trots Microsofts reklam för att vara ett mångsidigt AI-verktyg misslyckades Copilot i testet genom att inte klara av en enkel uppgift, att sammanfatta en artikel. Resultaten var oprecis och irrelevanta. Testarna hittade inga tydliga informationer om funktionerna hos Copilot och ifrågasatte dess säkerhet. I stort beskrivs Copilot som otillförlitlig och ineffektiv."

Som syns kan sammanfattningen betraktas som semantiskt användbar. Dess längd är dock mer eller mindre användbar. Med Prompt-Tuning kommer man vidare. Då saknas dock några kärnuppgifter. Här hjälper ytterligare Prompt-Tuning. Vem vill gärna ibland låta texter sammanfattas och inte vill ta på sig yrket som tuner, är bättre tillgodosedd med ett eget AI-system.

Sammandrag

Copilot är tydligen ett marknadsföringsverktyg från Microsoft och inte en allvarlig AI. I alla fall gäller det för den nämnda testen. Dessutom kan programmeringstävlingar även utan Copilot utföras. Då används tillgängliga AI-modeller som gör ett mycket bra jobb.

Om du vill ladda upp dina egna data till Microsoft Cloud, borde du nog tänka om igen. Förutsatt att du inte redan har blivit avskräckt av Copilots tvivelaktiga förmågor.

Det som stör, är Microsofts maximala självförtroende som inte alls passar till Copilots brister. Det görs på alla håll (mail, webbplats) så att det verkar som om Copilot var en frälsare.

Vill ni hellre använda en bättre lösning? Förutsättningen är att man ser på konkreta tillämpningsfall istället för marknadsföringsutspel. Att se på konkreta tillämpningsfall är särskilt i det artificiella intelligenstfältet alltid ett meningsfullt förfarande.