Hvad er de primære kritikpunkter ved Microsoft Copilot, baseret på testen?

Testen viser, at Copilot er fuldstændt ubrugelig til simple opgaver som at opsummere tekster, og leverer falske eller irrelevante svar. Der er desuden væsentlige sikkerhedsmæssige bekymringer vedrørende adgang til data.

Hvilke risici er der følge af, at amerikanske myndigheder og efterretningstjenester får adgang til data, der behandles af Copilot?

Selv om data fra EU-virksomheder opbevares i EU, er der risiko for, at amerikanske myndigheder og efterretningstjenester uautoriseret kan få adgang til dem, hvilket udgør en væsentlig sikkerhedsrisiko.

Hvorfor fejlede Microsoft Copilot ved opsummeringen af blogindlægget?

Copiloten leverede et svar, der ikke havde noget at gøre med den oprindelige tekst, og dermed opfyldte ikke opgaven med at opsummere teksten. Svaret indeholdt mange irrelevante udsagn og var derfor fuldstændig ubrugeligt.

Hvordan adskiller Copilots resultat sig fra svaret fra en offline AI?

Den offline AI-modellen lyngeslunde det blogindlæg korrekt og leverede en præcis og relevant resumé, mens Copilot producerede et meningsløst og irrelevant svar. Dette viser de betydelige forskelle i ydelsen mellem de to systemer.

Hvad er det primære problem med Microsoft Copilot, som beskrevet i artiklen?

Copilot fejler ved simple opgaver som at opsummere tekster. Resultaterne er ofte forkerte, irrelevante og indeholder ingen væsentlige oplysninger fra den originale tekst.

Hvorfor bliver Copilot kritiseret som upålidelig og ineffektiv i artiklen?

Artiklen fast, at Copilot ikke i stand til pålideligt at udføre opgaven med at opsummere en blogartikel. Sammenfattelserne er unøjagtige og ikke nyttige for brugeren.

Hvilke konsekvenser har brugen af Copilot i forhold til datasikkerhed?

Artiklen pegelt på dataproblemer ved brug af Microsoft Copilot. Der er bekymring for, at følsomme data muligvis ikke er tilstrækkeligt beskyttet, hvilket giver anledning til bekymringer om datasikkerhed.

Den totale fiasko for Microsoft Copilot

Microsoft fremmer Copilot som en professionel løsning, der skal støtte alle mulige aktiviteter særligt godt. En test med en standardopgave viser, at dette selv under velvilende betragtning er helt ucorrekt. Ved siden af disse funktionelle svagheder opstår spørgsmålet om datasekretessen.

Hvad er Microsoft Copilot?

Copilot er noget med kunstig intelligens. Hvad præcis Copilot er, kunne ikke opdages ved testen. Testresultaterne opmuntrede ikke til at fortsætte med at teste.

Svaret på spørgsmålet, hvad Copilot skal være, sender Microsoft via e-mail efter at man har registreret sig for den gratis testversion. Ifølge Microsoft er Copilot et kapabelt AI-system:

Hvor meget du ønsker at lære om programmering, planlægge den perfekte ferie eller blot få hjælp til at skrive en svær e-mail, så er din AI-partner i hverdagen der til at hjælpe dig med alt som en professionel
Kilde: Microsofts velkomstmail "Velkommen til Microsoft Copilot, din AI-kumpan i hverdagen".

Dette udsagn lyder sådan, som om man med Copilot kunne gøre mange ting meget godt. Man bliver placeret i en situation hvor man kan "gøre alt som en professionel", siger Microsoft.

Denne mail indeholder endda et konkret eksempel, som bliver nævnt i den mail:

Kilde: Den ovennævnte velkomst-e-mail til Copilot. Rød ramme tilføjet til denne artikel (billedet blev automatisk oversat).

Også kaldes det sammenføring af svar. Det, der menes hermed, er hverken klart for denne artikels forfatter eller Microsofts hjemmeside („Nu test“), hvor man blandt andet kan læse: „Omsætte inspirationer“ og „Gør mere – hverken tid eller sted har betydning“.

Copilot-testen

Denne test er sikkert ikke repræsentativ for alle muligheder, som Copilot skal tilbyde. Han prøver dog egnetheden af Copilot til en meget almindelig opgave:At sammenfatre tekster*.

Microsoft skriver jo i det mindste om sammenfattede svar (se ovenover). Er måske (også eller blot) sammenføring af tekster med dette menes?

Opgaven er derfor ikke overvældende svær og heller ikke uden for verden. Det ville næsten hver enkelt komme i tankerne som anvendelsesfald for AI-systemer.

Copilot blev tvunget til at gennemføre to tests. I det første test modtog Copilot en URL på en blog-artikel og skulle sammenfatte artiklen. Resultatet var så dårligt, at et andet test fremstod som fair. Her fik Microsofts såkaldte Copilot testen manuelt tilskrevet, så Copilot ikke blev overvældet af at hente en artikel fra internettet.

Prøve: Sammenfatte blog-artikel om URL

Spørgsmålet til Copilot var enkelt:

Sammenfattelse af blog-artiklen: "Kunstig intelligens og intelligens – er mennesket ikke også et token for en papegøge?
Præcise spørgsmål, som Copilot skulle besvare.

Copilots svar var følgende:

Svar fra Copilot til ovenstående spørgsmål. Dato: 08.05.2024 (billedet blev automatisk oversat).

Kilderne blev i skærmbilledet anonymiseret. Af de fem nævnte kilder henvisede fire til en hjemmeside og den femte til en anden hjemmeside. Begge hjemmesider nævnes ikke og linkes ikke i teksten, der skulle sammenfattes.

Den givne tekst, som Copilot skulle sammenfatre, indeholder ingen oplysninger om "ADM-systemer". Tekstens forfatter har ikke en anelse om, hvad et "ADM-system" er. Som datalog har han aldrig hørt til noget om det. Enten var hans 30+ år med IT-erfaring for ingenting eller Copilot har fabuleret eller spist sig på irrelevante antifakta (i forhold til opgaven).

Copilot besvarer en standardopgave fuldstændigt forkert. Copilots svar glimter af sin uanvendelighed.
Se artikel for detaljer.

Copilotten skriver noget om "transparens, selvkontrol og tilsyn". Begrebet forekommer ikke i teksten. Under teksten står der i en kontaktboks blot ordet "fuld datakontrol", som henviser til en Offline-AI, der gør Copilotten overflødig for mange opgaver og ofte kan overtrumfe den. Der var heller ikke tale om "diskrimination" i det oprindelige tekst, som Copilotten indtager i sin svar.

I artiklen, som Copilot skulle sammenfatre, handler det ikke primært om dataskyddet, men om kunstig intelligens. Begrebet "dataskydd" og "DSGVO" nævnes heller ikke i kernteksten (og hvis de gør, så meget sjældent og i form af "… i Dr. DSGVO Blog" o.s.v.).

Konklusion: Copilot har fuldstændigt mislykket sig og ikke løst opgaven.

Ingensteds var der at se, at svaret kunne være forkert, at man skulle tjekke det eller lignende.

Den 5. juli 2024 gav Copilot følgende svar på samme spørgsmål (med let anderledes formulering):

Kilde: Microsoft Copilot med røde bemærkninger af forfatteren (billedet blev automatisk oversat).

Billedet taler for sig selv.

Prøve: Sammenfatte blog-artikelteksten

Kom til test nummer to. Vi vil udelukke, at det lå i afhentningen af en URL fra internettet. Det kunne jo være, at Copilot var overfordret med det.

Det skulle være nemmere for Copilot at gøre dette test, efter at Copilot havde været meget dårlig på det foregående test. Nu blev teksten fra blog-artiklen manuelt og ved hjælp af Copy & Paste indført i Copilot. Det så ud således:

Test af Copilot: Sammenfatte givet tekst (kun afsnit af teksten er vist, da den er for længelig til screenshot). Billedet blev automatisk oversat.

Desværre var det ikke muligt at kopiere hele artiklen ind i Copilots chatboks. Dette blev selvfølgelig taget i betragtning. Men dette er ikke årsagen til følgende testresultat. Svaret, som Copilot leverede, var:

Kilde: X1 Stand: 08.07.2024 (billedet blev automatisk oversat).

Svaret har ikke noget med spørgsmålet at gøre. Nogle beviser for den dårlige kvalitet af svaret, der er under niveauet hos et lille barn. Det lille barn ville have sagt meget mindre forkert:

GPT-3 blev ikke nævnt i teksten, som Copilot skulle sammenfattede (1., 2. og 3. afsnit af Copilots svar).
Forskerne, som blev nævnt af Copilot, og deres studie bliver ikke nævnt i teksten (1. + 2. afsnit).
De i 3. afsnit nævnte aspekter "evne til at danne analogier" samt "analogieproblemer" blev ikke nævnt i teksten. Der blev kun snakket om analoge signaler (mod digitale signaler) og ordet "analog" blev brugt i en anden sætning, men helt underordnet ("…så taler vi analog om robotere med en indbygget computer").
De store sprogmodeller, som Copilot nævnte, blev ikke nævnt i teksten. Der blev kun snakket om "sprogmodeller". Ordene "stor" eller selv "LLM" (som "Large Language Model") kom ikke frem.
Kilderne, som nævntes af Copilot, blev ikke nævnt i teksten (1., 2. og 3. afsnit samt kildetilføjelser fra Copilot).

Hvis man fjerner alle påstande fra Copilots svar, som ikke har med det oprindelige tekst, der skulle sammenfattes, at gøre, er der meget lidt tilbage. I skolen ville læreren sandsynligvis give Copilots svar en karakter på 6 for "ikke tilfredsstillende".

Det resultat, som Copilot leverede, er en fornærmelse. Det glimrer af udefinerlige påstande og kan betegnes som fuldstændigt falsk. Opgaven var at sammenføre en givet tekst. Denne opgave blev ikke engang tilnærmet løst. I stedet ligner svaret et tilfældigt søgeresultat*, der er sammenføjet af et sprogmodel. Derudover gives det ud, som om svaret var den (perfekte) løsning.

Nirgendwo på overfladen (Web-UI) finder man en advarsel* om, at Copilot-svarene kunne være forkerte eller ukorrekte. I hvert fald ikke, hvis man kigger overalt på skærmen. Måske forventer Microsoft, at brugeren søger og læser Microsoft-artikler, indtil de finder "Copilot kan også fortælle fuldstændig nonsens. Men det håber vi ikke kommer så ofte til at ske, fordi vi jo er Microsoft og gør, som om Copilot virkelig kunne hjælpe med alle mulige opgaver, fx ved at sammenføre svar".

Resultat med egen AI

Testen kunne måske være blevet upræcis (hvad der virkede ironisk, hvis man ser på opgaven). At samle en tekst sammen var måske for svær og overgår selv den mest intelligente menneskes evne (det var nu sikkert ironi). For at udelukke dette blev samme opgave stillet til en egen Offline-AI. Uden Microsoft, Copilot, Azure eller ChatGPT.

Den opgave til den Offline-AI var:

Sammenfør følgende hjemmeside: https://dr-dsgvo.de/ki-und-intelligenz-ist-der-mensch-nicht-auch-ein-token-papagei
Samme opgave til Offline-AI, der var for svær til Copilot.

Den uafarbejede svar fra offline-AIvar:

"Forfatteren påstår, at kunstig intelligens og mennesket fungerer på samme måde som token-papagayer ved at træffe sandsynlighedsbaserede beslutninger. Han understreger, at det ikke er mekanismen i sig selv, der tæller, men resultatet. Forfatteren kritiserer, at mange mennesker har en forkert opfattelse af intelligens og ikke kan finde en definition deraf. Han argumenterer for, at AI-systemer som neuronale netværk er "simple" mekanismer, der kan løse komplekse problemer. Han påstår også, at mennesket er en token-papagei ved at træffe sandsynlighedsbaserede beslutninger. Forfatteren præsenterer en beta-version af en offline-AIog understreger, at denne løsning er bedre end ChatGPT og sender ikke data til tredje part. Han tilbyder gratis rådgivning til virksomheder og myndigheder, der har brug for en AI-løsning. I alt sammen argumenterer forfatteren, at AI-systemer som Token-Papageier fungerer og at det ikke er på mekanismen selv, der gælder, men på resultatet."
Resultatet af nævnte opgave med en AI, der udfører arbejdet, altså ikke Copilot.

Resultatet kan hver selv bedømme. En sammenligning med Copilot skulle til hver enkelt vise, hvor kvalitetsforskellene ligger.

Det må være meget kompliceret at gøre noget sådant, selv for en copilot ser det ud til ikke at være løsningen

Yes, det er allerede meget komplekst (Ironi). Det har næsten taget længere tid at skrive programmet end at vente på svar (som var hurtigt tilbage). Grundlag for denne offline-AIvar allerede til stede. Hvert enkelt firma kan have sin egen sådan AI. Således kan prototyper bygges, med hvilke den grundlæggende egenskab af en AI til bestemte anvendelsessager kan undersøges.

Den Offline-AI, der leverede ovenstående resultat, gjorde automatisk følgende:

Hentning af den i prompten nævnte URL
Udtrækning af kerneindholdet (=blog-artikel)
Sammenfatning af blog-artiklen
Udlevering af svar

Offline-AI betyder, at AI'en kan fungere selvstændigt og hvis nødvendigt kommunikere med internettet eller andre IT-systemer. Præcis det skete, da blog-artikklen blev hentet fra internettet.

ChatGPT: Kort udflugt

For det indskrevne tekstuddrag leverede ChatGPT denne artikel (ca. 4700 tegn) følgende meget korte sammenfattelse:

"Blogartiklen kritiserer Microsoft Copilot stærkt. Trods Microsofts reklamering om, at det er et flertydigt AI-Tool, slog Copilot i testen ved ikke at kunne løse en enkel opgave, nemlig sammenfattelse af en blogartikel. Resultaterne var usikre og irrelevante. Testerne fandt ingen klare oplysninger om funktionerne hos Copilot og spurgte sig selv også om datasekretessen. I alt blev Copilot beskrevet som uansvarlig og ineffektiv."

Som at ses, kan sammenfattelsen betegnes som semantisk brugbar. Deres længde er dog mere eller mindre brugbar. Ved hjælp af prompt-tuning kommer man videre. Så mangler der dog nogle centrale påstande. Her hjælper yderligere prompt-tuning. Hvis du gerne vil have tekster sammenfattet og ikke ønsker at tage jobbet som tuner, er det bedst med et eget AI-system.

Konklusion

Copilot ser ud til at være et markedsfølsesværktøj fra Microsoft og ikke en alvorlig AI. I hvert fald gælder det for den nævnte test. Desuden kan programmeringsoptegnelser uden Copilot udføres. Dertil bruger man relativt tilgængelige AI-modeller, der gør et meget godt job.

Den, der vil laste sine egne data op i Microsoft Cloud, skal nok en gang over det igen tænke. Forudsat, du ikke allerede er blevet afskrækket af de tvivlsomme evner hos Copilot.

Det, der størrer, er Microsoft' største selvfølelse, som ikke overhovedet passer til Copilots mangler. Det bliver gjort på alle måder (mail, hjemmeside), som om Copilot var redningsmanden.

Vil De ikke hellere bruge en bedre løsning? Forudsætningen er, at konkrete anvendelsesfald skal betragtes i stedet for at se på markedsannonceringer. At betragte konkrete anvendelsesfald er især i AI-området altid en rimelig tilgang.