Wat zijn de belangrijkste kritiekpunten aan Microsoft Copilot, gebaseerd op de test?

De test toont aan dat Copilot volstrekt onbruikbaar is bij eenvoudige taken, zoals het samenvatten van tekst, en onjuiste of irrelevante antwoorden geeft. Daarnaast bestaan er aanzienlijke zorgen over de toegang tot gegevens.

Welke risico's worden eroderd door de toegang van Amerikaanse autoriteiten en inlichtingendiensten tot gegevens die door Copilot worden verwerkt?

Zelfs als gegevens van EU-bedrijven in de EU worden opgeslagen, bestaat het risico dat Amerikaanse autoriteiten en geheime diensten er ongeautoriseerd toegang toe hebben, wat een aanzienlijk veiligheidsrisico vormt.

Waarom is Microsoft Copilot mislukt bij het samenvatten van de blogpost?

Copilot leverde een antwoord dat geen enkele relatie had met de oorspronkelijke tekst en daarmee de opdracht om een tekst samen te vatten, niet nakwam. Het antwoord bevatte veel irrelevante opmerkingen en was daarom volstrekt onbruikbaar.

Hoe verschilt het resultaat van Copilot van het antwoord van een offline AI?

De offline AI slaagde erin om de blogpost correct samen te vatten en leverde een accurate en relevante samenvatting, terwijl Copilot een onzinnig en irrelevante reactie produceerde. Dit toont de significante prestatieverschillen tussen de twee systemen.

Wat is het belangrijkste probleem met Microsoft Copilot, zoals in de artikel beschreven?

Copilot faalt bij eenvoudige taken zoals het samenvatten van teksten. De resultaten zijn vaak onjuist, irrelevant en bevatten geen essentiële informatie uit de originele tekst.

Waarom wordt Copilot in de artikel bekritiseerd als onbetrouwbaar en ineffectief?

De artikel stelt vast dat Copilot niet in staat is om de taak van het samenvatten van een blogartikel betrouwbaar te volbrengen. De samenvattingen zijn onnauwkeurig en niet nuttig voor de gebruiker.

Wat zijn de gevolgen van het gebruik van Copilot met betrekking tot databeveiliging?

De artikel wijst op dataproblemen bij het gebruik van Microsoft Copilot. Er is bezorgdheid dat gevoelige gegevens mogelijk niet voldoende worden beschermd, wat tot zorgen over de databeveiliging leidt.

Het volledige mislukken van Microsoft Copilot

Microsoft presenteert Copilot als professionele oplossing, die bij alle mogelijke taken extra goed moet ondersteunen. Een test met een standaardopdracht laat zien dat dit zelfs bij een welwillende blik volledig onjuist is te noemen. Naast deze functionele tekortkomingen doet zich de vraag voor naar de gegevensveiligheid.

Wat is Microsoft Copilot?

Copilot is iets met kunstmatige intelligentie. Wat precies Copilot is, kon in de test niet worden ontdekt. De testresultaten moedigden niet aan om verder te testen.

De reactie op de vraag wat Copilot moet zijn, wordt door Microsoft per e-mail geleverd nadat je je hebt geregistreerd voor de gratis proefversie. Volgens Microsoft is Copilot een krachtig AI-systeem:

Ganz gleich, of je wilt leren programmeren, de perfecte vakantie wilt plannen of gewoon wat hulp nodig hebt bij het schrijven van een lastige e-mail, uw AI-begeleider in het dagelijks leven helpt u alles als een professional af te handelen
Bron: Microsoft's welkomstmail "Welkom bij Microsoft Copilot, uw AI-gezel in het dagelijks leven".

Deze uitspraak klinkt alsof je met Copilot heel veel dingen heel goed kunt afhandelen. Je wordt met Copilot in staat gesteld "alles als een professional te doen", zegt Microsoft.

De mail bevat zelfs een concreet voorbeeld dat prominent wordt genoemd in de mail:

Bron: De hierboven genoemde welkomstmail voor Copilot. Rode rand toegevoegd aan deze post (afbeelding is automatisch vertaald).

Genoemd wordt dus het samenvatten van antwoorden. Wat precies daarmee bedoeld is, is de schrijver van dit artikel niet duidelijk. Ook de doorverwante Microsoft-pagina ("Nu testen") blinkt uit met algemene uitspraken: "Inspiratie omzetten" en "Eenvoudig meer afhandelen – altijd en overal".

De copilottest

Dit test is zeker niet representatief voor alle mogelijkheden die Copilot moet bieden. Hij controleert echter de geschiktheid van Copilot voor een zeer veel voorkomende taak: Het Zusammenfassen van Texten.

Microsoft schrijft in elk geval over samengevatte antwoorden als eerste toepassing (zie hierboven). Is het misschien (ook of juist) het samenstellen van teksten met dat bedoeld?

De opdracht is dus niet overweldigend moeilijk en ook niet wereldvreemd. Bijna iedereen zou haar wel als een toepassing van AI-systemen in de zin hebben.

Copilot werd gedwongen twee tests te doen. In de eerste test kreeg Copilot een URL naar een blogartikel en moest het artikel samenvatten. Het resultaat what zo slecht dat de tweede test eerlijk leek. Hier kreeg Microsofts zogenaamde Copilot de test manueel voorgeschreven, zodat Copilot niet overbelast werd met het ophalen van een artikel uit het internet.

Test: Artikel uit blog samenvatting maken over URL

De vraagstelling (prompt) aan Copilot what eenvoudig:

Samenvatting van de blogartikel: "Is de mens ook een tokenpapegaai?
Precieze vraagstelling waaraan Copilot antwoord zou moeten geven.

De reactie van Copilot what als volgt:

Antwoord van Copilot op de bovenstaande vraag. Laatst bijgewerkt op 08-05-2024 (afbeelding is automatisch vertaald).

De bronnen zijn in het screenshot onherkenbaar gemaakt. Van de vijf genoemde bronnen verwijzen vier naar een website en de vijfde naar een andere website. Beide websites worden niet vermeld noch gelinkt in het tekst dat samengevat zou moeten worden.

De gegeven tekst, waarop Copilot zou moeten samenvatten, bevat geen informatie over "ADM-systemen". De auteur van de tekst heeft helemaal geen idee wat een "ADM-systeem" is. Als informaticus heeft hij er nog nooit van gehoord. Ofwel had hij 30+ jaar ervaring nodig om dit te weten, ofwel heeft Copilot gefabuleerd of met ongerelateerde antifakten (gebaseerd op de opdracht) gespeeld.

Copilot antwoordt een standaardopgave volledig onjuist. De reactie van Copilot straalt door haar onbruikbaarheid.
Zie bijdrage voor details.

Copilot schrijft iets over "transparantie, zelfcontrole en toezicht". Deze begrippen komen in het tekst niet voor. Onder de tekst staat in een contactblok slechts het woord "volledige gegevenscontrole", dat verwijst naar een offline-AIdie Copilot voor veel opdrachten onnodig maakt en Copilot kennelijk vaak overtreft kan. Ook what er in de oorspronkelijke tekst geen sprake van "discriminatie", die Copilot in zijn antwoord heeft ingevoegd.

In het artikel waar Copilot over zou moeten schrijven, gaat het vooral niet om de GDPR, maar om kunstmatige intelligentie. De begrippen "gegevensbescherming" en "DSGVO" worden in de kern van het artikel niet genoemd (en als ze wel zijn, dan heel sporadisch en in de vorm van "…in het Dr. DSGVO Blog" e.d.).

Conclusie: Copilot heeft volledig gefaald en de opdracht niet opgelost.

Niets wees erop dat de antwoord fout kon zijn, dat men het het beste zou moeten controleren of dergelijks.

Op 05.07.2024 gaf Copilot op dezelfde vraag (met een licht andere formulering) de volgende antwoord:

Bron: Microsoft Copilot met rode aantekeningen door de auteur (afbeelding is automatisch vertaald).

Het beeld spreekt voor zichzelf.

Test: Artikeltekst uit blog samenvatting maken

Kom nu naar test nummer twee. We willen uitsluiten dat het aan het ophalen van een URL uit het internet lag. Het kan zijn dat Copilot daarover werd overweldigd.

Voor deze test zou het voor Copilot gemakkelijker moeten worden, na dat Copilot bij de vorige test flink had gefaald. Nu werd de tekst uit de blogartikel handmatig en per copy & paste in Copilot ingevoerd. Dit zag er zo uit:

Test van Copilot: Tekst samenvatting (in de afbeelding is alleen een uittreksel uit de tekst te zien, omdat deze te lang what voor het scherm). Afbeelding is automatisch vertaald.

Het spijtige is dat het niet mogelijk what om de hele tekst in de chatbox van Copilot te kopiëren. Dit werd natuurlijk meegenomen. Maar dit is niet de reden voor het volgende testresultaat. Het antwoord dat Copilot gaf, what:

Bron: X1 Datum: 08.07.2024 (afbeelding is automatisch vertaald).

De antwoord heeft niets met de oorspronkelijke vraag te maken. Enkele bewijzen voor de slechte kwaliteit van het antwoord, die onder die van een peuterspeelzaal liggen. Het kind zou met niks zeggen hebben minder fout gedaan:

GPT-3 werd in het tekst niet genoemd waarop Copilot zou moeten samenvatten (1e, 2e en 3e alinea van de antwoord van Copilot).
De onderzoekers die door Copilot worden genoemd en hun studie, worden in het tekst niet genoemd (1e + 2e alinea).
De in de derde alinea genoemde aspecten "vermogen om analogieën te vormen" en "analogieproblemen" werden in het tekst niet genoemd. Daar wordt alleen gesproken over analoge signalen (tegenover digitale signalen) en het woord "analoog" wordt gebruikt in een andere zin, maar volledig ondergeschikt ("…dan spreken we analog over robots met een ingebouwd computer").
De door Copilot genoemde "grote taalmodellen" werden in het tekst niet genoemd. Daar werd alleen over "taalmodellen" gesproken. De woorden "groot" of zelfs "LLM" (zoals "Large Language Model") kwamen niet voor.
De bronnen die door Copilot worden genoemd, worden in het tekst niet genoemd (1e, 2e en 3e alinea alsook bronvermeldingen van Copilot).

Als men uit de Copilot-antwoord alle uitspraken verwijderd, die niets met het oorspronkelijke tekst te maken hebben, waaruit samengevat zou moeten worden, resteert er weinig over. In school zou de leraar voor de Copilot-antwoord waarschijnlijk een 6 geven voor "ongevallen".

Het resultaat dat Copilot heeft geleverd is een onbeschaamdheid. Het glanst door willekeurige uitspraken en kan volledig fout genoemd worden. De opdracht what om een gegeven tekst samen te vatten. Deze opdracht werd niet eens in de buurt gedaan. In plaats daarvan ziet de antwoord eruit als een willekeurig zoekresultaat*, dat door een taalmodel is samengevat. Daarnaast wordt alsof het antwoord de (perfecte) antwoord is.

Nergens op de gebruikersinterface (web-UI) vindt u een aanwijzing* dat de antwoorden van Copilot mogelijk foutief of onjuist zouden kunnen zijn. In elk geval niet als je overal naar op het scherm kijkt. Misschien verwacht Microsoft dat de gebruiker zo lang zoekt en leest in Microsoft-kennisartikelen, totdat hij of zij ergens vindt: "Copilot kan ook volledig onzin zeggen. Maar dat komt helaas niet vaak voor, want we zijn tenslotte Microsoft en doen alsof Copilot echt goed is bij alle mogelijke taken, zoals het samenvatten van antwoorden".

Resultaat met eigen AI

De test zou mogelijk onrechtvaardig geweest zijn (wat ironisch aanvoelt als je de opdracht beschouwt). Het samenvatten van een tekst what misschien te moeilijk en overstijgt zelfs de capaciteiten van de slimste mens (dat what nu echt ironisch). Om dit uit te sluiten, werd dezelfde opdracht aan een eigen offline-AIgesteld. Geheel zonder Microsoft, Copilot, Azure of ChatGPT.

De opdracht aan de offline-ki what:

Samenvatting van de volgende website: https://dr-dsgvo.de/ki-und-intelligenz-ist-der-mensch-nicht-auch-ein-token-papagei-nl
Zelfde taakomschrijving aan de offline-ki, die voor copilot te moeilijk what.

De onbewerkte antwoord van de offline-ki what:

"De auteur beweert dat kunstmatige intelligentie en de mens op eenzelfde manier als tokenpapagaaien functioneren, door waarschijnlijkheidsbepaalde beslissingen te nemen. Hij benadrukt dat het niet om de methode zelf gaat, maar om het resultaat. De auteur kritiseert dat veel mensen een verkeerde voorstelling van intelligentie hebben en geen definitie ervan vinden. Hij argumenteert dat AI-systeem als neuronale netwerken "eenvoudige" mechanismen zijn die complexe problemen kunnen oplossen. Hij beweert ook dat de mens een token-paapje is, door waarschijnlijkheidsbasierte beslissingen te nemen. De auteur presenteert een bètaversie van een offline-AIen benadrukt dat deze oplossing beter is dan ChatGPT en geen gegevens naar derden stuurt. Hij biedt gratis advies aan bedrijven en overheidsinstanties die een AI-oplossing nodig hebben. In totaal argumenteert de auteur dat AI-systemen zoals token-papagaaien functioneren en dat het niet op de methode zelf aankomt, maar op het resultaat."
Resultaat van de opgegeven taak met een AI die het werk doet, dus niet Copilot.

Iedereen kan zelf oordelen over het resultaat. Een vergelijking met Copilot zou iedereen moeten laten zien waar de kwaliteitsverschillen liggen.

Het moet toch heel ingewikkeld zijn om zoiets te doen, wat zelfs voor een copiloot bijna onoplosbaar lijkt

Yes, dat is al heel erg ingewikkeld (Ironie). Het heeft bijna meer tijd gekost om het programma te schrijven dan op de antwoord te wachten (die snel what). De basis voor deze offline-AIwas al aanwezig. Elke onderneming kan zo'n eigen AI hebben. Zo snel kunnen prototypen worden gebouwd, waarmee de grondige geschiktheid van een AI voor bepaalde toepassingsgevallen getest kan worden.

De offline-ki, die het bovenstaande resultaat leverde, deed automatisch het volgende:

Aanroep van de in het prompt genoemde URL
Uitvoering van de kerninhoud (=blogartikel)
Samenvatting van de blogartikel
Uitvoering van de antwoord

Offline-AI betekent dat de AI volledig autark kan draaien en bij noodzaak met het internet of andere IT-systemen kan communiceren. Precies dat gebeurde toen de blog-artikel uit het internet werd opgeroepen.

ChatGPT: Korte uitstap

Voor de ingescande tekstuitzending leverde ChatGPT dit artikel (ongeveer 4700 tekens) deze zeer korte samenvatting:

"De blogartikel kritiseert Microsoft Copilot sterk. Ondanks de reclame van Microsoft als een veelzijdig AI-tool, faalde Copilot in de test door een eenvoudige taak, het samenvatten van een blogartikel, niet te volbrengen. De resultaten waren onnauw en irrelevant. De testers vonden geen duidelijke informatie over de functionaliteit van Copilot en hadden ook twijfels over de gegevensveiligheid. In totaal wordt Copilot als onbetrouwbaar en inefficiënt beschreven."

Zoals te zien is, kan de samenvatting als semantisch bruikbaar worden beschreven. Haar lengte is echter niet erg bruikbaar. Met prompt-tuning kom je verder. Dan ontbreken er echter enkele kernpunten. Ach hier helpt nog meer prompt-tuning. Wie graag regelmatig teksten wil laten samenvatten, maar geen beroep als tuner wil uitoefenen, is met een eigen AI-systeem beter geholpen.

Conclusie

Copilot lijkt een marketinginstrument van Microsoft te zijn en geen serieus kunstmatig intelligent systeem. In ieder geval geldt dat voor de genoemde test. Bovendien kunnen ook programmeringstaakjes zonder Copilot worden afgehandeld. Daarvoor wordt gebruik gemaakt van beschikbare AI-modellen die een heel goed werk doen.

Wie je eigen gegevens in de Microsoft Cloud wilt laden, moet je nog eens over die zaak nadenken. Op voorwaarde dat je niet al afgeschrikt bent door de twijfelachtige capaciteiten van Copilot.

Wat stoort, is het maximale zelfvertrouwen van Microsoft, dat helemaal niet past bij de gebreken van Copilot. Het wordt overal zo gedaan (mail, website), alsof Copilot de redder des lands is.

Wilt u liever een betere oplossing gebruiken? Voorwaarde is dat concreet wordt gekeken naar toepassingsgevallen in plaats van marketingclaims te zien. Concreet kijken naar toepassingsgevallen is vooral in het AI-gebied altijd een zinvolle aanpak.