Jakie są główne punkty krytyki Microsoft Copilot, na podstawie testu?

Test wskazuje, że Copilot jest całkowicie bezużyteczny w prostych zadaniach, takich jak streszczenia tekstów, i dostarcza błędne lub nieistotne odpowiedzi. Ponadto istnieją poważne obawy dotyczące dostępu do danych.

Jakie ryzyka wiążą się z dostępem amerykańskich organów władzy i służb wywiadowczych do danych przetwarzanych przez Copilota?

Nawet jeśli dane firm z UE są przechowywane w UE, istnieje ryzyko, że amerykańskie organy władzy i służby wywiadowcze mogą nieuprawnione do nich uzyskać dostęp, co stanowi poważne zagrożenie dla bezpieczeństwa.

Dlaczego Microsoft Copilot zawiódł podczas streszczenia artykułu na blogu?

Copilot podał odpowiedź, która nie miała żadnego związku z tekstem wejściowym i tym samym nie spełnił zadania, jakim było streszczenie tekstu. Odpowiedź zawierała wiele nieistotnych stwierdzeń i była w związku z tym całkowicie bezużyteczna.

Jak różni się wynik generowany przez Copilota od odpowiedzi generowanej przez lokalną sztuczną inteligencję?

Sztuczna inteligencja działająca offline poradziła sobie z poprawnym streszczaniem artykułu na blogu, dostarczając dokładne i istotne streszczenie, podczas gdy Copilot wygenerował bezsensowną i nieodpowiadającą rzeczywistości odpowiedź. To ilustruje znaczące różnice w wydajności między tymi dwoma systemami.

Jakie jest główne problem z Microsoft Copilot, jak opisano w artykule?

Copilot zawodzi przy prostych zadaniach, takich jak streszczenie tekstów. Wyniki są często błędne, nieistotne i nie zawierają istotnych informacji z oryginalnego tekstu.

Dlaczego Copilot jest krytykowany jako niezawodny i nieskuteczny w artykule?

Artykuł stwierdza, że Copilot nie jest w stanie niezawodnie wykonywać zadania streszczenia artykułu na blogu. Podsumowania są niedokładne i nieprzydatne dla użytkownika.

Jakie są konsekwencje użytkowania Copilota pod względem bezpieczeństwa danych?

Artykuł wskazuje na problemy z danymi przy użyciu Microsoft Copilot. Istnieje obawa, że wrażliwe dane mogą nie być wystarczająco chronione, co rodzi obawy dotyczące bezpieczeństwa danych.

Całkowita porażka Microsoft Copilot

Microsoft zachwala Copilot jako profesjonalne rozwiązanie, które ma zapewniać szczególnie dobre wsparcie dla wszelkiego rodzaju działań. Test ze standardowym zadaniem pokazuje, że jest to całkowicie niedokładne, nawet przy pozytywnym spojrzeniu. Oprócz tych słabości funkcjonalnych, istnieje również kwestia bezpieczeństwa danych.

Czym jest Microsoft Copilot?

Copilot to coś związanego ze sztuczną inteligencją. Podczas testu nie udało się dowiedzieć, czym dokładnie jest Copilot. Wyniki testu nie zachęciły do dalszych testów.

Odpowiedź na pytanie, czym ma być Copilot, jest dostarczana przez Microsoft pocztą elektroniczną po zarejestrowaniu się w bezpłatnej wersji próbnej. Według Microsoftu Copilot to potężny system sztucznej inteligencji:

Niezależnie od tego, czy chcesz nauczyć się programowania, zaplanować idealne wakacje, czy po prostu potrzebujesz pomocy w napisaniu trudnego e-maila, Twój codzienny towarzysz AI pomoże Ci zrobić to wszystko jak profesjonalista"
Źródło: Wiadomość powitalna Microsoftu "Witamy w Microsoft Copilot, Twoim towarzyszu AI w codziennym życiu".

To stwierdzenie sprawia, że można zrobić wiele rzeczy bardzo dobrze z Copilotem. Dzięki Copilot będziesz w stanie "robić wszystko jak profesjonalista", mówi Microsoft.

E-mail zawiera nawet konkretny przykład, który jest w nim wyraźnie wspomniany:

Źródło: Wiadomość powitalna Copilot wspomniana powyżej. Czerwona ramka dodana do tego postu (obraz został przetłumaczony automatycznie).

Termin ten odnosi się zatem do podsumowywania odpowiedzi. Co dokładnie należy przez to rozumieć, nie jest jasne dla autora tego artykułu. Podlinkowana strona Microsoftu ("Testuj teraz") również błyszczy ogólnikami: "Wdrażaj inspiracje" i "Po prostu zrób więcej – zawsze i wszędzie".

Test drugiego pilota

Ten test nie jest reprezentatywny dla wszystkich możliwości, które Copilot ma do zaoferowania. Przetestował jednak odpowiedniegożność Copilota do bardzo częstej czynności: Zsumowanie tekstów.

Microsoft pisze coś o streszczonych odpowiedziach, przynajmniej jako pierwszym przypadku użycia (patrz wyżej). Czy to może (również lub szczególnie) odnosić się do podsumowywania tekstów?

Zadanie to nie jest więc przytłaczająco trudne, ani też nie jest nierealne. Prawie każdy prawdopodobnie pomyślałby o nim jako o przypadku użycia dla systemów sztucznej inteligencji.

Copilot został zmuszony do wykonania dwóch testów. W pierwszym teście Copilot otrzymał adres URL do artykułu na blogu i został poproszony o jego podsumowanie. Wynik był tak zły, że drugi test wydawał się sprawiedliwy. W tym przypadku tak zwany Copilot Microsoftu został poddany testowi ręcznie, aby Copilot nie był przytłoczony pobieraniem artykułu z Internetu.

Test: Podsumuj artykuły na blogu za pomocą adresu URL

Pytanie (podpowiedź) do Copilota było proste:

Przedstawienie następującego artykułu blogowego: https://dr-dsgvo.de/ki-und-intelligenz-ist-der-mensch-nicht-auch-ein-token-papagei/
Dokładne pytanie, na które Copilot powinien odpowiedzieć.

Odpowiedź Copilota była następująca:

Odpowiedź od Copilot na powyższe pytanie. Stojak: 08.05.2024 (obraz został przetłumaczony automatycznie).

Na zrzucie ekranu źródła są nierozpoznawalne. Z pięciu wymienionych źródeł, cztery odnosiły się do jednej strony internetowej, a piąte do innej. Obydwie strony nie są wspomniane ani powiązane w tekście, który powinien zostać podsumowany.

Dostarczony tekst, który Copilot miał streścić, nie zawiera żadnych informacji na temat "systemów ADM". Autor tekstu jest całkowicie nieświadomy tego, czym jest "system ADM". Jako informatyk nigdy o nim nie słyszał. Albo ponad 30 lat doświadczenia w IT było stratą czasu, albo Copilot zmyślał lub rzucał nieistotnymi antyfaktami (w odniesieniu do zadania).

Copilot odpowiada na standardowe zadanie całkowicie niepoprawnie. Odpowiedź Copilota jest bezużyteczna.
Szczegóły w artykule.

Copilot pisze coś o "przejrzystości, samoregulacji i nadzorze". Terminy te nie pojawiają się w tekście. Poniżej tekstu, w polu kontaktowym, znajduje się tylko słowo kluczowe "pełna kontrola danych", które odnosi się do sztucznej inteligencji offline, która sprawia, że Copilot nie jest potrzebny do wielu zadań i najwyraźniej często może przewyższać Copilota. W oryginalnym tekście nie było również wzmianki o "dyskryminacji", którą Copilot zawarł w swojej odpowiedzi.

Artykuł, który Copilot miał streścić, nie dotyczy przede wszystkim RODO, ale sztucznej inteligencji. Terminy "ochrona danych" i "RODO" nie są wspomniane w tekście głównym (a jeśli są, to bardzo rzadko i w formie "… na blogu Dr DSGVO" lub podobnym).

Wniosek: Drugi pilot całkowicie zawiódł i nie rozwiązał zadania.

Nigdzie nie było żadnej wskazówki, że odpowiedź może być błędna, że najlepiej ją sprawdzić lub coś podobnego.

W dniu 5 lipca 2024 r. Copilot udzielił następującej odpowiedzi na to samo pytanie (z nieco innym sformułowaniem):

Źródło: Microsoft Copilot z czerwonymi adnotacjami autora (obraz został przetłumaczony automatycznie).

Obraz mówi sam za siebie.

Test: Podsumuj tekst artykułu na blogu

Przejdźmy do testu numer dwa. Chcemy wykluczyć możliwość, że było to spowodowane pobieraniem adresu URL z Internetu. Możliwe, że Copilot był przeciążony.

W tym teście chcieliśmy ułatwić Copilotowi zadanie, ponieważ w poprzednim teście Copilot bardzo zawiódł. Teraz tekst z artykułu na blogu został wprowadzony ręcznie do Copilota za pomocą funkcji kopiuj i wklej. Wyglądało to następująco:

Test Copilota: Podsumuj podany tekst (pokazano tylko fragment tekstu, ponieważ jest on zbyt długi na zrzut ekranu). Obraz został przetłumaczony automatycznie.

Niestety nie było możliwe skopiowanie całego artykułu do okna czatu Copilota. Zostało to oczywiście wzięte pod uwagę. Nie jest to jednak powodem poniższego wyniku testu. Odpowiedź udzielona przez Copilota brzmiała:

Źródło: https://copilot.microsoft.com/, Stojak: 08.07.2024 (obraz został przetłumaczony automatycznie).

Odpowiedź nie ma nic wspólnego z pierwotnym pytaniem. Niektóre dowody na niską jakość odpowiedzi, która jest poniżej poziomu malucha. Maluch zrobiłby mniej źle, nie mówiąc nic:

GPT-3 nie zostało wspomniane w tekście, który Copilot miał podsumować (1, 2 i 3 akapit odpowiedzi Copilota).
Badacze wspomniani przez Copilot i ich badania nie zostały wymienione w tekście (1 + 2 akapit).
Aspekty "zdolność do tworzenia analogii" i "problemy z analogią" wspomniane w trzecim akapicie nie zostały wspomniane w tekście. Wspomniano tam jedynie o sygnałach analogowych (w przeciwieństwie do sygnałów cyfrowych), a słowo "analogowy" zostało użyte w innym zdaniu, ale całkowicie podporządkowanym ("…wtedy mówimy analogowo o robotach z wbudowanym komputerem").
Duże modele językowe" wspomniane przez Copilot nie zostały wymienione w tekście. Mowa była tylko o "modelach językowych". Słowa "duży" lub nawet "LLM" (jak w "dużym modelu językowym") nie pojawiły się.
Źródła wymienione przez Copilota nie zostały wymienione w tekście (1, 2 i 3 akapit oraz źródła Copilota).

Jeśli usuniesz wszystkie stwierdzenia z odpowiedzi drugiego pilota, które nie mają nic wspólnego z oryginalnym tekstem, który miał zostać podsumowany, pozostanie bardzo niewiele. W szkole nauczyciel prawdopodobnie przyznałby odpowiedzi drugiego pilota ocenę 6 za "niezadowalającą".

Wynik zaprezentowany przez Copilot jest nieznojny. Głęsi się poprzez dowolne stwierdzenia i może być opisany jako całkowicie fałszywy. Zadanie polegało na zsumowaniu danego tekstu. Nie zostało to nawet przybliżone. Zamiast tego odpowiedź brzmi jak dowolny wynik wyszukania*, który został zsumowany przez model językowy. Dodatkowo, tak się postanawia, że odpowiedź jest (idealna) odpowiedzią.

Nirgendwo na powierzchni interfejsu (Web-UI) nie ma wskazówki*, że odpowiedzi Copilota mogą być błędne lub nieprawidłowe. W każdym razie, jeśli się nie szuka, to nie widać tego. Może Microsoft oczekuje, że użytkownik będzie szukał i czytał artykuły firmy Microsoft, aż znajdzie gdzieś „Copilot może również opowiadać całkowite nonsensy. Ale mamy nadzieję, że tak często się to nie zdarza, bo przecież jesteśmy Microsoftem i możemy tylko marzyć, że Copilot rzeczywiście może pomóc w każdej możliwej czynności, np. uśrednianiu odpowiedzi”.

Wynik z własną sztuczną inteligencją

Test mógł być niesprawiedliwy (co wydaje się dość ironiczne, gdy spojrzy się na zadanie). Podsumowanie tekstu było być może zbyt trudne i wykraczało poza możliwości nawet najbardziej inteligentnego człowieka (co było zdecydowanie ironiczne). Aby to wykluczyć, to samo zadanie zostało powierzone oddzielnej sztucznej inteligencji offline. Bez Microsoftu, Copilota, Azure czy ChatGPT.

Zadanie dla AI offline było:

Opisz stronę internetową: https://dr-dsgvo.de/ki-und-intelligenz-ist-der-mensch-nicht-auch-ein-token-papagei
Identyczne zadanie dla SI offline, które było zbyt trudne dla Copilota.

Nieprzetworzona odpowiedź od sztucznej inteligencji offline brzmiała:

"Autor twierdzi, że AI (sztuczna inteligencja) i ludzie funkcjonują podobnie do żetonowych papug, podejmując decyzje oparte na prawdopodobieństwie. Podkreśla, że to nie sam mechanizm jest ważny, ale wynik. Autor krytykuje fakt, że wiele osób ma fałszywe wyobrażenie o inteligencji i nie może znaleźć jej definicji. Argumentuje, że systemy sztucznej inteligencji, takie jak sieci neuronowe, są "prostymi" mechanizmami, które mogą rozwiązywać złożone problemy. Twierdzi również, że ludzie są tokenicznymi papugami, ponieważ podejmują decyzje oparte na prawdopodobieństwie. Autor przedstawia wersję beta sztucznej inteligencji offline i podkreśla, że to rozwiązanie jest lepsze niż ChatGPT i nie wysyła żadnych danych stronom trzecim. Oferuje bezpłatne porady dla firm i władz, które potrzebują rozwiązania AI. Ogólnie rzecz biorąc, autor argumentuje, że systemy sztucznej inteligencji działają jak żetonowe papugi i że nie liczy się sam mechanizm, ale wynik"."
Wynik wyżej wymienionego zadania ze sztuczną inteligencją, która wykonuje pracę, tj. nie jest drugim pilotem.

Każdy może sam ocenić wynik. Porównanie z Copilotem powinno pokazać wszystkim, gdzie leżą różnice w jakości.

Ale z pewnością zrobienie czegoś takiego musi być bardzo skomplikowane, co wydaje się prawie niemożliwe nawet dla drugiego pilota?

Tak, to bardzo skomplikowane (ironia). Napisanie programu zajęło prawie więcej czasu niż oczekiwanie na odpowiedź (która przyszła szybko). Podstawa dla tej sztucznej inteligencji offline już istniała. Każda firma może mieć własną sztuczną inteligencję. Prototypy można budować równie szybko, aby przetestować podstawową przydatność sztucznej inteligencji dla określonych przypadków użycia.

Offline-AI, która wyprodukowała powyższe wyniki, automatycznie wykonała następujące czynności:

Pobranie adresu URL określonego w monicie
Wyodrębnienie głównej treści (= artykuł na blogu)
Podsumowanie artykułu na blogu
Wynik odpowiedzi

Offline-AI oznacza, że sztuczna inteligencja może działać całkowicie autonomicznie i w razie potrzeby może komunikować się z Internetem lub innymi systemami informatycznymi. Tak właśnie stało się, gdy artykuł na blogu został pobrany z Internetu.

ChatGPT: Krótka wycieczka

Dla skopiowanego fragmentu tekstu ChatGPT dostarczył następujące bardzo krótkie streszczenie tego artykułu (około 4700 znaków):

"Artykuł na blogu mocno krytykuje Microsoft Copilot. Pomimo reklam Microsoftu jako wszechstronnego narzędzia sztucznej inteligencji, Copilot nie zdał testu, nie wykonując prostego zadania polegającego na podsumowaniu artykułu na blogu. Wyniki były niedokładne i nieistotne. Testerzy nie znaleźli jasnych informacji na temat funkcjonalności Copilota, a także zakwestionowali jego bezpieczeństwo danych. Ogólnie rzecz biorąc, Copilot został opisany jako niewiarygodny i nieskuteczny"."

Jak widać, podsumowanie można określić jako semantycznie użyteczne. Jego długość jest jednak raczej bezużyteczna. Można dojść dalej z szybkim dostrajaniem. Ale wtedy brakuje niektórych podstawowych stwierdzeń. W tym miejscu może pomóc dalsze dostrajanie podpowiedzi. Jeśli chcesz od czasu do czasu streszczać teksty i nie chcesz podejmować się zawodu tunera, lepiej będzie, jeśli stworzysz własny system AI.

Wnioski

Copilot jest najwyraźniej narzędziem marketingowym Microsoftu, a nie sztuczną inteligencją, którą należy traktować poważnie. Przynajmniej tak jest w przypadku wspomnianego testu. Nawiasem mówiąc, zadania programistyczne mogą być również wykonywane bez Copilota. Odbywa się to przy użyciu modeli AI, które są dostępne i wykonują bardzo dobrą robotę.

Kto chce załadować swoje dane do chmury Microsoft, powinien jeszcze raz przemyśleć to. O ile nie jesteś już odstraszyli przez wątpliwe umiejętności Copilota.

Irytująca jest maksymalna pewność siebie Microsoftu, która zupełnie nie pasuje do wad Copilota. Wszędzie (poczta, strona internetowa) udaje, że Copilot jest zbawcą.

Czy nie lepiej skorzystać z lepszego rozwiązania? Warunkiem wstępnym jest rozważenie konkretnych przypadków użycia zamiast deklaracji marketingowych. Spojrzenie na konkretne przypadki użycia jest zawsze rozsądnym podejściem, szczególnie w środowisku sztucznej inteligencji.