Які основні критичні моменти щодо Microsoft Copilot, на основі тестування?

Тест показує, що Copilot повністю непридатний для простих завдань, таких як узагальнення текстів, і надає неправдиві або нерелевантні відповіді. Крім того, існують значні занепокоєння щодо безпеки щодо доступу до даних.

Які ризики виникають через доступ американських органів влади та спецслужб до даних, що обробляються Copilot?

Навіть якщо дані європейських компаній зберігаються в ЄС, існує ризик того, що американські органи влади та розвідувальні служби можуть несанкційно до них отримувати доступ, що становить значну загрозу безпеці.

Чому Microsoft Copilot не зміг підсумувати блог-статтю?

Copilot надав відповідь, яка не мала жодного відношення до початкового тексту, і таким чином не виконав завдання, яке полягало у підсумуванні тексту. Відповідь містила багато нерелевантних тверджень і, отже, була повністю непридатною.

Як відрізняється результат від Copilot від відповіді від офлайн-ШІ?

Офлайн-ШІ зуміло правильно підсумувати блог-статтю та надати томий та релевантний підсумок, тоді як Copilot видав безглуздий та невідповідний відповідь. Це демонструє значні відмінності у продуктивності між двома системами.

Яке головна проблема з Microsoft Copilot, як описано в статті?

Copilot не справляється з простими завданнями, такими як узагальнення текстів. Результати часто неправильні, нерелевантні та не містять суттєвої інформації з оригінального тексту.

Чому Copilot критикують як ненадійний та неефективний у статті?

Стаття виявляє, що Copilot не здатний надійно виконувати завдання з підсумовування блог-статті. Підсумовування неточні та не корисні для користувача.

Які наслідки використання Copilot щодо безпеки даних?

Стаття вказує на проблеми з даними при використанні Microsoft Copilot. Існують занепокоєння щодо того, що чутливі дані можуть бути недостатньо захищеними, що викликає занепокоєння щодо безпеки даних.

Повне провал Microsoft Copilot

Майкрософт позиціонує Copilot як професійну послугу, яка повинна допомогти у всіх можливих справах. Тести з стандартною завданням показують, що це навіть при доброзичливій оцінці цілком неправдиво. Поряд із цією функціональними недоліками виникає питання щодо безпеки даних.

Що таке Microsoft Copilot?

Копілот щось із штучної інтелегенції. Що саме це таке, не було встановлено під час тестування. Результати тестів не змогли переконати продовжувати дослідження.

Відповідь на питання, чим є Copilot, надходить від Microsoft після реєстрації на безкоштовну тестову версію. За словами Microsoft, Copilot це ефективна система КІ:

Ганно рівно, чи ви хочете вивчити програмування, планувати ідеальний відпочинок або просто отримати допомогу при написанні складної електронної пошти, ваш КІ-партнер у повсякденному житті допомагає виконувати всі справи професійно
Джерело: Позивний-повідомлення Microsoft «Ласкаво просимо до Microsoft Copilot, вашому партнерові за життя з AI».

Ця заява звучить так, ніби можна виконувати багато речей дуже добре за допомогою Copilot. За словами Microsoft, вони будуть поставлені у ситуацію, коли зможуть виконувати всі справи як професіонали.

Повідомлення містить навіть конкретний приклад, який згадується в повідомленні дуже чітко:

Джерело: Вказана увімкнена листа з привітанням. Червоні рамки додані до цього повідомлення (зображення було перекладено автоматично).

Названий є збіркою відповідей. Що саме цим маєтся на увазі, не зовсім зрозуміло автору цього статті. Також посилання на сторінку Microsoft ("Тепер перевірте") блищить загальними твердженнями: "Перетворюйте свої ідеї в реальність" та "Завершуйте справи ще ефективніше – будь-де і завжди".

Тест Копілота

Цей тест, певно, не є репрезентативним для всіх можливостей, які пропонує Copilot. Він лише перевірює придатність Copilota для дуже поширеної роботи:Загальне підсумовування текстів*.

Майкрософт, принаймні, пише про згруповані відповіді як перший випадок використання (див. вище). Чи може бути це саме згруповування текстів тим, що мають на увазі?

Завдання не дуже складне і не дуже екзотичне. nearly кожному прийде на думку, як приклад застосування систем штучного інтелекту.

Copilot був змушений виконати два тести. У першому тести Copilot отримав посилання на статтю блогу та мав її підсумувати. Результат був настільки поганий, що другий тест здавався справедливим. У цьому тести Microsoft назвала його "Копілотом", щоб не завантажувати Copilota з отримання статті з інтернету.

Тест: Сумарити блог-пост за посиланням

Питання до Copilota було дуже простим:

Заглибтеся в цей блог-пост: https://dr-dsgvo.de/ki-und-intelligenz-ist-der-mensch-nicht-auch-ein-token-papagei/
Правильна постановка питання, яке повинна відповісти Copilot.

Відповідь від Copilot була наступна:

Відповідь Copilota на вищу запитання. Стан: 08.05.2024 (зображення було перекладено автоматично).

Зображення знімків було зроблено невідчутним. З п'яти згаданих джерел чотири посилалися на вебсторінку, а п'яте — на іншу вебсторінку. Обидві сторінки не згадуються та не посилалися у тексті, який повинен був бути підсумований.

В наданому тексті, яким мав скоротити Copilot, немає згадок про „Системи ADM“. Автор цього тексту зовсім не знає, що таке „Система ADM“. Як інформатик він ніколи нічого подібного не чув. Either 30+ роки досвіду в IT були для кота або Copilot вигадав щось чи зіграв на невідповідності (відносно завдання).

Копілот повністю невірно відповідає на стандартну завдання. Відповідь Копілота блищить своїми непрацездатністю.
Перегляньте матеріал для детальної інформації.

Копіліт пише щось про «відкритість, самоконтроль та нагляд». Ці поняття не згадуються в тексті. Під текстом у спеціальній області контактів лише одне слово «повна контроль даних», яке відноситься до офлайн-КІ, яка для багатьох завдань робить Копіліт непотрібним і здається, що він часто перемагає його. Також в початковому тексті не було мови про «дискримінацію», яку Копіліт включив у свій відповідь.

У статті, яку повинен підсумувати Copilot, не йде мова головним чином про ДЗЗ, а про штучний інтелект. Терміни «безпека даних» та «ДЗЗ» згадуються в основному тексті майже не згадуються (та якщо вже згадуються, то дуже рідко у формі «… у блозі Dr DSGVO тощо.).

Висновок: Copilot повністю провалився і не виконав завдання.

Нідде не було видно, щоб відповідь була помилковою, що її краще перевірити тощо.

05 липня 2024 року Copilot відповів на цю ж запитання (зі трохи іншою формою питання):

Джерело: Microsoft Copilot з червоними примітками від автора (зображення було перекладено автоматично).

Це фото говорить само за себе.

Тест: Сумарити текст статті блогу

Прийшов час до другого тесту. Хотіли б виключити можливість того, що справа була в завантаженні URL із інтернету. Можливо, Copilot був просто не готовий до цього завдання.

Для цього тесту було зроблено спробу зробити для Copilot роботу легшою, після того як у попередньому тесті він дуже погано виконав завдання. Тепер текст з блог-поста був введений вручну та за допомогою Copy & Paste в Copilot. Це виглядало так:

Тест від Copilot: Сумісити попередній текст (показано лише видалений фрагмент тексту, який занадто довгий для скріншоту), зображення було перекладено автоматично.

Написано було не в змозі скопіювати весь текст у чатбокс Copilot. Це було природно розглянуто. Однак це не причина для наступного результату тестування. Відповідь, яку надав Copilot:

Джерело: https://copilot.microsoft.com/, Останнє оновлення: 08.07.2024 (зображення було перекладено автоматично).

Відповідь ніяк не пов'язана з початковою питанням. Няроїкі свідчення про погану якість відповіді, нижче рівня дитини. Дитина навіть нічого сказати б менше помилково зробила:

ГПТ-3 не згадувався в тексті, яким Копілот мав підсумувати (1., 2. та 3. абзаці відповіді Копілота).
Науковці, яких згадує Copilot, та їх дослідження не згадані в тексті (1. + 2 абзац).
В третьому абзаці згадані аспекти «уміння створювати аналогії» та «аналогічні завдання», які не були згадані в тексті. Там лише було мова про аналогові сигнали (проти цифрових сигналів) і слово "аналогічно" було використане у іншому реченні, але повністю підлегле ("…тоді ми говоримо аналогічно про роботів з встановленим комп'ютером").
Вищі мовні моделі, яких згадував Copilot, не були згадані в тексті. Там лише було мова про «мовні моделі». Слова «високий» чи навіть «LLM» (як «Large Language Model») не зустрічалися.
В джерелах, яких згадує Copilot, не вказані джерела в тексті (1., 2. та 3. абзаці та посилання на джерело від Copilot).

Видаливши зі відповіді Copilot усі заяви, які ніяк не стосуються початкового тексту, який мав бути підсумований, залишається дуже мало. У школі вчитель, напевно, дав би цій відповіді оцінку 6 за «не достатньо».

Результат від Copilot – це неповага. Він блищить своїми випадковими твердженнями та цілком можна вважати помилковим. Завдання було зібрати дані із наданого тексту. Ця задача навіть не була виконана в найменшій мірі. Натомість відповідь виглядає як будь-яке випадкове пошукове результат, який був згенерований мовним моделлю. Крім того, видається, що відповідь є (певною) відповіддю.

Нідде на інтерфейсі користувача (Web-UI) немає жодного підказки, що відповіді Copilot можуть бути помилковими або невірними. Хіба ж ні, якщо дивитися на екран довго. Можливо, Microsoft очікує, що користувач буде шукати та читати статті компанії, поки не знайде щось подібне до цього: „Copilot може розповісти повну брехню. Але це, надіяємося, відбувається досить рідко, адже ми ж Microsoft і нам здається, що Copilot справді дуже добре допомагає у всіх можливих завданнях, наприклад, у підсумовуванні відповідей“.

Результат із власною штучною інтелегенцією

Тест міг бути дуже несправедливим (що виглядало досить іронічно, якщо дивитися на завдання). Зведення тексту було, можливо, занадто складним завданням навіть для найрозумнішої людини (це вже цілком була іронія). Для виключення цього було призначено подібне завдання окремій офлайн-інтелектуальній системі. Без Microsoft, Copilot, Azure чи ChatGPT.

Та завдання від Офлайн-КІ було:

Перекладіть цю сторінку: https://dr-dsgvo.de/ki-und-intelligenz-ist-der-mensch-nicht-auch-ein-token-papagei
Ті ж завдання для офлайн КІ, які були для Copilot надто складними.

Непідготована відповідь від офлайн-КІ була:

"Автор стверджує, що КІ (Кібернетична Інтелект) та людина працюють подібно до Token-Papagei, роблячи ймовірнісно-орієнтовані рішення. Він підкреслює, що не на механізмі самому ажіотажу, а на результаті. Автор критикує багатьох людей за їхню помилкову уявлення про інтелект та відсутність визначення від нього. Він аргументує, що системи штучного інтелекту, такі як нейронні мережі, є "простими" механізмами, які можуть вирішувати складні проблеми. Він також стверджує, що людина є птахом-жетоном, роблячи ймовірнісно-орієнтовані рішення. Автор представляє бета-версію офлайн-КІ та підкреслює, що ця рішення краще за ChatGPT і не передає дані третім особам. Він пропонує безкоштовну консультацію підприємствам та органам влади, яким потрібна КІ-рішення. В цілому автор аргументує, що системи КІ, такі як Token-Papageien працюють і що не на механізм сам по собі треба звернути увагу, а саме на результат."
Результат завдання, яке виконує КІ, яка виконує роботу, тобто не Copilot.

Результат кожного може оцінити самостійно. Перевірка з Copilot повинна показати кожному, де різниця якості.

Але це повинно бути дуже складним, щоб зробити щось таке, що навіть для співпілота майже не піддається вирішенню

Так, це вже дуже складно (іронія). Висліди програми були майже так швидко, як очікувалися, а саме програмування зайняло майже стільки часу, скільки було потрібно на очікування відповіді. Основу цієї офлайн-КІ вже було створено. Кожне підприємство може мати власну подібну КІ. Аналогічно швидко можна створити прототипи, за допомогою яких можна перевірити основову придатність КІ для певних випадків використання.

Офлайн КІ, яка надала вище результат, зробила автоматично:

Відкриття вебсторінки, вказаної у запитанні
Виведення основного змісту ( = стаття блогу )
Об'єднання статті блогу
Виведення відповіді

Офлайн-КІ означає, що КІ може працювати самостійно та при необхідності спілкуватися з Інтернетом або іншими інформаційними системами. Просто таке сталося, коли статтю було завантажено із Інтернету.

ЧатГПТ: Куразька подорож

Для надрукованого текстового відтинка ChatGPT надав цей статтю (приблизно 4700 знаків) такий дуже короткий підсумок:

"Блог-пост критикує Microsoft Copilot дуже різко. Хоча Microsoft позиціонує його як багатоцільове КІ-інструмент, у тесті він провалився, не змогнув виконати просту завдання – підсумувати вміст іншого блог-посту. Результати були неточними та безперечно. Тестирувачі не знайшли чітких даних щодо функціональності Copilota і навіть піддали сумніву його інформаційну безпеку. Загалом, Copilot описується як непідіймистий та неефективний."

Як бачимо, підсумовка можна вважати семантично придатною. Її довжина ж досить не придатна. З допомогою Prompt-Tuning можна зробити крок далі. Але тоді будуть відсутні деякі основоположні твердження. А тут допоможе ще одне Prompt-Tuning. Хто бажає часто замовляти текстові підсумки та не хоче займатися професією Тунера, краще буде мати власну КІ-систему.

Висновок

Copilot являється, здається, маркетинговим інструментом Microsoft та не справжньою серйозною штучною інтелегенцією. Відповідно до цього тесту, хоча б. Крім того, завдання програми можуть виконуватися без Copilota. Для цього використовують вільні доступні моделі штучної інтелегенції, які роблять дуже добрий роботу.

Хтось, хто хоче завантажити свої власні дані в Microsoft Cloud, повинен ще раз подумати про це. Умовою є те, що ви вже не відштовхнуті сумнівними можливостями Copilot.

Що стурбовує, це найбільше самовпевеність Microsoft, яке зовсім не відповідає недолікам Copilot. На кожному етапі так роблять (повідомлення, вебсторінка), ніби Copilot – це спаситель світу.

Чи не краще брати участь у більш ефективному рішенні? Для цього необхідно розглянути конкретні випадки застосування, а не звертати увагу на рекламні заяви. Розглянути конкретні випадки застосування завжди є розумним кроком у сфері штучного інтелекту.

Незалежно від Copilot, існує проблема, що ліниві або посередні розробники використовують помічників зі штучним інтелектом, таких як Copilot або ChatGPT, для створення програмного коду, який є більш небезпечним, ніж якби він був створений вручну. Про це свідчить дослідження Стенфордського університету. Дурень з інструментом залишається дурнем.