Nowy model językowy (LLM) wywołał ostatnio spore poruszenie. Osiągnął on najwyższy wynik w popularnym teście porównawczym i był nawet znacznie lepszy niż ChatGPT-4 Omni, obecny model premium od OpenAI. Ale który model językowy jest naprawdę najlepszy?
Wprowadzenie
Z Benchmark AlpacaEval testuje się nowe modele językowe. Tzw. Win-Rate wskazuje, jak dobrze LLM wyglądał w teście. Oto pierwsze miejsca modeli, które uważa się za znane:

Na pierwszym miejscu stoi GPT-4 Omni od OpenAI z wynikiem 57,5 %. Ta stawka jest długościowo skorygowana („LC Win Rate“). Oznacza to, że długościowo skorygowane wyniki zwycięstwa zmniejszają zniekształcenia długości GPT-4. Z tym zostaje uwzględnione, że GPT-4 jest faworytem i ma kilka cech, które inne modele byłyby dyskwalifikowane bez skorygowania.
Przejdźmy teraz do modeli językowych społeczności, które są mniej znane. Lista rankingowa modeli społeczności wygląda następująco:

Jak widać, model o nazwie NullModel jest na pierwszym miejscu. Jego współczynnik wygranych LC wynosi 86,5%. Dla kontrastu, ChatGPT-4 Omni miał tylko 57,5% (16 miejsce w rankingu, który obejmuje również modele społeczności).
Benchmark nie jest dobrym przedstawicielem zadań AI, które występują w Twoim przedsiębiorstwie lub urzędzie. Ponieważ przede wszystkim zależy to od zadania. Niektóre modele lepiej rozumieją pytania, inne lepiej wnioskują, a jeszcze inne lepiej skrótowo opisują lub tłumaczą teksty.
W szczególności jednak dla niemieckich firm istożne, że niemiecki jest zwykle językiem głównym w firmie i w dokumentach tekstowych. Wskaźniki są jednak zwykle zoptymalizowane pod angielski lub inne języki, takie jak chiński czy hindi.
Specjalna cecha zwycięzcy testu
Benchmark sam w sobie jest zatem bardziej wskaźnikiem niż wiarygodnym stwierdzeniem.
Teraz jest coś specjalnego z zwycięzcą, modelem NullModel:zafałszowało wyniki. Ale to nie koniec złego: model językowy NullModel zawsze daje tę samą odpowiedź* na wszystkie pytania, które są zadawane w benchmarku. Kod do tego jest nawet dostępny publicznie.
Model Zero wchodzi na pierwsze miejsce wyników testu, pomimo tego, że zawsze ta sama odpowiedź daje na wszystkie zadane pytania. Pytania mają jednak zupełnie różne prawidłowe odpowiedzi. Jeśliby prawidłowe odpowiedzi były zawsze „Tak”, nie trzeba by się tutaj martwić.
W istyni wiele różnych odpowiedzi na wiele pytań w benchmarku jest poprawne. Jednakże, benchmark dostarcza Najwyższe oceny dla LLM, która zawsze daje tę samą odpowiedź.
Tak więc benchmark został oszukany.
Jaki jest najlepszy model językowy?
Prawnik powiedziałby: To zależy. To zależy od aplikacji.
Jeśli nie wiesz, do czego ma służyć system sztucznej inteligencji, masz zupełnie inne problemy niż znalezienie najlepszego modelu językowego. Znane modele pokazane na pierwszej ilustracji są bardzo odpowiednie dla ogólnego chatbota.
Jeśli chcemy wykorzystać wiedzę z internetu, ChatGPT regularnie zawodzi. Powód tkwi w tym, że system niskobudżetowy (z perspektywy użytkownika, który często płaci za swoje dane) nie może dla każdego polecenia przeprowadzać bezprzedmiotowo wielu wyszukiwań w internecie. Byłoby to po prostu niewykonalne ekonomicznie dla OpenAI. Jak można przeczytać o Anthropic i ich Computer Use-Ansazcie, kosztuje to szybko bardzo dużo. Za jedną zadań mogą się gromadzić nawet 20 dolarów za godzinę, której wymaga się pracy badawczej. Niestety, gdy użytkownik wysyła zadanie do AI, nie jest znane, jak skomplikowane może być ustalenie wyniku.
Najlepszym modelem językowym dla danego przypadku użycia w firmie jest dobrze wyszkolony LLM.
Niektóre zalecenia dotyczące modeli językowych pomagają we właściwej konfiguracji i rozpoczęciu strategii AI.
Rozmiar modelu językowego
Jako reguła przyjmuje się: Imię niezdefiniowane jest Zadania, tym bardziej powinno być duże LLM. Maksymalny przykład to ChatGPT. To model jest tak olbrzymi, że kosztuje sprzęt do jego obsługi miliony euro (a jeszcze więcej dla OpenAI, bo więcej niż 10 użytkowników korzysta z systemu).
ChatGPT może odpowiedzieć na każdą rodzaj pytan i często dostarcza bardzo dobre wyniki. Jednak czasem nawet proste pytania nie mogą być odpowiednio rozwiązane. Tak więc ChatGPT nie jest w stanie prawidłowo określić liczby "r" w słowie Strawberry. Ponadto ChatGPT korzysta również z fałszywego wiedzenia, które zostało zaprogramowane do LLM. Nie tylko z tego wynika Halucynacje.
Rozmiar modelu językowego jest określany w miliardach parametrów. Jeden miliard to 1 B (B = miliard). Parametr to połączenie między dwoma neuronami w sieci neuronowej.
Małe modele językowe natomiast, takie jak np. Llama3.2-1B, są dobrze dostosowane do urządzeń mobilnych lub ogólnie dla szybkości odpowiedzi. Odpowiedź jednak cierpi. Ogólne pytania mogą być często dobrze udzielone. Gdy jednak zapytanie zostaje postawione w języku niemieckim, sytuacja wygląda zupełnie inaczej, czyli gorzej. Niemiecka gramatyka nie jest tu wystarczająco doceniana.
Mniejsze modele językowe, takie jak 7B lub 8B, często bardzo dobrze znają język niemiecki. Mogą skrócić teksty, generować idee lub tłumaczyć teksty. Na standardowym serwerze AI prędkość wykonywania jest umiarkowana.
Z pomocą modeli obniżonej wersji można zwiększyć szybkość inferencji. Jedyne co cierpi na tym jest jakość.
Najlepsze są modele AI, które są wplecione w system AI i mają wykonywać konkretnie zadania. Systemem AI jest rodzaj ramowego programu, który oprócz części AI zawiera również zwykłą logikę. Dlaczego model języka powinien liczyć liczbę liter w słowie, jeśli klasyczny kod programowy może to zrobić znacznie szybciej i lepiej, a mianowicie z 100% dokładnością?
Przykładem konkretnego zadania jest asystent AI dla działu personalnego. Kandydat wysyła swoje CV na ogłoszenie o pracę do specjalisty ds. personelu. Specjalista ds. personelu chce teraz wiedzieć, jak dobrze CV kandydata pasuje do wymagań opisanych w ogłoszeniu o pracy (przypuszczając, że są one podane). Asystent AI porównuje teraz CV z ogłoszeniem o pracę. System AI pośredni zapewnia, że CV i umiejętności wymienione w nim będą rozważane z różnych perspektyw: które wymagane kwalifikacje są dobrze spełniane, a które nie? Jakie szczególne cechy ma kandydat ogólnie, które mogą być wartościowe dla każdego przedsiębiorstwa?
Dodatkowo uwzględniane są detale: informatyk nie musi w swoim CV wspomnieć, że umie JSON. Albo już umie, albo nauczy się tego w 5-45 minut. Takich rzeczy ChatGPT nie może znać. Ale specjalista o tym wie i może to wprowadzić do systemu AI.
Auch może asystent AI dla działu personalnego wykonałby Badania online na kandydata i przedstawił wyniki personelowi do przeglądu. To również nie może być wykonane przez model AI. System AI, którym jest ChatGPT, to samo nie robi tego dla Ciebie. W każdym razie nie za około 22 euro miesięcznie lub za grosze za zapytanie. OpenAI nie będzie przeszukiwać Internetu szeroko, ponieważ albo nie chcesz dać pieniędzy na OpenAI, albo już od 50 euro zaczynasz myśleć o swoich kosztach.
Z pomocą Dokładne dostrojenie można dostosować model językowy do konkretnych zadań. Wyniki są zazwyczaj znacznie lepsze niż te, które uzyskałby się za pomocą ChatGPT lub jakiejkolwiek innej inteligencji uniwersalnej. Takie drobno trenowane modele mogą być również bardzo małe. W związku z tym prędkość inferencji może być potencjalnie bardzo wysoka.
Inne modele oprócz LLM
Klasyczne modele językowe są prawdopodobnie najbardziej rozpowszechnionymi modelami AI. Jest ich jednak znacznie więcej.
Przykładowo istnieją tak zwane Safeguard-Modelle. Te LLMs są tylko do sprawdzania wprowadzanych przez użytkownika danych lub wydawanych przez inne modeli językowe. Czy wprowadzone dane zawierają wezwanie do nielegalnej czynności? Czy wydana odpowiedź zawiera instrukcję budowy bomby?
Dla zadań klasyfikacyjnych są bardziej odpowiednie inne typy modeli niż LLMs. Chcieliby np. dowiedzieć się, jaki rodzaj wiadomości e-mail ktoś wysłał do ich firmy. Było to prośba? Było to skarga? Było to rozwiązanie umowne? Albo odbiorca chciał tylko nazwę kontaktu? Tutaj trenuje się klasyfikator. To jest niewielki nakład pracy, ale przynosi ogromne efekty.
Do wsparcia mniej doświadczonych pracowników nadają się natomiast maszyny szukające wektorów bardzo dobrze. Klient wynajmujący auto zgłasza uszkodzenie drogą e-mail lub aplikacji. Pracownik w firmie wynajmującej samochód powinien teraz zdecydować, jak uszkodzenie zostanie uregulowane. Asystent AI szuka możliwie porównywalnych przypadków z przeszłości i przedstawia pracownikowi rekomendacje dotyczące najprawdopodobniej najlepszego postępowania. Takie dane historyczne są szczególnie w obfitości dostępne w branży ubezpieczeń.
Modele obrazowe są powszechnie znane. Są one w stanie wykonywać dobre, a nawet bardzo dobre usługi. Ale jeszcze lepiej jest z modelami obrazowymi o wysokiej jakości lub Adapter. Z ich pomocą można tworzyć obrazy według własnych preferencji (styl, nastrój, kolorystyka, motyw). Przykład:

Z pewnością będziesz w stanie opracować szablon dla tego typu obrazu. Liczba przykładów do nauki adaptera obrazu może być bardzo mała. Często wystarczy 8 lub 15 przykładów, w zależności od rozpiętości materiału obrazu. Liczbę przykładów można zwiększyć poprzez dodanie syntetyków.
Dla transkrypcji audio is już dostępnych doskonałych modeli Whisper. Dają one znacznie lepsze wyniki niż standard Microsoft w Teams. Takie było wynikiem test, przeprowadzony przez wydawcę ochrony danych. Porównywano transkrypcję z Microsoft Teams i tę wykonaną przy pomocy własnego systemu AI przez Dr. RODO. Własny system AI bierze pod uwagę firmowego słownika, który zawiera również nazwiska. Nikt nie wie, czy "Schmitt" ma jeden lub dwa "t" albo "dt", a tym bardziej ktoś, kto jest AI.
Przykłady modeli AI i ich możliwości
Kilka przykładów zostanie wykorzystanych do zademonstrowania, w jaki sposób rozmiar modelu, aktualność modelu i rodzaj wprowadzanych danych (tekst, obraz, …) wpływają na jakość odpowiedzi:
- Llama3-7b: kiepska według dzisiejszych standardów, świetna w momencie premiery; może działać dobrze na własnym sprzęcie
- Llama3-1:8b: Bardzo dobry do wielu zadań; może działać dobrze na własnym sprzęcie
- Llama3-70b: Dobra lub bardzo dobra do wielu zadań, ale częściowo gorsza od nowszej Llama3.1:8b; może być używana tylko na drogim sprzęcie
- Llama3.1-70b: bardzo dobra do wielu zadań; kilka słabości dla języka niemieckiego; może być poprawnie uruchomiona tylko na drogim sprzęcie
- Llama3.1-405b: Jeszcze lepsza niż Llama3.1:70b, ale niekoniecznie dla języka niemieckiego; można ją uruchomić tylko na bardzo drogim sprzęcie
- Llama3.2-3b: Dobry, ale gorszy niż Llama3.1:8b, ale szybsze odpowiedzi
Oprócz tych modeli LLM istnieją również inne typy modeli. Oto kilka przykładów:
- Pixtral-12B: Bardzo dobry do przesłuchiwania obrazów. Dopuszczalne wymagania sprzętowe
- Qwen2.5-72B: Bardzo dobry do generowania kodu programu; może być używany tylko na drogim sprzęcie
- FLUX.1-fast: czasami bardzo dobre wyniki przy generowaniu obrazów, ale często niewystarczające przy generowaniu niemieckich tekstów na obrazie; może być również obsługiwany rozsądnie na tańszym sprzęcie za pomocą sztuczek
Jakość wyników różni się zatem w zależności od aktualności i rozmiaru modelu. Tekst zwykle wymaga dokładnych wyników, z wyjątkiem zadań kreatywnych. Sytuacja jest często inna w przypadku obrazów.
Wynik
Zdefiniuj swój przypadek użycia. Jeśli nie masz pojęcia, gdzie AI może Cię wesprzeć, to nie potrzebujesz AI. Zamiast tego użyj wyszukiwarki, jak zawsze.
Zacznij od prostego przypadku użycia. Jeśli nie masz pewności, co może być proste, poproś o radę.
Im mniejszy model sztucznej inteligencji, tym bardziej szczegółowy powinien być przypadek użycia. Bardzo duże modele, takie jak te z parametrami 405B, zwykle nie powinny być obsługiwane przez samą firmę. Nawet jeśli zasoby byłyby dostępne, zazwyczaj istnieją lepsze opcje.
Model 70B, taki jak Llama3.1-70B, jest już dość duży do samodzielnej obsługi. To tylko ogólny zarys. Modele nie większe niż połowa tego rozmiaru są lepsze.
W przypadku zadań, które nie wymagają generowania odpowiedzi, istnieją lepsze opcje niż modele AI, które "wszyscy" znają. Modele te są idealne do wyszukiwania wiedzy w dokumentach firmowych. Wymagania sprzętowe są również tak niskie, że nikt nie musi myśleć o cenach zakupu lub wynajmu. Wyszukiwanie semantyczne, tj. porównywanie tekstów lub obrazów (lub audio lub …), jest kolejnym przykładem rozsądnego rozpoczęcia ery sztucznej inteligencji.
Kto prowadzi swoją własną AI, nie musi się martwić o bezpieczeństwo danych zbyt wiele, a nawet wcale. Wielu obaw można mieć tylko wtedy, gdy korzysta z serwera GPU w Niemczech dostarczonego przez niemieckiego operatora z DPA. Nie ma natomiast żadnych obaw, jeśli posiada własny serwer w swoim centrum danych lub wynajmuje go za pomocą Colocation.
Własna AI oznacza: Pełny nadzór nad danymi. Dane nie idą nigdzie, chyba że chcesz. Dane są pobierane z nikąd, chyba że chcesz. Tylko użytkownicy mogą za pomocą AI uzyskać dostęp do dokumentów, których mają prawo. To nazywa się Offline-AI.
Podsumowując: To, który model językowy lub inny model AI najlepiej nadaje się do danego przypadku użycia, należy ocenić na podstawie konkretnego przypadku użycia. Każdego tygodnia pojawiają się nowe innowacje i modele AI. Warto więc przyjrzeć się im bliżej.
Kluczowe przesłania tego artykułu
NullModel jest "najlepszym" modelem w benchmarku, ale zawsze daje tę samą odpowiedź na wszystkie pytania – co nie jest zbyt pomocne. Najlepszy model językowy zależy od aplikacji.
W przypadku prostych pytań bardziej odpowiednie są mniejsze modele językowe, takie jak modele 7B lub 8B, ponieważ często lepiej znają one gramatykę języka niemieckiego niż większe modele.
Asystenci AI mogą przeszukiwać historyczne przypadki, aby zalecić najlepszy sposób działania.
Zacznij od prostej aplikacji, takiej jak wyszukiwanie semantyczne w dokumentach firmy.
O tych podstawowych stwierdzeniach


My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
