Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Trening modeli AI: Co to znaczy?

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI

Modele językowe AI i generatory obrazów AI są najbardziej rozpowszechnionymi typami modeli AI. Często mówi się o szkoleniu, pre-szkoleniu lub fine-tuningu. Co znaczą te słowa i jakie są różnice? Jakie dane i przede wszystkim ile są potrzebne do każdego z tych procesów?

Wprowadzenie

Model AI jest elektronicznym mózgiem składającym się z sieci neuronowej. Można go zapytać i otrzymać odpowiedź. To możliwe w sposób bardzo przypominający ludzki mózg. Inni mają inne zdanie. W każdym razie również mózg człowieka opiera się na statystyce. Do pytania, co to jest inteligencja, zobacz powiązany artykuł.

Przykłady rodzajów modeli AI są:

  • Model języka AI, często określany jako LLM (LLM = Large Language Model). W miarę upływem czasu powstały jednak również efektywnie działające SLMs (SLM = Small Language Model).
  • Generujący obrazy: Z wprowadzonego tekstu generuje się obraz. Czasem można również z tekstu i wprowadzonego obrazu wygenerować nowy obraz. Albo można połączyć kilka zdjęć stylistycznie ze sobą.
  • Tekst do mówienia: Z tekstu wejściowego model AI generuje wydanie głosowe
  • Mowa na tekst: Z języka mówionego model AI generuje tekst (transkrypcja)
  • Rozpoznawanie obiektów w obrazie lub filmie (segmentacja)
  • Modele prognozowe medyczne

W dalszej części będę się ograniczał do opisu modeli językowych i wizualnych, które są bardzo powszechnymi reprezentantami w dziedzinie AI.

W istnieją głównie dwa procesy szkoleniowe dla modeli AI:

  1. Pre-Training (Przygotowanie)
  2. Fine-Tuning (Dokonywanie drobnych modyfikacji)

W praktyce nie ma innych procesów szkoleniowych. Możliwe jest jedynie drobne dostosowanie już dofinansowanego modelu, co w końcu technicznie jest analogiczne z pierwszym dofinansowaniem.

Co oznacza pre-training i jak się różni od fine-tuning? Poniższe przedstawienia uwzględniają kilka wariantów:

  1. Przygotowanie („Utworzenie”) ogromnego modelu językowego, takiego jak ChatGPT-4
  2. Przygotowanie małego dużego modelu językowego (tak, czyta się to właśnie tak), np. GPT-2
  3. Dokonywanie drobnych modyfikacji modelu z 1.
  4. Dokonywanie drobnych modyfikacji modelu z 2.

Przypadki 1 i 3 należą zwykle do korporacji AI. Przypadek 2 występuje rzadko, lub gdy tak, to dla większych modeli niż GPT-2, jak Llama3-8B. Ale nawet ten model 8B jest zwykle tworzony i udostępniany przez korporacje AI.

Czwarty przypadek jest praktycznie realizowalny przez każde przedsiębiorstwo. W centrum tego artykułu znajdują się ogólnie przedsiębiorstwa, które chcą wprowadzić AI lub organizacje, które opiekują się takimi przedsiębiorstwami.

Pre-Training

Przygotowanie do szkolenia oznacza uczenie modelu AI. Model AI nie jest tam. Jest przygotowywany (przygotowanie do szkolenia). Potem jest tam.

Często mówi się o "treningu". Treningiem w tym sensie nie można mówić. Kiedy ktoś powie "trening", ma na myśli albo pre-trening, albo fine-tuning, zależnie od kontekstu.

Kiedy ktoś mówi o szkoleniu Custom-GPT, ma na myśli fine-tuning. Kiedy ktoś ogólnie mówi o szkoleniu potężnego modelu języka, ma na myśli pre-training (np. "Szkolenie ChatGPT-4 kosztowało wiele milionów godzin obliczeń").

Przygotowanie modelu AI polega na jego szkoleniu.

Jest to odpowiednik wychowania dziecka od urodzenia przez jego rodziców, aż do nauki w szkole.

W wątpliwości należy przyjąć, że przez „trening” rozumie się „pre-trening”, ponieważ jest ono językowo bliższe niż „dokładanie szczegółów”.

Dla modeli językowych potrzebne są setki miliardów dokumentów tekstowych, aby model mógł mieć bardzo dobre jakości. Dokumentem jest zwykle wydruk lub skrypt z jednej strony strony internetowej.

Znane źródła danych to:

  • Wspólny Kradzież (CC) lub C4 (Gigantycznie Oczyszczony Wspólny Kradzież): około 700 GB danych, wykluczenie wielu stron internetowych z Internetu
  • Pile: 825 GB danych, rzekomo Open-Source
  • Wikipedie (w wielu językach)
  • RefinedWeb: Wersja deduplikowana i uporządkowana wersja Common Crawl
  • StarCoder Data: ok. 780 GB danych do generowania kodu programu. Źródła są głównie GitHub i Jupyter Notebooks (to są arkusze programistyczne, podobne do Excela, ale dla łatwego tworzenia dzielnych kodów programu).

Zależnie od wielkości modelu językowego, czas jego szkolenia może być bardzo długi (kilka miesięcy) lub krótki (kilka godzin). Dla bardzo dużych modeli AI zostało zużyte wiele milionów godzin GPU na pre-szkolenie. GPU to karta graficzna. W serwerze AI o wysokiej wydajności znajduje się 8 kart graficznych koszujących po około 25 000 euro każda.

Małe modeli językowe (GPT-2) nie były uważane za małe jeszcze kilka lat temu i były standardem złotym. Model GPT-2 można w ciągu kilku godzin, dni lub tygodni na własnym serwerze AI lub laptopie AI przeszkolić (przeszkolenie = pre-training). Długość czasu potrzebnego do przeszkolenia zależy od rozmiaru danych szkoleniowych.

Aby model językowy AI był bardzo wydajny, potrzebne są kilka terabajtów (tysiące gigabajtów) danych treningowych w postaci tekstów surowych.

Dla dobrego startu wystarczą nawet 100 gigabajtów danych, które są szybko przetwarzane. W tym celu proces uczenia modelu AI (pre-training) trwa tylko ograniczoną liczbę godzin.

Jak długo dokładnie, zależy również od liczby iteracji. Jedna iteracja odpowiada w przybliżeniu jednej klasie szkolnej. Imię więcej klas ktoś odwiedził w szkole, tym większa szansa, że inteligencja wzrośnie. Tak samo jak u ludzi jednak po pewnym czasie nie ma już sensu, aby ktoś jeszcze dłużej chodził do szkoły. Sukces uczenia się może być zniszczony przez zbyt długie pre-training i pogorszyć się ponownie.

Model AI, który został utworzony przez pre-training, czyli nauczył się, nazywa się również Foundation Model (FM) lub podstawowym modelem. Podstawowy model można wykorzystać do ogólnych zadań. Im większe jest podstawowe modelu, tym lepiej może on rozwiązać specjalne zadania. Wielkość modelu określa się liczbą jego połączeń neuronowych. ChatGPT może wykorzystać swoją ogromną wielkość do bardzo dobrych obliczeń (przynajmniej lepszych niż większość ludzi na tej planecie, uwzględniając błędy, które ChatGPT i człowiek popełniają).

Fine-Tuning

Dokonywanie drobnych modyfikacji może być również określane jako szkolenie finałowe.

Warunkiem do fine-tuning jest istniejące modelu językowego AI. Model ten istnieje po tym, jak został wstępnie przeszkolony (pre-trained). Tylko model wstępnie przeszkolony może być poddany fine-tuningowi.

Dokonywanie drobnych modyfikacji jest porównywalne z kontynuowaniem nauki po szkole.

Bez wykształcenia szkolnego nauka nie jest możliwa, a raczej również nie ma sensu.

Dokładne szkolenie modelu jest sensowne, gdy model ma być przeszkolony do określonej czynności. Z użyciem fine-tuning model języka zostaje więc dalej przeszkolony.

Możliwe, że model językowy nie może dobrze skrócić tekstów z domu. Może być tak tylko przypadkowo, np. dla praktyki lekarskiej, która używa zupełnie innego słownictwa w dokumentach lekarskich niż to, które jest zakorzenione w danych szkoleniowych modelu AI.

Poprawka Fine-Tuning poprawia umiejętności modelu sztucznej inteligencji wcześniej przeszkolonego w odniesieniu do konkretnego zadania. Zadanie to nazywane jest również Downstream-Task.

Zależy od zadanego zadania i predyspozycji modelu AI oraz od użytej metody matematycznej szkolenia, ile danych jest potrzebnych do osiągnięcia dobrych wyników.

Dla klasyfikacji tekstów może wystarczyć setka przykładów, aby przeprowadzić fine-tuning z powodzeniem. Jeśli chcemy, żeby generujący obrazy za pomocą AI model nauczył się stylu artysty, to już dziesięć przykładów może wystarczyć. Po fine-tuningu model AI tworzy obrazy, które mogłyby być autorstwa twórcy tych dziesięciu przykładów.

W ogólnej ocenie potrzebne są znacznie mniej danych szkoleniowych do fine-tuningu i to całkiem sensownie, w przeciwieństwie do pre-trainingu. Można przyjąć, że liczba zestawów danych do fine-tuningu nie przekracza często 10 tysięcy. Często znacznie mniej niż te 10 tysięcy przykładów jest sensowne i wymagane. Zależy to od przypadku. W celu pełnej szczegółowości należy wspomnieć o pewnym wyjątku: Podstawowe modelu szkoli się fine-tuningiem z celem, aby powstała faktualnie poprawiona wersja tego podstawowego modelu. Takie zdarzenie miało miejsce np. z Llama3. Fine-towany odłam otrzymał 64 tysiące zestawów danych szkoleniowych. Zazwyczaj takie procedury wykonują inni. Można następnie wykorzystać te ulepszane modele, jakby były one od samego początku dostępne (pre-training).

W praktyce fine-tuning odbywa się w firmach dla małych modeli językowych. Małe nie oznacza, że nie byłoby to "dużej" LLM (Language Model), ale określa stosunek między "gigantycznym" (ChatGPT) a "bardzo dobrym LLM" (jak Llama3-8B). ChatGPT ma prawdopodobnie ponad 1000 miliardów połączeń neuronowych, podczas gdy model 8B ma "tylko" 8 miliardów. "B" oznacza "miliardę" i jest to angielskie słowo.

Pre-Training versus Fine-Tuning

Poniższy przegląd przedstawia różnice między Pre-Trainingiem a Fine-Tuningiem w sposób krótki i przejrzysty. W przeglądzie znajdują się również cechy dotyczące ochrony danych osobowych oraz danych syntetycznych. Dane syntetyczne to dane generowane sztucznie, aby powiększyć zakres danych treningowych. Te dane są wykorzystywane przez modele AI!

OznakaPre-TrainingFine-Tuning
CelTworzenie ogólnej modelu AIPoprawienie istniejącego modelu AI dla określonej zadań
AnalogiaWychowanie dziecka przez rodziców + edukacja szkolnaNauka na uniwersytecie lub dalsza edukacja po szkole
Ilość danych treningowychTak wiele jak możliwe, często miliardy danychCzasem wystarczy 10 przykładów, czasem 100. Bardzo rzadko będą to 10 tysięcy lub więcej przykładów.
Czas obliczeniowyDla nowoczesnych modeli wiele milionów godzinLicznie godzin do tygodni
Ochrona danych osobowychZazwyczaj nie można go dotrzymaćZasadniczo (tylko dla danych treningowych) można przestrzegać
Możliwa anonimizacja?W praktyce nieTak, w zasadzie bardzo dobrze
Prawa autorskie są spełnione?W praktyce nieTak, w zasadzie bardzo dobrze
Dane syntetyczne sensowne?Tylko w przypadku konieczności lub dla ulepszeń w ramach jednej linii modeliTak, do mnożenia danych treningowych i zwiększenia zmienności tych danych
Różnice między pretreningiem a fine-tuning modeli AI.

Anonimizacja danych szkoleniowych do fine-tuning podlega tym samym warunkom jak ochrona danych osobowych: wszystkie dane, które już w trakcie pre-szkolenia zostały wprowadzone do modelu podstawowego, nie mogą być później anonimizowane. Sytuacja jest jeszcze gorsza w przypadku danych chronionych prawem autorskim. Bo zanim się o to dowiadujemy, dane te są własnością kogoś innego. W przypadku ochrony danych osobowych można często ustalić, czy dane dotyczą konkretnych osób.

Wnioski

Z punktu widzenia danych fine-tuning jest o wielkości porządków lepszy kontrolowany niż pre-training. Dotyczy to jednak tylko danych, które są wprowadzane w procesie fine-tuningu. Dane treningowe początkowe dla pre-trainingu są już zapisane w modelu AI i są dostępne do pobrania.


Wstępne szkolenie jest wyzwaniem technicznym. Z perspektywy oprogramowania jest to prawie to samo, co dostrajanie. Wymaga jednak ogromnych mocy obliczeniowych i niezwykle dużej ilości danych treningowych.

Dostrajanie jest zupełnie inne. Zarządza się nim za pomocą niedrogiego sprzętu klasy konsumenckiej i bardzo często wymaga niewielkiej lub bardzo małej ilości danych treningowych.

Trening finałowy dziedziczy więc "mózg" z założonymi początkowymi danymi treningowymi i dodaje tylko kilka nowych danych. Te kilka nowych danych mogą być w świetle RODO bardzo dobrze zarządzane. Jednakże pozostaje nielegalny model podstawowy, który został przeszkolony, jest nadal nielegalnym modelem przeszkolonym. Nielegalne dane z modelu podstawowego kolorują więc wszystkie wersje następne tego modelu. Coś nielegalnego nie może być uczynione legalnym poprzez dodanie czegoś legalnego.

Dane syntetyczne nie poprawiają jakości lub ochrony danych w modelu podstawowym prawdopodobnie:

  • Syntheticzne dane mogą również zawierać odniesienie do osoby lub utworu chronionego prawem autorskim. Nie ma w tym nic dziwnego, bo ich wzorem są rzeczywiste dane.
  • Jeśli dane syntetyczne są uzyskiwane przez modyfikowanie prawdziwych danych, może dojść do fałszywych oświadczeń dotyczących osób. Byłoby to pogorszeniem sytuacji prawnej w modelu językowym AI.

W zasadzie można powiedzieć: modele AI są konkurencyjne tylko wtedy, gdy przedstawiają jak najwięcej i najlepszych danych do szkolenia. W związku z tym większość dostępnych modeli AI (zarówno zamkniętych, jak i otwartych źródeł) jest formalnie niezgodna z prawem. Zresztą, nawet Mistral została trenowana na danych z "otwartej sieci", jak sama mówi Mistral.

Trwająca i akceptowana przez prawo użycie czegoś formalnie nieprawidłowego prawem, prawdopodobnie spowoduje, że zostanie ono uznane za dozwolone lub co najmniej "nielegalne użytkowanie" będzie tolerowane.

Innym problemem jest korzystanie z usług chmurowych takich jak ChatGPT lub Azure. Wtedy bowiem dane trzeciej strony lub własne tajemnice biznesowe są wysyłane do amerykańskich firm i ich służb wywiadowczych.

Jeśli argument bezpieczeństwa danych nie jest wystarczający, zaleca się określenie jego zastosowań konkretnych i wykorzystanie w tym celu optymalizowanej AI. Ten rodzaj AI nazywany jest tutaj Offline-AI. Biegle działa samodzielnie, albo na wynajmowanym serwerze lub własnym serwerze firmy i często daje lepsze wyniki niż ogólne inteligencje jak ChatGPT.

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Ochrona danych osobowych: Co to są dane osobowe?