Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Inteligencja sztuczna: Niemieckie teksty w modelach językowych AI

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI

Maszyny do wyszukiwania dokumentów, chatbota, asystentów językowych, systemy pytań i odpowiedzi: wszystko to można dostosować również dla niemieckiego języka, który jest na świecie poddawany dyskusjom. ChatGPT nie daje dokładnych odpowiedzi. Współczesne modele językowe AI dla języka niemieckiego są możliwe pomimo kilku drobnych kłopotów, takich jak język płciowy.

Wprowadzenie

Użycie AI w firmie różni się fundamentalnie od prywatnego korzystania z ChatGPT, Microsoft Bing Google Bard lub innych systemów danychkraken.

Przedsiębiorstwa udostępniają swoje dane wraz z sekretnymi informacjami biznesowymi, patentami, dane osobowe pracowników, dane klientów, umowami lub innymi poufnymi danymi często tylko z niechęcią ChatGPT. Z drugiej strony w przyszłości będą musiały udostępnić więcej danych innym podmiotom. Takie jest postanowienie Data Governance Act (DGA) Unii Europejskiej, który na mocy swojej regulacyjnej natury wszedł w życie we wrześniu 2023 roku.

Dodatkowo wymagania od poprawnych odpowiedzi chatbotów lub innych systemów językowych opartych na sztucznej inteligencji są znacznie wyższe niż w sferze prywatnej. Ma to zastosowanie przynajmniej poza obszarem kreatywnym. Klasa królewska stanowią zagadnienia prawne, które nowoczesne, ale ogólne systemy takie jak ChatGPT i Microsoft Bing-AInie są w stanie odpowiedzieć na nie (uzasadnienie: zobacz link powyżej). Również administracje, które służą obywatelom, nie powinny polegać na niestabilnych chatbotach, do których należy ChatGPT.

Punkty gender są odpowiednie do zanieczyszczania danych szkoleniowych dla modeli języka.

Z tego właśnie powodu, ponieważ kropka jest zwykle znakiem przestankowym.

Samotna funkcja korekty pisarskiej autora z Google Bard nie działa prawidłowo, jak pokazuje tekst praktyczny przyglądając się bliżej.

Niesłusznie utrudnia się pracy modelom językowym AI, gdy w danych treningowych gramatyka jest czasem rozmyta z powodu języka płciowego. Ponadto, dzięki dwukropkowi odnoszącemu się do płci, całe zdania w tekstach nie są już wcale rozpoznawane.

Niemiecki jest w porównaniu z resztą świata Język traktowany jak przez matkę (z podwójnym znaczeniem) (patrz poniżej). Potężne modele językowe, które się na angielski fokussują, rozumieją tylko dlatego niemiecki, bo ta język został w ten sposób quasi niechcący zaczerpnięty jako produkt uboczny w postaci emergentnej właściwości.

Własne modele językowe

Model językowy może być zdobyty następującymi sposobami:

  • Tworzenie od podstaw. To wymaga zwykle kiluset tysięcy godzin obliczeń na GPU (GPU = procesor graficzny), co nie jest możliwe dla wielu firm.
  • Używanie ponownie otwartych modeli językowych, które są określane przez drobne dostosowania: bardziej wymagający, ale kontrolowany standardowy sposób.
  • Używanie ponownie otwartych modeli językowych, które otrzymują tylko w ramach promta własne dokumenty jako kontekst.

Pierwsze dwa sposoby mają różne sposoby na przyjęcie języka genderowego. Finałowe dostosowanie jednak będzie mieć problemy, które nie mogą być całkowicie uniknięte.

Niemiecki nie jest językiem światowym. Lista przedstawia języki wraz z ich znaczeniem dla modelu językowego FLAN-T5 Google. Przed niemieckim są nawet języki takie jak Gujarati, które mogą być zupełnie nieznane.

Trzecia możliwość ponownego użycia modeli językowych otwartych jest najbardziej technicznie prosta i często działająca. Nie radzi sobie w ogóle z językiem genderowym. Jest to oświadczenie techniczne, a nie polityczne.

Własny niemiecki model językowy nie jest tylko możliwy, ale ma również wiele zalet. Wśród nich są np.:

  • Język niemiecki jest na pierwszym miejscu. Mieszkamy w Niemczech, a nie w Hiszpanii. Anglicizmy mogą być zrozumiałe dla modelu języka niemieckiego.
  • Należy nie przewozić "ballastu" innych języków. Dobrze dla wymagań sprzętowych (karty graficznej!) i przepustowości.
  • Wysokiej jakości treści mogą być wykorzystane zamiast "szamotki" (= powszechnie dostępne materiały, które nie zostały dobrze przefiltrowane).
  • Sfokusowanie na jeden obszar specjalizacji (lub również kilka).
  • Optymalna obsługa użytkownika z uwzględnieniem wyników, a nie tak, jakby każda odpowiedź była prawidłowa (patrz ChatGPT lub Bing).
  • Koszty niższe lub stałe: Własne system AI firmy opiera się głównie na kosztach zakupu lub wynajmu serwera AI. Częste korzystanie z niego nie zmienia tego faktu. Koszty pozostają takowe. Inaczej wygląda to w przypadku rozwiązań chmury, takich jak ChatGPT. Zadawanie pytań dokumentu staje się szybko drogie przy częstej korzystaniu z niego. Ktoś używający API chatbota od OpenAI powinien uniknąć rekurencji lub pętli nieskończonych, bo w przeciwnym razie budżet zostanie szybko i bez sensu rozdysponowany. Takiego przypadku nie można spotkać przy własnym systemie.

Następny rozdział dotyczy danych szkoleniowych dla niemieckich modeli języka AI, ponieważ one tworzą fundamenty dla sztucznej inteligencji językowej. Z tego wynikają również kilka propozycji dla władz i innych urzędów państwowych, które mogłyby umożliwić rozwój AI w Niemczech.

Dane szkoleniowe dla niemieckich asystentów języka naturalnego AI

Dane treningowe są tym, co rodzice dziecku dają mu do nauki. Dla modeli językowych potrzebne są teksty niemieckie. Skąd te teksty brać, jeśli nie kradną?

Internet oferuje cały szereg niemieckich tekstów. Firmy również posiadają w swoim Intranecie wiele dokumentów, które mogą być uważane za źródło wiedzy.

Plik PDF zamiast HTML

Sąd Najwyższy (BGH) publikuje swoje orzeczenia wydaje się tylko w formie pliku PDF. Wolna platforma openjur, pozyskująca te pliki i wyodrębniająca z nich (przez coś?) tekst, udostępnia je następnie za darmo online. Również Bundesanzeiger publikuje wiele dokumentów tylko w formie pliku PDF.

Analogicznie postępuje się z niektórymi innymi ważnymi źródłami publicznymi, które mogą być interesujące dla modeli AI. Na przykład wiele organów nadzorczych publikuje swoje sprawozdania lub przewodniki tylko w formie PDF.

Złożony dwustronny plik PDF związany z ochroną danych osobowych.

Zdjęcie przedstawia fragment oficjalnego i publicznego pliku PDF niemiekiej inspekcji ochrony danych osobowych. Nie tylko fakt, że dwa kolumny zwiększają skomplikowanie importu tekstu. Dwie kolumny są dodatkowo oddzielone przez nagłówek pośredni. Co dla człowieka jest łatwo przyswajalne wizualnie, to dla pierwszej fazy AI jest problemem. Niemal wszystko można rozwiązać, ale z jakim nakładem pracy i z jaką wiarygodnością? Dlaczego nie udostępniać danych oryginalnych lub przynajmniej formatów jednowierszowych? Przykłady to HTML lub tekst oryginalny. HTML może być wyrażony jako strona internetowa czytelna dla człowieka, która jest również łatwa do odczytania przez maszynę, co nazywane jest skrapingiem.

Uniknąć przeciwieństwa języka prostego

Z punktu widzenia logicznego i technicznego genderyzacja jest przeciwieństwem języka prostego („Język Lekki”). Przykład z dokumentu niemieckiej inspekcji ochrony danych:

  • Pracownicy/pracownice zamiast pracowników

W innych dokumentach tej samej instytucji można znaleźć:

  • Pracownicy*ki

Te formułowania nie są spójne ani „lekkie”. Dodatkowo zdaje się być, że tylko teksty związane z językiem gendera dotyczą tych, które są dostarczane przez wyszukiwarki lub chatboty.

Czy każdy użytkownik może zapytać model AI o język płci lub czy jest to coś, czego nie ma? Również sztuczna inteligencja nie może cudów dokonać. Tak samo jak nikt nie jest geniuszem. Większość ludzi w Niemczech nie potrafi nawet wymienić opony u samochodu.

Dlatego jakość danych jest ważna: Model językowy o nazwie Zephyr ma jedną dziesiątą parametrów potężnego modelu 70B i jest (także) tak samo dobry ze względu na jakość danych.

To powoduje znacznie szybsze ładowanie modelu i znacznie szybsze generowanie odpowiedzi.

Zdecydowanie bardziej skomplikowane jest to z technicznego punktu widzenia, ponieważ przed przetwarzaniem AI nie jest jasne, jak należy normalizować słowa, które zostały zniekształcone przez genderyzację. Oto dwa przykładowe zdania wraz z ich odpowiednimi słowami głównymi normalizowanymi:

  • .Pracowników:… -> Pracownikom
  • Przez pracowników:… -> Pracownicy

Jak widać, z dwóch form słów wynika jedna, gdy gramatyka zostaje przez genderyzację niezrozumiała. Człowiek może tu posunąć się za daleko, bo jest już inteligencją (nie zawsze, ale czasem). Komputer, który znajduje się w fazie prepracy tekstów, które mają być wykorzystane do szkolenia modelu języka AI, nie może wiarygodnie rozwiązać tej niejasności. W każdym razie potrzebne są wiele indywidualnych analiz, aż ostateczny wynik będzie w dużej mierze zgodny.

Poniższe zdanie jest trudne do przetworzenia maszynowo, ponieważ gramatyka tu kompletnie zanika. Prawdopodobnie wielu ludzi również będzie mieć problemy z zrozumieniem tej języka.

  • Ojcowizna: Obywatelka/Obywatel

Jeśli chcesz jeszcze bardziej skomplikować, zamiast dwukropka używaj gwiazdki genderowej:

  • Ojcowizna, współobywatelka

Modele AI opierają się na wielu milionach, a często miliardach danych. W przypadku dużych modeli językowych jeden zestaw danych składa się z fragmentu tekstu. Ponieważ modele AI uczą się dzięki wielu przykładom, potrzebne są dodatkowe przykłady w celu użycia języka płciowego. Zatem podstawowy problem jest niepotrzebnie skomplikowany.

Niezależnie od tego, jak wyglądała gramatyka, jak zostało opisane powyżej, cierpi. Z ostrości zaczyna być nieostre. Kto ma trochę wiedzy na temat modeli AI, wie, jak ważne są czyste dane wejściowe. Więcej różnic i więcej nieostrości jest wprawdzie kontrolowalne, ale wymaga więcej wysiłku. Wysiłek na trenowanie lub drobne uzupełnianie modeli AI jest już sam w sobie duży i dla wielu niemogący się znieść.

Same klasyczne procedury NLP jak lemmatyzacja i budowanie słów korzeniowych są przez punkt gatunkowy zamieszane.

Obiektywna, wyłącznie techniczna stwierdzenie. NLP = Przetwarzanie Języka Mówionego.

Ciekawa jest pytanie, czy zwolennicy języka genderowego wprowadzają go również w polach wyszukiwania w serwisach internetowych lub jako promt w modelach AI. Konsekwentnie, zwolennik języka genderowego powinien to zrobić. Wtedy ten czy ta osoba wie już, że serwisy internetowe i modele AI nauczą się również z wprowadzanych przez użytkowników danych. Jeśli jednak użytkownicy używają zawsze jedynie tradycyjnej, powszechnie używanej wersji języka i nie wersji genderowanej, to aplikacja niestety (lub może szczęśliwie?) nie będzie wystarczająco dobrze znawała się na języku genderowym.

Hier jest o czystej argumentacji, aby zniesiono gendery na rzecz AI. Mimo to, warto zauważyć coś. Otrzymałem wcześniej komentarz, który mówił: „Język należy do ludu” – rezolucja Bundestagu z dnia 26 marca 1998 roku”. Warto wspomnieć, że większość Niemców jest przeciwna językowi gendrowemu. Jeśli decyzje demokratycznego większości są szanowane, to decyzja ludu została podjęta. Kolejny komentarz mówił, że pytana AI odpowiedziała, że rozumie język gendrowy. Prawdopodobnie był to ChatGPT, system, który stale daje przyjemne odpowiedzi i często błędnie odpowiada, a także w ogóle jest nieprzydatny do dostarczania dokładnych wyników dla konkretnych zadań w firmie.

Propozycje dla lepszej jakości danych

Poniższe rekomendacje dotyczą zarówno firm jak i instytucji publicznych. Ostatnie z nich mają możliwość udostępnienia informacji o ogólnym interesie w formacie łatwym do przetworzenia cyfrowo.

Dokumenty udostępniane publicznie powinny być dostarczone w formatie roztworu. Zwykle używa się wyższej jakości, czyli HTML. Dostarczenie jedynie PDF może często spowodować problemy z przetwarzaniem maszynowym. PDF-y z więcej niż jedną kolumną dla tekstu prostego są jeszcze bardziej problematyczne. Ktoś, kto chce dostarczyć PDF, powinien idealnie dostarczać lekko przetwarzalny format dokumentu. Również osoby niewidome, które chcą lub muszą używać czytnika ekranowego, radzą sobie lepiej z prostymi dokumentami jako PDF.

Indeks dokumentów ułatwia znalezienie istniejących dokumentów i uniknięcie konieczności crawlującego lub skraplania. Podczas crawlującego strony internetowe są automatycznie przeszukiwane. To nie tylko sprawia, że przeszukiwacz ma więcej kłopotów. Serwer przeszukiwanego również cierpi z tego powodu, ponieważ generuje się więcej i przede wszystkim niepotrzebny ruch danych.

Język gatunkowy jest z technicznego punktu widzenia katastrofą. Nie ma nic więcej do powiedzenia na ten temat z technicznego punktu widzenia. Ktoś, kto chce dostarczyć teksty łatwe do zrozumienia dla każdego, powinien zrezyknąć się od użycia form gatunkowych. Wiele osób nie może łatwo zrozumieć pewnych sformułowań gatunkowych tak samo jak języka potocznego. Inkluzja idzie w przeciwnym kierunku niż komplikowanie. Zwaną lekką mową wydaje się, że nie tylko oddala od siebie gatunkowanie, ale wprowadza również dalsze uproszczenia.

Ktoś, kto zmienia płeć, powinien to robić z wyłącznie logicznego punktu widzenia i dla własnego interesu od razu konsekwentnie. Konsekwencja oznacza, że w każdym zdaniu, ale przynajmniej w wyszukiwaniach lub prompstach. Nikt nie może być zmuszony do tego, ale nie powinien się dziwić, jeśli chatbot lub maszyna wyszukiwawcza nie odpowiada w języku genderowym.

Wynik

Technicznie zanieczyszczona język genderowy danych szkoleniowych dla modeli języka komputerowego utrudnia trening, ponieważ potrzebne są więcej danych wejściowych. Językowo skomplikowuje niektóre zdania, zwłaszcza gdy nieokreślone artykuły przed głównym słowem również zostają odmienione. To powoduje wykluczenie czytelników, którzy już mają problemy zrozumienia tekstów pisanych na poziomie "piwowarczyka".

Tu nie ma miejsca na dyskusję o płci. Chodzi tu tylko o funkcjonalne rozważania.

Kto w czasie AI chce udostępnić dokumenty, zarówno dla publiczności jak i dla systemów AI wewnętrznych, powinien z technicznych przyczyn pomijać język płciowy lub duplikować dane szkoleniowe i nadawać im odpowiednie formy.

Kto uważa, że język genderowy jest super, powinien go używać wszędzie w internecie, nawet jeśli będzie to wymagało więcej pracy przy wpisywaniu tekstu. W przeciwnym razie model języka AI, który jest karmiony wprowadzonymi danymi, stanie się coraz bardziej precyzyjny dla tej samej języka, która nie potrzebuje znaków genderowych itp.

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Google Bard: ujawniono osobiste rozmowy