Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Inteligencja sztuczna: Rezerwacja użytkowania, która nie istnieje

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI

Niemiecki ustawodawca określił w § 44b UrhG możliwość dla twórców, aby mogli chronić swoje treści przed crawlem AI. Jednak ta możliwość nie istnieje i prowadzi do dalszej ubożeniu niemieckiego języka w modelach językowych AI. Nasza krajowa gospodarka będzie cierpieć pod tym.

Wprowadzenie

Treści z stron internetowych, z publicznie dostępnych plików PDF i innych dokumentów tego rodzaju mogą być przeczytane i wykorzystane w celu przetwarzania przez sztuczną inteligencję, w szczególności dla Chatbotów, a nawet krótkotrwale przechowywane do celów szkolenia KI. To pozwala na § 44b UrhG.

Tam również jest napisane, że przetwarzanie treści dla modeli językowych AI nie powinno być dozwolone, jeśli twórca umieścił warunek dotyczący użycia maszynowego. Yes widzę generatywne modele AI jako "wydobycie danych" w sensie § 44b Ustawa o Prawie Autorskim. Więcej na ten temat w przyszłym wpisie, ponieważ wydaje się, że są inne opinie na ten temat. Bez względu na to, co jest wydobyciem danych, istnieje problem, który jest przedmiotem tego artykułu.

Ta forma użytkowania jest jednak nieprawdziwa, jak chcę pokazać. Poza chatbotami istnieją inne interesujące i istotne zastosowania AI. Do nich należą analiza danych, automatyczne wnioskowanie lub uzyskiwanie automatyzacji wiedzy. Ponieważ język niemiecki będzie coraz mniej znaczący, wszystkie inne kraje będą mogły automatycznie zdobywać wiedzę i wynalazki, ale my w Niemczech tylko, jeśli nie będziemy już używali systemów AI do komunikacji w języku niemieckim.

Co oznacza maszynowo czytelny?

Maszyny mogą czytać tekst zgodnie z uzasadnieniem 35 dyrektywy UE 2019/1024, jest to dokument, "gdy znajduje się w formacie pliku, który jest tak strukturyzowany, że aplikacje oprogramowania mogą łatwo identyfikować, rozpoznać i wydobyć konkretne dane. …"

Kto czyta treści stron internetowych dla aplikacji AI ("Crawler") musi według woli niemieckiego ustawodawcy udowodnić, że NIE ma ograniczeń korzystania z treści na stronie w zakładce o firmie lub warunkach korzystania.

Ten dowód jest możliwy jedynie w sposób manualny, zatem automatyzacja, jakiej wymaga aplikacja AI, nie jest możliwa.

Maszyny mogą czytać plik robots.txt. Reguluje on, które krawelery mają prawo do odczytu treści, a mianowicie w celu tworzenia serwisów wyszukiwawczych.

Niemiecki ustawodawca widzi to po innego. Rozumie przez maszynowo czytelne coś, co mnie prowadzi do przypuszczeń, że niemiecki ustawodawca miał albo wyraźnie naiwnych i niekompetentnych doradców lub się nie zapytał.

Niemiecki ustawodawca zdaje się traktować informacje w imieniu lub warunkach sprzedaży jako czytelne przez komputer. Zobacz Projekt ustawy nr 19/27426 Parlamentu Niemieckiego dotyczący § 44b Ustawa o Prawie Autorskim (tam: str. 89, ustęp 2), podkreślenie moje:

"Należy wyraźnie ogłosić warunki korzystania i zrobić to w sposób odpowiedni dla automatyzacji procesów przy tekstowym i danych gromadzeniu. W przypadku dostępnych online utworów, warunek ten jest skuteczny tylko wtedy, gdy zostanie ogłoszony w formie maszynowo czytelną (porównaj ErwG 18 podpunkt 2 zdanie 2 DSM-RL). Może również być zawarty w informacji o firmie lub w Ogólnych Warunkach Handlowych (OWH), jeśli jest on tam również dostępny maszynowo czytelnie."

Mówię sobie, że to jest niezgodne z prawem europejskim, ale nie chcę się wciągać w dyskurs prawniczy. Warto tu dodać, że według mojej wiedzy w Niemczech jest legalne zawieranie umów niemożliwych do spełnienia. To byłoby przykładem.

Jak źle są tacy złoczyńcy, pokazuje strona internetowa znanej niemieckiej firmy prawnej. Tam w informacji o firmie jest napisane, że korzystanie z treści strony jest dozwolone tylko na podstawie § 44b UrhG. Ta sama informacja znajduje się również jako nieoficjalny komentarz w pliku robots.txt tej strony internetowej.

Jednak niefortunnie zapomniano w pliku Robots, obok najbardziej znanej systemu AI (ChatGPT), wykluczyć również drugi najbardziej znany system (od Google) za pomocą prostej i niebudzącej wątpliwości technicznej deklaracji.

Jasne jest zbyt proste.

Służba prawna ta ma wystarczające środki, aby wynajmować doradców.

Obserwuję u niemieckiego ustawodawcy przede wszystkim problem z procesem legislacyjnym w ogóle, a nie związany ze szczególnym partiami. Kto kiedyś obejrzał na telewizji konsultację niemieckiego Bundestagu lub specjalistycznych komisji politycznych na szczeblu federalnym, może być w stanie zrozumieć, o czym mówię. Tutaj jest to podsumowanie:

  • Ekspertowie nie odwagi mówić prawdy.
  • Ekspertowie nie są ekspertami.
  • Ekspertowie mają tylko mało czasu na swoje odpowiedzi.
  • Ekspertowie mogą odpowiedzieć tylko na zadane pytania, ale nie myśleć dalej.
  • Cała impreza trwa tylko krótki czas.
  • Odpowiedź ekspertów jest często tylko dla półekspertów zrozumiała, nie zaś dla polityków, którzy wszystko chcą zrozumieć i muszą wierzyć.
  • Jest nieprzyjemne i niekomfortowe mówić prawdy, a kto chce już zepsuć przyjemną atmosferę?

Problemy nad problemami

Zapowiedź niemieckiego ustawodawcy jest bzdurą z kilku powodów. Oto powody nieudanej pracy niemieckiego ustawodawcy.

Imprint i AGB nie mogą być rozpoznane z całą pewnością

Imprint i strona z AGB nie da się automatycznie ustalić. W każdym razie nie uda się tego zrobić w sposób wiarygodny. Powinno być tak, bo w przeciwnym wypadku żadne przedsiębiorstwo AI nie zaufają do czytania niemieckich stron internetowych dla aplikacji AI. W powyższej źródłowej stronie na str. 89 jest również napisane: "Obowiązek dowodu dla braku uprawnień do użytkowania ponosi użytkownik [=Crawler].".

Mówię z doświadczenia. Informacja o stronie jest podstroną taką samą jak każda inna strona internetowa. Strona z warunkami korzystania jest również taka, ale często w formacie PDF. Kto kiedykolwiek zajmował się czytaniem plików PDF i automatycznym wyodrębnianiem tekstu z nich, ten wie: nie jest to łatwe.

Strona z informacjami o firmie i warunkach korzystania nie może być zaufanie uznana.

Powiedział specjalista, który już wiele stron przeczytał z pomocą robotów.

Regulamin i warunki sprzedaży powinny być może nie czytane w ogóle

Jeśli kursor używa Link głębokia do pobrania dokumentu (np. PDF), to często nie chce czytać dalszych stron strony internetowej. Powinien jednak, aby znaleźć informacje o firmie i warunkach korzystania.

Ale jeszcze gorzej jest.

Crawler AI jest głupi

Crawler jest crawlerem. Czasami nie ma tu inteligencji sztucznej. Ta inteligencja powinna się pojawić dopiero po tym, jak będą dostępne wystarczające dane do szkolenia. Crawler ma za zadanie dostarczyć te dane w ogóle.

Das naiv und durne argument wielu osób, że heutzutage można by wszystko zrozumieć za pomocą oprogramowania, jest naprawdę tylko głupotą lub naiwnością. W efekcie ostatecznym oznaczałoby to, że trzeba by wynająć ChatGPT, aby wysyłać wszystkie dane do niego i pytać go za pieniądz: "Gdzie jest informacja o oprogramowaniu?" lub "Czy w informacji o oprogramowaniu znajduje się ograniczenie użytkowania?" lub "Teraz musimy przeszukać warunki korzystania, drogi ChatGPT, ale proszę nie zapisuj danych, bo musimy najpierw ustalić, czy jest ograniczenie użytkowania."

Analogia byłaby (mi nie przychodzi nic lepsze): Mają Państwo termin w dwóch godzinach w miejscu, które jest 500 km od aktualnego miejsca Pana, gdzie również są zaangażowani w termin. Przybywają późno i otrzymują za to upomnienie, ponieważ mogli by zabrać helikopter. Helikopter odpowiada tutaj ChatGPT, tylko że helikopter ma mniej luk w kwestii prywatności.

Nawigator AI jest tak głupi jak ci, którzy uważają, że każdy niemiecki zdanie może być zrozumiane i przetłumaczone przez oprogramowanie.

W sieci społecznej kobieta wyraziła swoją zgodę na korzystanie danych w następujący sposób: „Korzystanie z danych jest przeznaczone jedynie do uzyskania informacji w neuronalnych sieciach ludzkich”

Mało prawdopodobne jest, żeby kursor zrozumiał to. Tak samo mało prawdopodobne jest, aby model językowy zrozumiał to. A co dopiero do tego, mało prawdopodobne jest, aby większość ludzi zrozumiała to.

Dylemat

Jeszcze raz: Krawler to krawler. Krawler czyta treści i zapisuje je. Gotowe. Wszystko, co następuje, robi inne komponenty oprogramowania.

Crawler, który czyta treści dla serwisu wyszukiwawczego, powinien i musi zatem tylko respektować plik robots.txt oraz tam umieszczony warunek korzystania.

Ten sam Crawler powinien być w stanie zrobić znacznie więcej, jeśli treści będą używane również lub wyłącznie do szkolenia modeli AI. Crawler nie powinien tylko umieć czytać prostą robots.txt, która znajduje się na tej samej lokalizacji na każdej stronie internetowej. Nie, ten sam Crawler powinien być w stanie również:

  1. Stronę przeglądnij dalej niż być może zamierzasz, aby dowiedzieć się, gdzie znajdują się informacje o firmie i warunkach korzystania.
  2. Informacje prawne.
  3. Tekst z opisu strony wydobyć.
  4. Analizuj tekst Roha i spróbuj zrozumieć.
  5. Nie znaleziono ograniczenia użytkowania, więc przejdź do losu (Krok 6)
  6. Warunki korzystania
  7. Jeśli plik jest w formacie PDF, należy go otworzyć za pomocą czytnika PDF. Przypuszcza się, że warunki korzystania z usługi są bezpieczne i nie zawierają żadnych dodatkowych informacji.
  8. Wyjąć tekst z Rohtextu z AGB.
  9. Analizuj tekst Roha i spróbuj zrozumieć.
  10. Nie znaleziono ograniczenia użytkowania, więc przejdź na los (Krok 11).
  11. Możliwie najbardziej prawidłowe i sprawdzalne zapisywanie danych
    • Strona o firmie
    • Strona AGB
    • Strona, na podstawie której zostały ustalone strony dla informacji o firmie i warunków korzystania.

Dużo przyjemności i przede wszystkim: Duży sukces!

Rozwiązanie

Rozwiązanie wymaga trzech konwencji:

  1. Konwencja nazw (URL): Tutaj znajduje się plik, w którym umieszczone jest oświadczenie dotyczące praw autorskich.
  2. Konwencja struktury (treść): Tak jest zbudowana plik
  3. Konwencja nazw (treść): Takie są nazwy parametrów, które wyrażają zastrzeżenia dotyczące użycia. Może istnieć ogólny zastrzeżenie dotyczące użycia, ale także specyficzne (dla poszczególnych systemów AI).

Stan istniejący dla powszechnie znanej i sprawdzonej pliki robots.txt spełnia wszystkie te wymagania. Jedynie w odniesieniu do ogólnej rezerwy korzystania brakuje przepisu. Ten przepis musi być jednorazowo wykonany, aby stać się konwencją. Gotowe. Kosztuje mnie 10 sekund czasu (patrz poniżej), nie jest więc wyrazem intelektualnej mądrości.

Zamiast tego, miejscach wskazanych przez niemieckiego ustawodawcę jako przykłady (imprint i warunki użytkowania) nie spełniają żadnej z tych trzech konwencji:

  1. Nie jest jasne, gdzie znajduje się informacja o firmie i warunkach korzystania z serwisu na stronie internetowej. Warunki często nie istnieją.
  2. Treść informacyjna jest strukturalnie chaotyczna. Od reguł biznesowych jako od tekstu prawnego nie chcemy nawet wspominać.
  3. Zobacz 2: Informacja o firmie jest nieporządkowo ułożona, warunki korzystania zalogowane są w ten sam sposób.

Niemiecki sposób jest więc słabo prowadzony. Niemiecka regulacja dotycząca rezerwacji korzystania z AI-Crawling jest skazona na porażkę. Zabiera ona również sprawę, że niemiecki język w środowisku AI będzie się upustowył, lub tylko duże firmy AI będą mogły sobie pozwolić na nie przestrzeganie niemieckich reguł. Dziękujemy, Niemcy.

Do czego jest niemiecki język dobry w modelach językowych?

Chatbotsy, w formie, w jakiej użytkownik prywatny je używa, nie są problemem, jeśli nie przetwarzają się danych wrażliwych. Dla tego istnieją ChatGPT i podobne.

Dla szukania inteligentnej AI po dokumentach istnieją już dobre modele językowe, które nawet działają lokalnie. Dobrze dla tego, kto już zapisał sobie te LLMs lokalnie. Ponieważ jak tylko świat zorientuje się w niemieckim błędzie, nowsze wersje modeli językowych będą zawierać mniej tekstów niemieckich.

W szczególności jednak dla maszynowego wnioskowania są modeli językowe bardzo interesujące, istotne i gospodarczo niezmiernie ważne. Badacze również cieszą się nowymi odkryciami, które bez modeli językowych AI nie byłyby możliwe. Oto przykład zastosowań, które już teraz istnieją.

Przykład jest w języku niemieckim. W przyszłości będzie działał z modelami języka dostępnymi bezpłatnie, ale tylko jeśli droga niemiecka nie spowoduje strachu. W przeciwnym razie będziemy musieli wyrazić się w angielskim, hiszpańskim, bengalskim lub innej rzeczywiście istotnej języku. Przepraszam, że będzie to dla what trudniejsze. Dziękujcie sobie niemieckiemu ustawodawcy.

Oto tłumaczenie: "Znajdź przedsiębiorstwa, które są notowane na giełdzie i produkują towary związane z aplikacjami sztucznej inteligencji. Znajdź konkurencję dla tych firm. Odkryj dostawców, którzy dostarczają szczególnie wartościowe części. Wartościowe są części, które tylko kilku producentów świata może wyprodukować. Znajdź najbardziej zyskowne przedsiębiorstwa spośród tych i podaj nazwy tych firm razem z produktami, które produkują.

Przykładowy przykład, który w rzeczywistości byłby sformułowany nieco inaczej.

Zasadniczo tak samo, jak w przykładzie wymienionym, działa maszynowe wnioskowanie ("Reasoning"). Z pomocą dostępnych obecnie otwartego źródła procedur model języka może rozbić pytanie na podzadania, wykonać je osobno, połączyć wyniki i w ten sposób wygenerować ostateczną odpowiedź. W ten sposób można było np. uzyskać nowe odkrycia w materiałoznawstwie. Nazwa rozwiązania to MechGPT. To się stało głównie dzięki przeczytaniu wyników badań (w języku angielskim!) i znalezieniu związków między nimi. Wynikiem było uzyskanie nowych odkryć, które były rozproszone w kilku angielskich artykułach. Niestety, że niemiecki język coraz mniej ważny staje się.

Wnioski

Niemiecki ustawodawca jest głupi. Wszyscy, którzy uważają § 44b UrhG za aktualnie realizowalny, są naiwni lub głupi albo chcą wyrazić swoje zdanie na tematy, do których lepiej by im nie mówić.

Ponieważ § 44b UPR zrealizować się nie da i ponadto operatora crawlera należy udowodnić, że wszystko było wykonane poprawnie, niemieckie teksty w przyszłości będą jeszcze rzadsze w modelach językowych AI. Bot czatowy jest tylko taki dobry, jak dane, które otrzymuje do szkolenia. Niemcy w przyszłości będą lokalizowane w kamieniołomie. Jeśli kiedykolwiek planujecie analizować teksty internetowe przy pomocy AI (np. do przewidywania rynku akcji), to lepiej napiszcie wszystko od razu po angielsku, chińsku lub bengalsku.

Prawda o AI: Nie ma skutecznego modelu językowego AI, który nie opierałby się na danych chronionych prawem autorskim. Nie ma fantastycznego modelu językowego AI, który byłby prawomocny.

Oglądań autora, stan na 09.07.2024

Rozwiązaniem byłoby: W pliku robots.txt należy umieścić zapis o zastrzeganiu sobie praw do korzystania z informacji przed AI crawlem.

Ten podejście już istnieje faktycznie, ponieważ firmy takie jak OpenAI lub Google już informują, w jaki sposób można umieścić warunek użytkowania w robots.txt. Tu konkretne przykłady z praktyki:

Nutzungsvorbehalt gegen KI-Crawler, ungleich der Vorgabe des deutschen Gesetzgebers.

Ta plik jest dostępny pod adresem dr-dsgvo.de/robots.txt. Ogólnie rzecz biorąc: ihre-webseite.de/robots.txt. Tak prosto.

Ponieważ w Niemczech wszystko musi być skomplikowane i ponieważ proste rzeczy są tam zbyt proste, niemiecki ustawodawca uczynił z czegoś prostego coś skomplikowanego.

Problemem są dotychczas nieznane lub wręcz nieistniejące crawlers AI, których wpis do robots.txt nie może być znany. Jeśli kiedykolwiek chcielibyście stworzyć model AI, prawdopodobnie nie będziecie mogli ani chcieli zapewnić, aby cały świat (lub nawet tylko Niemcy) wiedział jak technicznie nazywa się wasz crawler AI i dlatego jak można sformułować warunek korzystania specjalnie dla waszego crawla.

Jedna z możliwych rozwiązań może być uniwersalny wpis, np.:

AI-Crawler *
Prohobited

Zatem byłoby to warunek korzystania z niektórych elementów, który dotyczyłby wszystkich botów AI, ale nie poszukiwaczy internetowych. Granice wyobraźni w kwestii konkretnego ukształtowania nie istnieją.

Jeśli w przyszłości wyszukiwarki będą działać tak samo jak modele językowe AI lub co najmniej będą wykorzystywały algorytmy AI, nie będzie to miało znaczenia.

Moje zdanie: Najlepiej ignorować warunki użytkowania i budować własne modele językowe AI. Nie widzi ich nikt z zewnątrz. Ponadto można je tak zaprojektować, aby teksty chronione prawem autorskim nie pojawiały się w odpowiedziach i tym samym nie mogą powstać żadne problemy.

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Rozwiązanie pragmatyczne wybija się ponad przepisy prawne i organizacyjne: Dwa przykłady