Każdy mówi o sztucznej inteligencji, ale nikt nie wie, co to jest. Tak długo, jak pierwszy fakt. Włoska izba ds. ochrony danych zakazała użycia ChatGPT, natomiast wyszukiwarki takie jak Google mogą nadal działać. Co to jest sztuczna inteligencja w czasach obecnych i co ma to wspólnego z ochroną danych?
W krótkich słowach
Podsumowanie:
Sztuczna inteligencja (SI) i ochrona danych osobowych są dwoma tematami, które w ostatnich latach zyskały coraz większą uwagę. Systemy SI takie jak ChatGPT opierają się na publicznych źródłach danych i wykorzystują podobne podejścia jak wyszukiwarki internetowe. W związku z tym problemem ochrony danych osobowych w aplikacjach SI nie jest niezbędnie większy niż u wyszukiwarek internetowych. Jednak systemy SI mogą powodować problemy z prawami autorskimi, jeśli ponownie wykorzystują treści innych osób w innej formie.
Odpowiedzi na pytania:
Czym jest dzisiejsza sztuczna inteligencja?
Odpowiedź: AI czasu obecnie odnosi się do nowoczesnych systemów AI takich jak ChatGPT lub inne modele języka (LLMs), które opierają się na wysokiej jakości danych masowych i genialnych modelach matematycznych, aby symulować inteligencję podobną do ludzkiej.
Czy co ma do czynienia sztuczna inteligencja z ochroną danych osobowych?
Odpowiedź: Sztuczna inteligencja może głównie powodować problemy z ochroną danych osobowych, gdy dostępuje do niepublicznych danych osobowych.
Czym różnią się od siebie maszyny uczenia się i wyszukiwarki w kwestii ochrony danych osobowych?
Odpowiedź: Obie sztuczna inteligencja i serwery wyszukiwawczy gromadzą dane z publicznych źródeł, ale systemy AI mogą zawierać treści w innej formie i być może powodować problemy z prawem autorskim, podczas gdy serwery wyszukiwawczy zazwyczaj pokazują tylko krótkie cytaty.
Czym są główne problemy związane z inteligencją artficialną?
Odpowiedź: Główne problemy związane z inteligencją artficialną to kwestie dotyczące praw autorskich, zdolność AI do zastąpienia ludzi i możliwe problemy z ochroną danych osobowych.
Kluczowe słowa klucze:
Inteligencja sztuczna, ChatGPT, LLMs, Duże Modeli Języka Mowy, Dane Common Crawl, Wikipedia, Teksty online, Wektory, Baza wiedzy, Modele matematyczne, Seria liczb, Obliczenia w chmurze, Python, Pytorch, TensorFlow
Odcinek podcastowy do tego artykułu:
Wprowadzenie
Od kilku lat już termin inteligencji sztucznej jest używany w sposób nieprecyzyjny i bez wyraźnego znaczenia. Teraz, w roku 2023, zdaje się nastąpił absolutny przełom. Z mojej perspektywy jako informatyka udało się po pierwsze zrozumieć podstawowy mechanizm ludzkiej inteligencji. Po drugie udało się udowodnić, że to się udało.
Człowiekowy mózg jest automatem, a sprzęt biologicznym. Nasze myśli opierają się na losowych procesach (kontrolowanym przypadku). To samo zasadnicze prawo obowiązuje w fizyce kwantowej, która określa cały nasz żywot. Analiza (automat, statystyka, losowość) odnosi się do systemów AI elektronicznych.
Somit jest test Turinga z mojej perspektywy pierwszy raz przeprowadzony przez program komputerowy. Co Joseph Weizenbaum osiągnął wtedy, tworząc swojego wirtualnego psychiatrę Elizę, teraz działa już, w kwietniu 2023 roku, za pomocą efektywnej symulacji ludzkiego mózgu. Miałem zaszczyt osobiście spotkać się z panem Weizenbaumem (prawdopodobnie było to około roku 2000) na mojej ówczesnej uczelni, TU Ilmenau. Jestem również dumny z faktu, że TU Ilmenau była jedną z najlepszych uniwersytetów w Europie i została umieszczona w rankingu następująco: Cambridge, Oxford, Zurych, Eindhoven, Londyn, Ilmenau. Kto nie zna Ilmenau?
Co to jest sztuczna inteligencja?
Czym jest sztuczna inteligencja, nie mogę odpowiedzieć w pełni. Jednakże mogę powiedzieć wiele na temat obecnych systemów takich jak ChatGPT lub ogólnie, o LLMs (Large Language Models),.
Obecne systemy, które słusznie wywołują entuzjazm, opierają się w zasadzie na dwóch podejściach:
- Baza wiedzy: Jakościowe dane masowe
- Genialne matematyczne modelowanie: Centrum myślenia i zrozumienia w mózgu
Baza wiedzy ChatGPT opiera się szczególnie na następujących źródłach publicznych:
- Dane Common Crawl (CC i CC4): Duży wybór internetu (częściowo losowy). Każdy może pobrać.
- Wikipedysta: Publicznie jest od dawna dostępny do pobrania. Każdy może go pobrać.
- Różnorodne cyfrowe książki dostępne są tutaj: Każdy może je pobrać.
- Tekst online: Dostępny publicznie, poprzez krawlowanie lub za pomocą dumpów.
Jak widać, nie chodzi o informacje poufne, ale o to, co również wyławiają wyszukiwarki takie jak Google. Google nawet jeszcze wiele innych źródeł przeszukuje, np. pliki PDF, platformy społecznościowe i wiele stron internetowych.
Większość danych używanych w aplikacjach AI takich jak ChatGPT jest albo publiczna, albo nie dotyczy konkretnych osób.
Ochrona danych nie jest głównym problemem, gdy mówimy o AI. Jest to zdolność AI do zastąpienia ludzi. Przed tym przychodzi prawo autorskie.
Teraz staje się to interesujące. Model matematyczny, który podstawą jest dla obecnego lepszych systemów AI, działa w zasadzie tak:
- Przekształć bazę wiedzy na ciągi liczbowe (wektory).
- Zależnie od do rozwiązania problemu: Przekształć wejście (pytanie, tekst do tłumaczenia itp.) również w ciągi liczbowe.
- Prowadź Ścieżkę podobieństwa między tymi dwoma wskazanymi wektorami. Najbardziej podobne dane pary są najprawdopodobniejszym wynikiem.
Ten proceder może być zastosowany do wszystkich rodzajów danych, w szczególności do:
- Tekst: ChatGPT, LLaMa itp., w szczególności uzupełnianie tekstu, asystenci pytań i odpowiedzi, tłumaczenie, wyszukiwanie podobieństw, podsumowania tekstów (wyodrębniające i abstrakcyjne: wybrane oryginalne zdania wobec przekształconych w nowe słowa…)
- Photos: Dall-E, Midjourney etc.
- Pliki audio: Wav2Vec, GANSynth. Kto zna przykłady?
- Wideo: Tutaj
- Wszelkie inne sygnały, zarówno ciągłe (analogowe) jak i dyskretne (cyfrowe), pod warunkiem, że możliwa jest ich przekształcenie w wartości i wektory dyskretnych
Sztuka polegała (!) na wktorze danych wejściowych. Ten problem został teraz zadowalająco rozwiązany. My wszyscy, zwłaszcza informatycy i inni technicznie zainteresowani ludzie, możemy teraz wykorzystać te możliwości. Ci, którzy nie są zbyt dobrze zaznajomieni z techniką, powinni używać gotowych systemów. Kto ma głębszą wiedzę na temat technologii i nowoczesnych technologii, może samemu budować takie systemy, rozbudowywać je i głęboko modyfikować.
Jestem miał to wczoraj sprawdzić i zaprogramować system, który odpowiada na pytania. Do tego używa się publicznie dostępnej bazy danych wiedzy, również nazywanej danych zestawu. Językiem programowania wybranym przez mnie jest Python. Jako frameworki AI są szczególnie wymieniane Pytorch i TensorFlow. Ponieważ te frameworki są bardzo zużytkujące się, nie szkodzi, aby znać obliczenia w chmurze. Jestem bardzo dumni, że istnieją rozwiązania chmury danych bezpieczne, które pochodzą z Niemiec.
Coś wyjątkowego w ChatGPT jest ogólny podejście. System nie może tylko dobrze wykonać jedną zadań, ale równocześnie kilka. To również nazywa się Inteligencja Artystyczna Komputerowa. AGI oznacza Artificial General Intelligence, podczas gdy AI dotychczas już oznaczała Artificial Intelligence i w języku polskim jest określana jako AI.
Wiele systemów AI mogłyby już wcześniej z powodzeniem rozwiązać trudne zadania. Jednak ich zdolności ograniczały się do jednego wąskiego zakresu problemów. ChatGPT jest bardzo różnorodnie użyteczna. Na przykład, można było już wcześniej z pomocą DEEPL (niemieckiej firmy z Kolonii!) doskonale tłumaczyć teksty. Z pomocą ChatGPT nie tylko to się robi, ale jeszcze wiele więcej, o czym DEEPL nawet nie śmie myślić.
Aby czasochłonne algorytmy AI mogły działać szybciej, często wykorzystuje się do obliczeń karty graficzne. W przeciwieństwie do zwykłych procesorów (CPUs) karty graficzne mają GPU (procesory graficzne). Losowo, karty graficzne mogą wykonywać operacje obliczeniowe aplikacji AI znacznie bardziej efektywnie niż CPU.
Tekst źródłowy: Die najpopularniejsza interfejsi platforma dla karty graficznej jest według mojej wiedzyCUDA von NVidia, einem bekannten Grafikkartenhersteller. CUDA steht für Compute Unified Device Architecture. Es gibt allerdings auch IPUs vom Anbieter Graphcore. IPU steht für Intelligence Processing Unit, während CPU für Central Processing Unit und GPU für Graphics Processing Unit steht. Von Google gibt’s dann ausnahmsweise mal what Positives zu berichten, nämlich TPUs (Tensor Processing Units). TPUs finden wohl überwiegend in der Google Cloud Anwendung, weswegen sie für den datenschutzaffinen Entwickler oft wenig interessant sind. Tłumaczenie: Najpopularniejsza interfejs i platforma dla GPU to według mojej wiedzy CUDA od NVidia, znany producenta kart graficznych. CUDA oznacza Compute Unified Device Architecture. Istnieją jednak również IPUs od dostawcy Graphcore. IPU oznacza Intelligence Processing Unit, podczas gdy CPU oznacza Central Processing Unit i GPU oznacza Graphics Processing Unit. Od Google można w końcu coś pozytywnego powiedzieć, a mianowicie TPUs (Tensor Processing Units). TPUs prawdopodobnie znajdują się głównie w chmurze Google, dlatego dla dewelopera dbającego o prywatność są one często mało interesujące.
Możliwości takich kart graficznych opartych na AI wynikają m.in. z liczby ich CUDA-Kernów. Karty z segmentu Consumer mają np. 5888 tych korek (Nvidia GeForce RTX 3070) i są nawet dostępne dla prywatnych użytkowników.
Jeśli uważacie, że możecie mierzyć się z tym, oto kilka dalszych pojęć, które powinniście poznać: Model, Reader, Retriever, Index, Encoder/Decoder, Transformer, Pipeline, Policy, Dataframe. To tylko mały kawałek ważnych pojęć, których potrzebujecie, aby lepiej zrozumieć nowoczesne systemy AI. Kto chce lepiej zrozumieć systemy GPT, powinien np. słyszeć coś o (wielokrotnych) sieciach neuronowych, modelach Markowa i pojęciach takich jak LSTM i NLP.
Zastosowania podobieństwa w poszukiwaniu za pomocą wektorów dyskretnych są ogromne. Wszystkie one opierają się na tym samym (nie tym samym) podstawowym zasadzie:
- Systemy pytania i odpowiedzi. Przykład z mojej lokalnej instalacji, która używa tylko niewielkiej bazy wiedzy: „Kim był znany wcześniej amerykański prezydent John F. Kennedy? Za programy Apollo (tydzień po śmierci Kennedy'ego, prezydent Johnson wydał dekret, w którym nazwano kosmiczne instalacje z Cape Canaveral i Apollo imieniem Kennedy'ego).”
- Tłumaczenie tekstu z języka źródłowego na język docelowy.
- Jaki obraz najlepiej pasuje do danego promptu?
- Tworzenie obrazu z tekstem wciśniętym.
- Utworzenie streszczenia tekstu.
- Skomponowanie utworu muzycznego, który posiada takie same cechy jak inne dzieła kompozytora.
Poszukiwanie podobieństwa zapewnia, że z pomocą "prostych środków" systemy komputerowe mogą wewnętrzną strukturę języka niemieckiego nauczyć się. Wow! Wyjaśnij kiedyś kogokolwiek, co to znaczy "wewnętrzna struktura", nie mówiąc już o tym, jak można ją nauczyć bez wieloletniego użytkowania języka w życiu realnym.
Specjalny charmanter aspekt współczesnych systemów AI opartych na LLM: Modeli wcześniej trenowane mogą być przez fine-tuning dostosowywane do konkretnych problemów. Stąd też skrót GPT (Generative Pre-trained Transformer). System został więc kiedyś przeszkolony i może następnie szybko rozbudować swoje umiejętności na konkretne zadania. Tak samo postępuje osoba, która się uczyła, aby uczyć się.
Aby to było możliwe, trzeba wiedzieć, że szkolenie modelu językowego jest bardzo obciążające. Na zwykłym komputerze zajmuje to kilka tygodni, jeśli są dostępne odpowiednie zestawy danych. Kilka tygodni, mówiąc delikatnie. Wczesniej potrzebowało się superkomputera do tego.
Można więc posunąć się do przodu i przyjąć modele językowe jako podstawę, które zostały męcząco trenowane przez kogoś innego. Następnie włoży się swoje własne dane specyficzne dla danego obszaru. Na końcu powstaje system AI, który posiada umiejętności potężnego modelu językowego plus wiedzę o własnym polu problemowym. Fine-tuning potężnego modelu jest tu wykonane w błyskawicznym tempie. Istotne jest tutaj dobry zestaw danych początkowych, który powinien być mechanicznie przygotowany. Z pomocą odpowiednich narzędzi technicznych można zbudować taką warsztatnicę, aby efektywnie rozwiązywać wszelkie możliwe problemy wiedzy. A to wszystko za pomocą lokalnie zainstalowanego systemu AI, który nie wymaga połączenia z Internetem i dla którego nie występują koszty u innych stron.
Wiele osób mówi, że ChatGPT i inne podobnie funkcjonujące systemy „tylko” stochastycznie działają: Tak właściwie działa również nasz mózg. Nasz mózg jest także tylko Automatem, nic więcej. Wydaje się jednak, że to bardzo skuteczny automat. Stopień przypadku w naszym mózgu nie możemy samodzielnie sterować (najwyżej poprzez zaopatrzenie w alkohol lub inne narkotyki). W systemach AI można losowość sterować przez podanie tak zwanego Temperatury. Wyższa temperatura generuje bardziej kreatywne odpowiedzi. Temperatura na punkcie mrozu natomiast sprawia, że automat deterministyczny zawsze będzie wydawał te same odpowiedzi na te same pytania.
Z leksykonu neurologii: Procesy losowe mają zastosowanie w opisie pojedynczych neuronów (losowe wahania potencjału membranowego, losowe skutki potencjału czynnościowego) lub systemów neuronalnych (równania populacyjne dla sieci neuronowych z działaniem losowym) Mózg człowieka składa się m.in. z tych samych elementów i opiera się na tych samych zasadach.
Źródło: Spektrum der Wissenschaft, polskie wyróżnienie moje, tak samo ostatni zdanie.
Uwaga, ponieważ jeden z czytelników skontaktował się ze mną w sprawie tego artykułu: zapowiedział mi, że poinformuje mnie, dlaczego moje rozumienie inteligencji jest krytykowane. Jestem ciekawa jego odpowiedzi i zamierzam ją włączyć do tego wpisu jak tylko będzie dostępna.
Czy masz coś wspólnego z ochroną danych osobowych?
Systemy lokalnej inteligencji komputerowej, takie jak opisany powyżej, nie przechowują swoich danych u innych osób. Mogłyby jednak to zrobić bez powodowania (szczególnych) problemów dotyczących ochrony prywatności, jeśli dane pochodzą z publicznych źródeł dostępnych do wglądu.
Kto na Facebooku publicznie ujawnia informacje o sobie, ten swoje prawo do prywatności w odniesieniu do tych informacji przepadł.
Jeśli ochrona własnych danych jest dla Ciebie ważna, nie udostępniaj informacji publicznie dotyczących swoich stanów emocjonalnych, chorób i planów wakacyjnych.
Jeśli nie istniały znane serwisy wyszukiwawcze, odpowiedź na problem ochrony danych osobowych w aplikacjach AI byłaby prostsza. Jednakże serwisy wyszukiwawcze w pierwszej kolejności nic innego robią jak systemy AI: Zbierają wiele danych. W kwestii ChatGPT postępowanie jest nawet takie samo, co do dostępności źródeł. ChatGPT zbiera bowiem tak samo jak Google lub Bing dane z światowych źródeł.
Tam gdzie różnica powinna być, nie dostrzegam jej.
Takie maszyny dają dobre, ale nie szczególnie inteligentne odpowiedzi na pytania. Pytanie jest słowem kluczowym lub też już raz prostym sformułowaną pytaniem wiedzy. Systemy AI dają tak samo dobre (lub często lepsze) odpowiedzi na pytania językowe lub o złożonym treści.
Jasne, to są systemy pytanie-odpowiedź. ChatGPT jest takim odpowiedziowaniem automatem, dokładnie jak serwisy wyszukiwawcze Google lub Bing. Sposób przetwarzania danych jest już w przypadku klasycznych serwisów wyszukiwawczych uważany za stosunkowo inwazyjny. Systemy AI nie idą tu naprawdę dalej, jeśli się przygląda matematycznym modelom, które są bardzo obciążające komputerowo, ale niekoniecznie bardziej interesujące.
Ten punkt jest więc jakościowo taki sam, chociaż ChatGPT przezbył test Turinga, a prostych wyszukiwarek nie. W artykule, który odnosi się do tego wpisu, opisano krótko i z przykładem ilustrującym test Turinga.
Raj Kurzweil miał rację, pisząc w 2005 roku książkę o tytule: "Singularytet jest blisko".
Książkę tę przeczytałem wtedy, ale nie miałem pojęcia, jak bardzo miał rację.
Odpowiedzi, które dają wyszukiwarki, odpowiadają w zasadzie na ponowne przedstawienie wcześniej przeczytanych treści. Zastosowania AI często również przedstawiają treści w innej formie, tak jak ChatGPT. Jest to różnica. Jednakże ma to tylko ograniczony związek z ochroną danych osobowych. Można dyskutować, czy fałszywe deklaracje lub halucynacje wywołane przez sztuczną inteligencję są problemem dotyczącym ochrony danych osobowych. Yes nie widzę tego początkowo jako takie.
W związku z zakazem ChatGPT w Włoszech przez tamtejszą Komisję ds. Ochrony Danych została również wymieniona ochrona młodzieży jako przyczyna. Większość treści na YouTube, Facebooku, Twitterze i w wyszukiwarkach Google i Bing jest dostępna dla każdego, kto nacisnie kilka przycisków. Gdzie tu ma być ochrona młodzieży, to nie widzę.
Jeśli sztuczna inteligencja otwarte źródła wykorzystuje, nie widzę problemu z ochroną danych osobowych. Co najmniej problem ten nie jest inny niż w przypadku wyszukiwarek, mediów społecznych czy innych portali, które powtarzają treści trzecich stron. Włochy prawdopodobnie (na podstawie ujawnienia danych) stwierdziły, że wpisy użytkowników ChatGPT są przechowywane. Wiem, że duże wyszukiwarki również to robią. Nie zmienia to sytuacji, ale sprawia, że pytam się dlaczego nie podjęto już wcześniej działań przeciwko wyszukiwarkom.
Gdzie jest problem z AI?
Systemy AI mogą być odpowiedzialne za problemy z prawem autorskim. Bo odtwarzanie treści w formie, która wykracza poza krótkie cytaty, jest prawnie problematyczne. Dotyczy to zarówno tekstu jak i innych mediów, takich jak np. obrazy. Oto przykład komputerowo wygenerowanej obrazy, która nie powinna naruszać praw autorskich (nie wiadomo dokładnie):

Maszyny wyszukiwawcze zwykle wyświetlają tylko fragmenty wyników wyszukania. Uważa się to za dozwolone. Przykład takiego fragmentu:

Czasem również odpowiedzi na postawione pytania są przedstawiane bezpośrednio w serwisie wyszukiwawczym. Tu zaczyna się problem: jeśli już sobie radzę i poświęcam czas, aby opublikować darmowe artykuły, to chcę, by czytelnicy odwiedzili moją stronę internetową. W ten sposób będę miał przynajmniej szansę na nawiązanie dobrego kontaktu, niezależnie od jego formy.
Jeśli jednak wyszukiwarka przedstawia moje treści bezpośrednio, kiedyś nikt nie odwiedzi już mojej strony internetowej. Dlaczego więc powinienem udostępnić moje treści publicznie lub za darmo?
Analogicznie zachowują się algorytmy i systemy AI. Takie systemy rozumią obce treści, a następnie je przedstawiają w innej (synonimicznej lub połączonej z innymi informacjami) formie. Z drugiej strony mam coś, przynajmniej jeśli chodzi o moje treści i AI operatorzy nie oferują mi niczego na to (link, pieniądze itp.). Dlatego znajdujecie wpis na Dr. RODO, w którym opisano jak ChatGPT jest zatrzymywany przed pobieraniem moich własnych treści. ([1])
Wynik
Systemy AI takie jak ChatGPT korzystają z publicznych źródeł (przynajmniej tak informuje o tym OpenAI). Dlatego nie robią nic innego niż wyszukiwarki. Nie wiem, aby Google została gdziekolwiek w Europie zakazana, ani we Włoszech, ani w Niemczech. Niemieckie organy ds. ochrony danych zapytali już OpenAI, skąd pochodzą dane, na których opiera się ChatGPT.
Więcej problemów z prawem autorskim może pojawić się, gdy treści innych osób są wykorzystywane przez systemy AI. O tym jeszcze nie przeczytałem wiele.
Nie rozumiem całkiem zainteresowania (znanych) technologiami AI i ochrony danych:
- Dane pochodzą z publicznych źródeł, które również są przeglądane przez wyszukiwarki.
- Są proste działania, które mogą rozwiązać problemy z ochroną danych osobowych, jeśli one istnieją.
Te Pomysły opiszę wkrótce na Dr. RODO. Mój podejście opiera się na technicznym zrozumieniu działania systemów AI, połączonym z moim zrozumieniem dla ochrony danych osobowych. Jakiemu klientowi udało mi się już pomóc w uniknięciu problemów prawnych związanych ze swoim systemem AI. Jeśli dane w systemie AI musiałyby zostać ograniczone, to system AI nie byłby już działalny.
Oto tłumaczenie: Daher uważam, że postępowanie niektórych władz (zwłaszcza Włoch) jest trudne do zrozumienia. Systemy AI muszą być regulowane, aby ludzkość mogła jeszcze przez jakiś czas istnieć. Jednak ta regulacja ma przede wszystkim związek z prawem autorskim i zagrożeniem systemami nadmiernie potężnymi. Mój przypuszczenie oparte na obecnym rozwoju to, że rynki giełdowe nie będą mogły istnieć w swoim obecnej formie i nie będą już takie same. Bo dzięki inteligentnym systemom każdy będzie mógł zaufanie przewidzieć przebieg kursów akcji, aby móc bezpiecznie spekulować na rynku giełdowym.
Prawo do ochrony danych osobowych staje się istotne dopiero w drugiej linii i głównie przy systemach korzystających z niepublicznych treści, ale gdy chodzi o chronione przez licencje treści, to prawo autorskie jest odpowiednią podstawą do oceny. Proszę poprawić mnie, jeśli jestem w błędzie.
Możecie sobie sprawę zrobić, poprosić OpenAI o informację, czy dane z Waszej strony internetowej znajdują się w ich indeksie i zażądać usunięcia z indeksu oraz wszystkich modeli AI (adres e-mail pochodzi z deklaracji o ochronie danych OpenAI). ([1])



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
