Jeder spricht von Künstlicher Intelligenz, doch keiner weiß, was damit gemeint ist. Soweit der erste Fakt. Die italienische Datenschutzbehörde verbot den Einsatz von ChatGPT, doch Suchmaschinen wie Google dürfen weiter arbeiten. Was ist Künstliche Intelligenz der Jetztzeit eigentlich und was hat das mit Datenschutz zu tun?
In Kürze
Zusammenfassung:
Künstliche Intelligenz (KI) und Datenschutz sind zwei Themen, die in den letzten Jahren immer mehr Aufmerksamkeit erhalten haben. KI-Systeme wie ChatGPT basieren auf öffentlichen Datenquellen und verwenden ähnliche Ansätze wie Suchmaschinen. Daher ist das Datenschutzproblem bei KI-Anwendungen nicht unbedingt größer als bei Suchmaschinen. Allerdings können KI-Systeme Urheberrechtsprobleme verursachen, wenn sie fremde Inhalte in anderer Form wiedergeben.
Beantwortete Fragen:
Frage: Was ist Künstliche Intelligenz der Jetztzeit? Antwort: Künstliche Intelligenz der Jetztzeit bezieht sich auf moderne KI-Systeme wie ChatGPT oder andere Large Language Models (LLMs), die auf qualitativ hochwertigen Massendaten und genialen mathematischen Modellen basieren, um menschenähnliche Intelligenz zu simulieren. Frage: Was hat Künstliche Intelligenz mit Datenschutz zu tun? Antwort: Künstliche Intelligenz kann vor allem dann Datenschutzprobleme aufwerfen, wenn sie auf nichtöffentliche personenbezogene Daten zugreift. Frage: Was ist der Unterschied zwischen Künstlicher Intelligenz und Suchmaschinen in Bezug auf Datenschutz? Antwort: Künstliche Intelligenz und Suchmaschinen sammeln beide Daten aus öffentlichen Quellen, aber KI-Systeme können Inhalte in anderer Form wiedergeben und möglicherweise Urheberrechtsprobleme verursachen, während Suchmaschinen in der Regel nur kurze Snippets anzeigen. Frage: Was sind die Hauptprobleme im Zusammenhang mit Künstlicher Intelligenz? Antwort: Die Hauptprobleme im Zusammenhang mit Künstlicher Intelligenz sind Urheberrechtsprobleme, die Fähigkeit der KI, den Menschen zu ersetzen, und möglicherweise Datenschutzprobleme.
Wichtige Schlagworte:
Künstliche Intelligenz, ChatGPT, LLMs, Large Language Models, Common Crawl Datensätze, Wikipedia, Online Texte, Vektoren, Wissensbasis, Mathematisches Modell, Zahlenreihen, Cloud Computing, Python, Pytorch, TensorFlow
Podcast zum Beitrag:
Einleitung
Seit einigen Jahren schon wird der Begriff der Künstlichen Intelligenz inflationär und undifferenziert genutzt. Jetzt, im Jahr 2023, kam nach meiner Wahrnehmung der absolute Durchbruch. Aus meiner Sicht als Informatiker ist es erstens gelungen, das Grundprinzip der menschlichen Intelligenz zu entschlüsseln. Zweitens ist es gelungen, zu demonstrieren, dass dies gelungen ist.
Das menschliche Gehirn ist ein Automat, die Hardware ist biologisch. Unser Gehirn basiert auf stochastischen Prozessen (kontrollierter Zufall). Dies ist auch das Grundprinzip der Quantenphysik, die unser gesamtes Leben bestimmt.
Analog (Automat, Stochastik, Zufall) verhält es sich mit elektronischen KI-Systemen.
Somit ist der Turing Test meiner Ansicht nach erstmals von einem Computerprogramm bestanden worden. Was Joseph Weizenbaum mit seinem virtuellen Psychiater Eliza damals „nur“ schaffte, indem er in sein System eine geschickte Dialogtechnik einprogrammierte, funktioniert jetzt gerade, im April 2023, über eine leistungsfähige Simulation des menschlichen Gehirns. Ich hatte übrigens die Ehre, Herrn Weizenbaum damals (es war wohl ca. um das Jahr 2000 herum) persönlich an meiner damaligen Universität, der TU Ilmenau, erleben zu dürfen. Auch bin ich stolz darauf, dass die TU Ilmenau zu den Top-Universitäten in Europa zählte und in einem Ranking wie folgt aufgelistet war: Cambridge, Oxford, Zürich, Eindhoven, London, Ilmenau. Wer kennt Ilmenau nicht?
Was ist Künstliche Intelligenz?
Was Künstliche Intelligenz ist, kann ich nicht umfassend beantworten. Allerdings kann ich sehr wohl einiges zu den aktuellen Systemen wie ChatGPT oder allgemein, zu LLMs (Large Language Models), sagen.
Die aktuellen Systeme, die zurecht für Begeisterungsstürme sorgen, basieren im Wesentlichen auf zwei Ansätzen:
- Die Wissensbasis: Qualitativ hochwertige Massendaten
- Geniales mathematisches Modell: Das Denk- und Verständniszentrum des Gehirns
Die Wissensbasis von ChatGPT basiert insbesondere auf folgenden öffentlichen Quellen:
- Common Crawl Datensätze (CC und CC4): Großer Teilabzug des Internets (teils zufällig). Kann jeder herunterladen.
- Wikipedia: Öffentlich, wird als Dump seit langem bereitgestellt. Kann jeder herunterladen.
- Diverse digital vorliegende Bücher: Kann jeder herunterladen.
- Online Texte: Öffentlich, durch Crawling oder über Dumps abrufbar.
Wie zu sehen, handelt es sich nicht um Geheiminformationen, sondern um das, was Suchmaschinen wie Google im Wesentlichen auch abgrasen. Google crawlt sogar noch zahlreiche weitere Quellen, wie etwa PDF-Dokumente, Social Media Plattformen und noch mehr Webseiten.
Die meisten Daten, die für KI-Anwendungen wie ChatGPT verwendet werden, sind entweder öffentlich oder nicht personenbezogen.
Datenschutz ist nicht das Hauptproblem, wenn wir über KI reden. Es ist die Fähigkeit der KI, den Menschen zu ersetzen. Vorher kommt noch das Urheberrecht.
Jetzt wird es spannend. Das mathematische Modell, das aktuellen leistungsfähigen KI-Systemen zugrunde liegt, funktioniert in etwa so:
- Wandle die Wissensbasis in Zahlenreihen um (Vektoren).
- Je nach zu lösender Aufgabe: Wandle eine Eingabe (Frage, zu übersetzender Text etc.) ebenfalls in Zahlenreihen um.
- Führe eine Ähnlichkeitssuche zwischen den beiden eben genannten Vektoren durch. Die ähnlichsten Datenpaare sind das wahrscheinlichste Ergebnis.
Dieses Verfahren kann auf alle möglichen Arten von Daten angewandt werden, nämlich insbesondere auf:
- Text: ChatGPT, LLaMa usw., insbesondere Textergänzung, Frage-Antwort-Assistenten, Übersetzung, Ähnlichkeitssuchen, Textzusammenfassungen (extraktiv und abstraktiv: Ausgesuchte Originalsätze versus sinngemäße Wiedergabe in neuen Worten…)
- Bilder: Dall-E, Midjourney usw.
- Audiodateien: Wav2Vec, GANSynth. Wer kennt Beispiele?
- Videos: Dito
- Jegliche sonstige Signale, egal ob kontinuierlich (analog) oder diskret (digital), Hauptsache, eine Überführung in diskrete Werte und Vektoren ist möglich
Die Kunst bestand (!) in der Vektorisierung von Eingabedaten. Dieses Problem ist in ausgesprochen zufriedenstellender Weise nun gelöst. Wir alle, vor allem Informatiker und sonstige technikaffine Personen, können diese Möglichkeiten jetzt anwenden. Alle technisch nicht versierten müssen vorgefertigte Systeme verwenden. Wer tiefer gehende Kenntnisse von Softwaretechnik und modernen Technologien hat, kann sich solche Systeme selber bauen, erweitern und tiefgehend verändern.
Ich habe das gestern mal ausprobiert und ein System programmiert, welches Antworten auf Fragen gibt. Dazu wird eine öffentlich zugängliche Wissensdatenbank verwendet, auch Datensatz genannt. Als Programmiersprache der Wahl hat sich Python herauskristallisiert. Als KI-Frameworks sind insbesondere Pytorch und TensorFlow zu nennen. Weil diese Frameworks ressourcenhungrig sind, schadet es nicht, sich mit Cloud Computing auszukennen. Wie gut, dass es datenschutzfreundliche Cloud Lösungen auch aus Deutschland gibt.
Etwas besonderes an ChatGPT ist der generelle Ansatz. Das System kann nicht nur eine Aufgabe hervorragend erfüllen, sondern gleich mehrere. Dies wird auch als AGI bezeichnet. AGI steht für Artificial General Intelligence, wohingegen AI bisher schon für Artificial Intelligence stand und im Deutschen mit KI bezeichnet wird.
Viele KI-Systeme könnten herausfordernde Aufgaben schon vor ChatGPT hervorragend lösen. Allerdings beschränkte sich deren Fähigkeit auf jeweils ein recht stark eingegrenztes Problemfeld. ChatGPT hingegen ist sehr vielfältig einsetzbar. Beispielsweise konnte man mit DEEPL (deutsche Firma aus Köln!) bereits Texte fantastisch übersetzen. Mit ChatGPT geht nicht bekanntlich nur das, sondern noch viel mehr, wovon DEEPL überhaupt keine Ahnung hat.
Damit zeitintensive KI-Algorithmen schneller rechnen können, werden oft Grafikkarten für die Berechnung eingesetzt. Im Gegensatz zu normalen Prozessoren (CPUs) haben Grafikkarten GPUs (Grafikkartenprozessoren). Zufällig können GPUs die Rechenoperationen von KI-Anwendungen wesentlich effizienter ausführen als CPUs.
Die populärste Schnittstelle und Plattform für eine GPU ist nach meiner Kenntnis CUDA von NVidia, einem bekannten Grafikkartenhersteller. CUDA steht für Compute Unified Device Architecture. Es gibt allerdings auch IPUs vom Anbieter Graphcore. IPU steht für Intelligence Processing Unit, während CPU für Central Processing Unit und GPU für Graphics Processing Unit steht. Von Google gibt’s dann ausnahmsweise mal was Positives zu berichten, nämlich TPUs (Tensor Processing Units). TPUs finden wohl überwiegend in der Google Cloud Anwendung, weswegen sie für den datenschutzaffinen Entwickler oft wenig interessant sind.
Die Leistungsfähigkeit solcher KI-Grafikkarten ergibt sich unter anderem aus der Anzahl ihrer CUDA-Kerne. Grafikkarten aus dem Consumer-Segment haben beispielsweise 5888 solcher Kerne (Nvidia GeForce RTX 3070) und sind sogar für Privatleute erschwinglich.
Falls Sie meinen, mithalten zu können, hier ein paar weitere Begriffe, die Sie kennen sollten: Model, Reader, Retriever, Index, Encoder/Decoder, Transformer, Pipeline, Policy, Dataframe. Das ist nur ein kleiner Teil der wichtigen Begriffe, die für das etwas detailliertere Verständnis von modernen KI-Systemen erforderlich sind. Wer GPT-Systeme besser verstehen will, sollte schon beispielsweise einmal etwas von (wiederkehrenden) neuronalen Netzwerken, Markov-Modellen und Konzepten wie LSTM und NLP gehört haben.
Die Anwendungsfälle von Ähnlichkeitssuchen über diskrete Vektoren sind enorm. Sie alle basieren auf demselben (nicht dem gleichen) Grundprinzip. Die Möglichkeiten sind schier endlos. Viele Fälle kommen sogar ohne teure Hardware aus. Einige gute Beispiele, die bereits umgesetzt wurden, sind:
- Frage-Antwort-Systeme. Beispiel aus der lokalen Installation von Dr. DSGVO, die nur eine recht geringe Wissensbasis verwendet: „Wofür war der frühere amerikanische Präsident John F. Kennedy bekannt? Für die Apollo-Programme (eine Woche nach Kennedys Tod gab Präsident Johnson eine Präsidialerlass, wonach die Weltraumeinrichtungen von Cape Canaveral und Apollo nach Kennedy benannt wurden).“
- Übersetzung von Texte aus einer Quellsprache in eine Zielsprache.
- Welches Bild passt am besten zu einem gegebenen Prompt?
- Generieren eines Bildes aus einem Textprompt.
- Erstellen einer Zusammenfassung eines Textes.
- Komponieren eines Musikstücks, das die gleiche Charakteristik wie andere Werke eines Komponisten aufweist.
Die Ähnlichkeitssuche sorgt dafür, dass von Computersystemen mit „einfachen Mitteln“ die innere Struktur der deutschen Sprache erlernt werden kann. Wow! Erklären Sie mal jemandem, was „innere Struktur“ bedeutet, geschweige denn, wie man diese erlernt, ohne jahrelang die Sprache im realen Leben einzuüben.
Ein besonders charmanter Zug moderner KI-Systeme, die auf LLMs basieren: Vortrainierte Modelle können durch Fine-Tuning für spezifische Probleme trainiert werden. Daher kommt auch das Kürzel GPT (Generative Pre-trained Transformer). Das System wurde also einmal angelernt und kann dann sehr schnell seine Fähigkeiten auf spezifische Aufgaben erweitern. Genau so verhält es sich mit einem Menschen, der gelernt hat, zu lernen.
Dazu muss man wissen, dass das Trainieren eines Sprachmodells sehr rechenintensiv ist. Auf einem normalen PC dauert das einige Wochen, wenn die richtigen Datensätze zur Verfügung stehen. Immerhin „nur“ einige Wochen, muss man sagen. Ganz früher brauchte man einen Supercomputer dafür.
Man kann also hergehen und ein Sprachmodell als Ausgangsbasis nehmen, welches von jemand anderem mühselig trainiert wurde. Diesem Sprachmodell trichtert man dann seine eigenen domänenspezifischen Daten ein. Am Ende kommt ein KI-System heraus, welches die Fähigkeiten des mächtigen Sprachmodells plus Wissen über das eigene Problemfeld besitzt. Das Fine-Tuning des mächtigen Modells ist dabei in Windeseile vollzogen. Wichtig hierbei ist ein guter Ausgangsdatenbestand, der maschinell aufbereitet sein sollte. Mit den richtigen technischen Werkzeugen kann so eine Werkbank errichtet werden, um sehr effizient alle möglichen Wissensprobleme zu lösen. Und zwar mit einem lokal installierten KI-System, welches keine Internetverbindung benötigt und für das keine Kosten bei Dritten anfallen.
Weil viele sagen, ChatGPT und andere ähnlich leistungsfähige Systeme würden ja „nur“ stochastisch arbeiten: Genau so arbeitet auch unser Gehirn. Unser Gehirn ist auch nur ein Automat, mehr nicht. Anscheinend aber ein sehr leistungsfähiger Automat. Den Grad des Zufalls in unserem Gehirn können wir als Gehirnträger nicht selbst steuern (höchstens durch Zufuhr von Alkohol oder sonstigen Drogen). In KI-Systemen kann Zufall über die Angabe der sogenannten Temperatur gesteuert werden. Eine höhere Temperatur erzeugt kreativere Antworten. Eine Temperatur am Gefrierpunkt sorgt hingegen für einen deterministischen Automaten, der immer dieselben Antworten für dieselben Fragen liefert.
Aus dem Lexikon der Neurowissenschaft:
Quelle: Spektrum der Wissenschaft, Fettdruck von mir, ebenso der letzte Satz.
„Stochastische Prozesse finden vielfach Anwendung bei der Beschreibung einzelner Neurone (stochastische Schwankungen des Membranpotentials, stochastische Folgen von Aktionspotentialen) oder von Neuronensystemen (Populationsgleichungen für neuronale Netze mit stochastischer Aktivität).“
Ein menschliches Gehirn besteht u. a. aus genau diesen Bestandteilen und basiert auf diesen Prinzipien.
Eine Anmerkung, weil sich ein Leser wegen dieses Artikels bei mir meldete: Er stellte mir in Aussicht, mir mitzuteilen, warum mein Verständnis zu Intelligenz kritikwürdig ist. Ich bin gespannt über seine Rückmeldung und werde sie in diesen Beitrag einarbeiten, sobald sie vorliegt.
Was hat KI mit Datenschutz zu tun?
Lokale KI-Systeme, wie das eben beschriebene, halten ihre Daten jedenfalls nicht bei Dritten. Sie könnten es aber tun, ohne dass dabei (besondere) Datenschutzprobleme entstehen. Dies gilt nämlich dann, wenn die Daten aus öffentlichen Quellen stammen, die frei verfügbar sind.
Wer auf Facebook öffentlich Angaben zu seiner Person macht, hat sein Recht auf Datenschutz bezüglich dieser Angaben verwirkt.
Wem der Schutz der eigenen Daten wichtig ist, berichtet nicht öffentlich über eigene Befindlichkeiten, Krankheiten und Urlaubspläne.
Gäbe es die bekannten Suchmaschinen nicht, wäre die Antwort bezüglich des Datenschutzproblems bei KI-Anwendungen einfacher. Allerdings machen Suchmaschinen im ersten Schritt nichts anderes als KI-Systeme: Sie sammeln viele Daten. Was ChatGPT angeht, ist das Vorgehen sogar gleich, was die Verfügbarkeit der Quellen angeht. ChatGPT sammelt nämlich ebenso wie Google oder Bing Daten aus öffentlichen Quellen.
Wo hier der Unterschied sein soll, erschließt sich mir nicht.
Suchmaschinen geben gute, aber nicht besonders intelligente Antworten auf Fragen. Eine Frage ist ein Suchbegriff oder auch schon mal eine einfach formulierte Wissensfrage. KI-Systeme geben ebenso gute (oder teils bessere) Antworten auf sprachlich oder inhaltlich komplexe Fragen.
Qualitativ handelt es sich bei Suchmaschinen und bestimmten Ausprägungen von KI-Systemen um Frage-Antwort-Systeme. ChatGPT ist ein solcher Antwortautomat, genau wie die Suchmaschinen von Google oder Bing. Die Art der Datenverarbeitung ist schon bei klassischen Suchmaschinen als recht invasiv zu bezeichnen. KI-Systeme gehen hier nicht wirklich weiter, wenn man sich die mathematischen Modelle ansieht, die zwar sehr rechenintensiv, dafür aber nicht unbedingt aufregender sind.
Auch dieser Punkt ist also qualitativ gleich, wenngleich ChatGPT den Turing-Test besteht, naive Suchmaschinen aber nicht. Im eben verlinkten Beitrag von mir ist der Turing-Test kurz erklärt und mit einem realen Beispiel illustriert.
Ray Kurzweil hatte recht als er bereits im Jahr 2005 ein Buch mit dem folgenden Titel schrieb: "The singularity is near".
Das Buch hatte ich damals gelesen, aber keine Ahnung, wie sehr er recht hatte.
Die Antworten, die Suchmaschinen geben, entsprechen im Wesentlichen aus der Wiedergabe von zuvor eingelesenen Inhalten. KI-Anwendungen geben Inhalte oft auch in anderer Form wieder, so wie ChatGPT. Dies ist ein Unterschied. Allerdings hat dies mit Datenschutz auch nur bedingt zu tun. Man kann darüber streiten, ob Falschaussagen oder Halluzinationen von Künstlicher Intelligenz ein Datenschutzproblem sind. Ich sehe das zunächst jedenfalls nicht.
Im Zuge des Verbots von ChatGPT in Italien durch die dortige Datenschutzbehörde wurde auch der Jugendschutz als Grund genannt. Soweit mir bekannt ist, sind Inhalte auf YouTube, Facebook, Twitter und in Suchmaschinen von Google und Bing für jeden zugänglich, der ein paar Knöpfe drücken kann. Wo hier der Jugendschutz sein soll, sehe ich nicht.
Wenn eine Künstliche Intelligenz öffentliche Quellen anzapft, sehe ich also zunächst kein Datenschutzproblem. Jedenfalls ist das Problem kein anderes als für Suchmaschinen, soziale Netzwerke oder sonstige Portale, die Drittinhalte wiedergeben. Italien hat wohl (anhand eines Daten-Leaks) festgestellt, dass auch Nutzereingaben von ChatGPT gespeichert werden. Soweit ich weiß, machen große Suchmaschinen das auch. Das macht es nicht besser, aber stellt infrage, warum nicht früher schon gegen Suchmaschinen vorgegangen wurde.
Wo ist das Problem mit KI?
KI-Systeme sorgen möglicherweise für Urheberrechtsprobleme. Denn die Wiedergabe von Inhalten in einer Form, die über kurze Zitate hinausgeht, ist rechtlich problematisch. Dies gilt sowohl für Text als auch für andere Medienarten, wie etwa Bilder. Hier ein Beispiel für ein computergeneriertes Bild, das hoffentlich keine Urheberrechte verletzt (genau weiß es niemand):

Suchmaschinen geben üblicherweise nur Schnipsel (Snippets) von Suchergebnissen wider. Das wird als erlaubt angesehen. Hier ein Beispiel für ein solches Snippet:

Manchmal werden auch Antworten zu formulierten Fragen direkt in der Suchmaschine dargestellt. Hier beginnt das Problem: Wenn ich mir schon die Zeit nehme und die Mühe mache, kostenfreie Beiträge zu veröffentlichen, dann möchte ich, dass die Leser meine Webseite besuchen. Somit habe ich wenigstens die Chance, dass daraus ein guter Kontakt welcher Art auch immer entsteht.
Wenn aber eine Suchmaschine meine Inhalte direkt darstellt, besucht irgendwann niemand mehr meine Webseite. Warum soll ich dann meine Inhalte überhaupt öffentlich oder kostenfrei bereitstellen?
Analog und noch extremer verhält es sich mit KI-Algorithmen und -Systemen. Derartige Systeme verstehen fremde Inhalte, und geben sie in anderer (synonymer oder mit anderen Informationen kombinierter) Form wider. Dagegen habe ich etwas, jedenfalls wenn es meine Inhalte sind und die KI-Betreiber mir hierfür nichts anbieten (Link, Geld etc.). Deswegen finden Sie einen Beitrag auf Dr. DSGVO, in dem beschrieben wird, wie ChatGPT daran gehindert wird, Ihre eigenen Inhalte abzusaugen.
Fazit
KI-Systeme wie ChatGPT bedienen sich aus öffentlichen Quellen (zumindest ist das die Information, die OpenAI öffentlich gibt). Somit tun sie nichts anderes als Suchmaschinen. Soweit ich weiß, wurde die Google Suchmaschine noch nirgendwo in Europa verboten, weder in Italien noch in Deutschland. Deutsche Datenschutzbehörden haben ja auch bei OpenAI nachgefragt, woher die Daten kommen, auf denen ChatGPT arbeitet.
Vielmehr könnte aber ein Urheberrechtsproblem entstehen, wenn fremde Inhalte von KI-Systemen verwurstet werden. Hierüber habe ich bisher noch nicht viel gelesen.
Ich verstehe die Aufregung bezüglich (bekannter) KI und Datenschutz aus mehreren Gründen nicht ganz:
- Die Daten stammen aus öffentlichen Quellen, die auch Suchmaschinen abgrasen.
- Es gibt einfache Maßnahmen, um Datenschutzprobleme zu lösen, sofern sie denn da sind.
Diese Maßnahmen werde ich demnächst auf Dr. DSGVO beschreiben. Mein Ansatz basiert auf einem technischen Verständnis der Arbeitsweise von KI-Systemen, gepaart mit meinem Verständnis für Datenschutz. Einem Kunden konnte ich so schon helfen, rechtliche Probleme mit seinem KI-System zu umgehen. Hätte der Datenbestand der KI eingeschränkt werden müssen, wäre das KI-System nicht mehr arbeitsfähig.
Daher halte ich das Vorgehen einiger Behörden (insbesondere von Italien) für schwierig. KI-Systeme müssen reguliert werden, damit die Menschheit noch etwas länger existiert. Allerdings hat diese Regulierung in erster Linie nichts mit Datenschutz zu tun, sondern mit Urheberrecht und der Gefahr übermächtiger Systeme. Meine Prognose aufgrund der aktuellen Entwicklungen ist, dass der Aktienmarkt demnächst in der jetzigen Form so nicht mehr existieren kann und wird. Denn mithilfe intelligenter Systeme wird bald (fast) jeder in der Lage sein, den Verlauf von Aktienkursen zuverlässig genug vorherzusagen, um recht gefahrlos rein spekulativ mit Aktien handeln zu können.
Erst in zweiter Linie und vor allem bei Systemen, die nichtöffentliche Inhalte nutzen, kann ein Datenschutzproblem entstehen. Bei durch Lizenzen geschützte Inhalte wäre aber wieder das Urheberrecht die richtige Prüfgrundlage. Bitte korrigieren Sie mich, wenn ich falsch liege.
Sie können sich ja mal den Spaß machen, bei OpenAI nachzufragen, ob Daten von Ihrer Webseite in deren Index vorliegen und die Löschung aus Index und allen KI-Modellen fordern (die verlinkte Mailadresse stammt aus der Datenschutzerklärung von OpenAI).
Kernaussagen dieses Beitrags
Künstliche Intelligenz (KI) basiert auf riesigen Datenmengen und mathematischen Modellen, um menschliche Aufgaben zu erledigen, aber es gibt Herausforderungen wie Urheberrechtsprobleme und potenzielle Datenschutzbedenken.
Moderne KI-Systeme wie ChatGPT lernen durch riesige Mengen an öffentlich zugänglichen Daten und nutzen komplexe mathematische Modelle, um Informationen zu verarbeiten und Antworten auf Fragen zu finden.
Moderne KI-Systeme können durch "Vortraining" mit großen Datenmengen lernen und anschließend für spezifische Aufgaben angepasst werden, ähnlich wie Menschen, die lernen, zu lernen.
Man kann leistungsstarke KI-Systeme mit eigenen Daten trainieren, um spezielle Probleme zu lösen, ohne auf Internetverbindung oder externe Dienste angewiesen zu sein.
ChatGPT ist ähnlich wie Suchmaschinen: Es verwendet öffentliche Daten und gibt darauf basierend Antworten. Es gibt also keine grundlegenden Unterschiede im Umgang mit Datenschutz oder Urheberrechten.
KI wird bald so gut sein, dass fast jeder Aktienkurse besser als bisher vorhersagen kann und spekulativ handeln wird.
KI-Beratung, KI-Lösungen
Leistungsangebot:
- Erstberatung inkl. Machbarkeitsaussagen
- Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
- KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

gekennzeichnet.


Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die 
Hallo Herr Meffert,
vielen Dank für Ihre Sichtweise. Ich bin selbst Informatiker und Datenschützer und teile Ihre Einschätzung bzw. verstehe auch nicht diese Diskussion wg. Chat GPT und Datenschutz.
Allerdings habe ich kürzlich gelesen (leider finde ich die Quelle nicht mehr), dass die Eingaben der Chat GPT Nutzer ebenfalls dazu verwendet werden, um das System zu verbessern. Was bei Suchmaschinen natürlich ebenfalls der Fall ist. Hier könnte sich noch ein Datenschutz-Thema verbergen. Das nur als Ergänzung zu Ihrem Artikel
Vielen Dank für Ihre Rückmeldung und Information zur Datenverarbeitung durch ChatGPT.
Das gleiche hatten mir zwei Personen mitgeteilt, also dass ChatGPT die Nutzereingaben in seinen Datenbestand einfließen lassen.
Sofern dies zutrifft, insbesondere wenn Nutzereingaben wieder in Form von Antworten an Dritte ausgespielt werden, wäre dies ein großes Problem und müsste dazu führen, ChatGPT generell zu verbieten. Wir müssten dann also auf ChatGPT 5.0 warten und solange die bereits öffentlich verfügbaren Ressourcen verwenden (die ich mir schon heruntergeladen habe – neue und größere Festplatte wartet auf den Kauf).
Vielen Dank für den ausführlichen Artikel. Da ich selbst von chatGPT generierte Bilder auf meinen Webseiten benutze, habe ich chatGPT gefragt, wie es mit den Urheberrechten steht (aus KI Sicht), hier die Antwort:
"Bilder, die mit DALL·E generiert werden, können Sie für persönliche und kommerzielle Zwecke frei verwenden, einschließlich der Verwendung auf Ihrer Webseite. Es ist jedoch wichtig, die Nutzungsbedingungen von OpenAI und eventuelle spezifische Anforderungen oder Einschränkungen, die mit der Verwendung von DALL·E generierten Inhalten verbunden sind, zu berücksichtigen. Generell gilt, dass diese Bilder nicht die Urheberrechte Dritter verletzen, da sie originäre Schöpfungen der KI sind. Dennoch sollten Sie darauf achten, dass die Verwendung des Bildes nicht in einer Weise erfolgt, die als irreführend oder diffamierend angesehen werden könnte. Es ist immer eine gute Praxis, die aktuellen Richtlinien von OpenAI zu überprüfen, um sicherzustellen, dass Ihre Verwendung im Einklang mit den neuesten Bestimmungen steht."
Danke für Ihre Rückmeldung.
Ich sehe es anders als ChatGPT:
Egal wie Sie ein Bild erstellt haben: Wenn das erstellte Werk zu ähnlich einem anderen Werk ist, verletzen Sie die Urheberrechte des Urhebers des Originalwerkes in vielen Fällen (Ausnahmen sind etwa: Künstler seit längerem tot, Werk ist nicht schutzbedürftig, Werk ist als gemeinfrei deklariert etc.)