Wie lange dauerte die Programmierung einer Demo-Anwendung für einen KI-Bildgenerator?

Die Programmierung der Demo-Anwendung benötigte lediglich 5 Minuten. Dieser kurze Zeitaufwand zeigt, wie einfach es ist, KI-basierte Bildgenerierung lokal einzurichten.

Wie viele Bilder wurden in der KI-Demo-Anwendung generiert?

Die Demo-Anwendung generierte 20 Bilder gleichzeitig. Diese schnelle Generierung von Bildern demonstriert die Effizienz der Open-Source-Lösung.

Welche Auflösung hatten die generierten KI-Bilder?

Die generierten Bilder hatten eine Auflösung von 1024 x 1024 Pixeln. Diese Auflösung ist ausreichend hochwertig und ermöglicht vielfältige Anwendungen der generierten Bilder.

Warum ist die Nutzung eines Open-Source KI-Modells für die Bildgenerierung attraktiv?

Open-Source KI-Modelle bieten Unternehmen Flexibilität, Kosteneffizienz und Datensicherheit im Vergleich zu Cloud-Diensten. Sie ermöglichen eine unabhängige Lösung, die nicht von Drittanbietern abhängig ist.

Welche Vorteile bietet die automatische Überprüfung von KI-generierten Bildern?

Die automatische Urheberrechtsprüfung reduziert rechtliche Risiken und ermöglicht eine sichere Nutzung der generierten Bilder. Dies ist eine wesentliche Funktion, die bei kommerziellen Bildgenerierungsdiensten oft fehlt.

Wie unterscheidet sich die Nutzung eines Open-Source KI-Modells von der Nutzung von Diensten wie Midjourney oder DALL-E?

Open-Source-Modelle bieten die Möglichkeit, die KI-Anwendung direkt auf eigener Hardware zu betreiben, was zu mehr Kontrolle, Flexibilität und potenziell geringeren Kosten führt. Dies steht im Gegensatz zu Cloud-Diensten, die oft eine Abhängigkeit von externen Anbietern schaffen.

KI-Showcase: Bilder generieren - Pfeilschnell auf einem Laptop

Kategorien: Künstliche Intelligenz

Dieser KI-Showcase zeigt, dass mit Open-Source KI-Modellen mit geringstem Aufwand auf einem erschwinglichen Laptop erstaunliche und schnelle Ergebnisse erzielt werden können. Ein Bild sagt mehr als tausend Worte. Nur deshalb kommt der erste KI-Showcase aus dem Bereich der Bildgenerierung.

Einleitung

Die Reihe der KI-Showcases hier im Dr. DSGVO Blog beginnt mit der Bildgenerierung. Folgendes soll gezeigt werden:

Sehr gute Ergebnisse in kürzester Rechenzeit auf eigener Hardware
Sehr kurze Programmierzeit, dank extrem guter Open-Source Frameworks
Eigener Laptop und nicht etwa ein Desktop PC, ein Server oder gar ein kommerzielles KI-Modell
Voller Datenkontrolle (alles funktioniert auch ohne Internetanbindung)
Nutzung von Open-Source KI-Modellen (hier Bildgenerierung, demnächst im Showcase: Textanwendungen, Audio-Anwendungen usw.)

Ein größeres, qualitativ hochwertiges Bild in 1,4 Sekunden auf einem Laptop generieren.
Die Programmierung dafür dauerte 5 Minuten.

Warum ein Laptop? Was auf einem Laptop sehr gut funktioniert, funktioniert auf einem Server noch besser (vor allem läuft die Berechnung dann noch schneller).

Vergessen Sie Ihre Vorurteile gegenüber Open-Source, die außerhalb von KI gerechtfertigt sein mögen. Was KI angeht, gibt es keinen besseren Markt als Open-Source. Die frei verfügbaren Hilfsmittel sind extrem mächtig und stellen alles bisher Dagewesene in den Schatten.

Der Showcase

Zu einem Prompt (=Texteingabe) sollen Bilder generiert werden. Viele kennen das von DALL-E, Midjourney oder auch von Stable Diffusion allgemein.

Der Bildgenerator wird von null auf 100 programmiert. Er läuft auf einem eigenen Laptop, der Ende 2023 gekauft wurde. Betriebssystem des Laptops: Ubuntu (alles ohne Microsoft, Apple, Google oder Meta). Ubuntu ist ein populäres Betriebssystem auf Linux-Basis. Die Lizenzkosten sind schnell genannt: null.

Die Anwendung läuft völlig ohne Internetanbindung, nachdem alle Downloads für das Errichten der Anwendung abgeschlossen sind. Selbstverständlich wird kein Dienst von OpenAI, Microsoft, Google usw. verwendet. Alles läuft lokal.

Ziel dieses Showcases

Es soll gezeigt werden, dass Bildgenerierung in hoher Qualität mit hoher Geschwindigkeit auf eigener Hardware und ganz ohne Dienste Dritter möglich ist.

Ebenso soll gezeigt werden, dass die Programmierung innerhalb von Minuten möglich ist. Früher dauerten Software-Projekte dieser Art Monate, wenn sie überhaupt machbar waren. Ich spreche aus der Erfahrung der letzten 30 Jahre.

Weiterhin soll der Showcase verdeutlichen, dass eine Hardware unterhalb von „wer kann sich das denn leisten?“ in Lichtgeschwindigkeit Ergebnisse produzieren kann.

Volle Optimierungsmöglichkeiten inklusive Urheberrechtsprüfung für generierte Bilder.
Volle Datenkontrolle
Volle Unabhängigkeit.
Einige Merkmale der vorgestellten Lösung.

Für diesen Beitrag wurde eine kleine Demo programmiert. Sie generiert 20 Bilder und misst die Zeit für die Bilderstellung. Als Prompt wurde „Albert Einstein“ plus einer von vier willkürlich festgelegten Stilen (keine Vorgabe, Vorgabe schwarz weiß, usw.) verwendet. Auch andere Prompts wurden probiert.

Zeitaufwand für die Demo

Der Zeitaufwand insgesamt war kürzer als das Schreiben dieses Artikels hier gedauert hat. Ja, dieser Text wurde manuell geschrieben. In einem zukünftigen KI-Showcase wird gezeigt, dass eine Anwendung für das Texterstellen in Minuten programmiert und auf eigener Hardware ausgeführt werden kann. Schade für Microsoft, Google und Co., die dann keine Daten mehr bekommen.

Der Zeitaufwand im Detail:

Download Open-Source KI-Modell: Wenige Minuten
Programmieren Demo-Anwendung: 5 Minuten

Das war’s. Es sei angemerkt, dass ein KI-Modell wie dieses mehrere Gigabyte an Daten hat. Beim Hardware-Kauf empfehlen sich also große Festplatten. Diese Festplatten kostet nicht viel. Ein Terabyte sind 1024 Gigabyte. Der besagte Laptop hat eine 1,5 Terabyte Festplatte. Das ist groß genug, um einige Zeit lang experimentieren zu können, ohne nicht mehr benötigt KI-Modelle wieder löschen zu müssen.

Ergebnisse

Die auf die Schnelle programmierte Demo-Anwendung hat 20 Bilder in insgesamt unter 29 Sekunden generiert. Und zwar auf einem Laptop. Auf einem qualitativ vergleichbaren Desktop-PC wäre es doppelt so schnell gegangen.

Für jedes Bild wurden also ca. 1,45 Sekunden an Zeit benötigt.

Jedes Bild hat eine Auflösung von 1024 × 1024 Pixel. Auch Menschen, die keine Grafiker sind, wissen, dass dies oberhalb von „klein“ ist.

Hier die Ergebnisse in Kachelansicht:

Screenshot der Kachelansicht der 20 KI-generierten Bilder, wie sie ein Bildanzeigeprogramm darstellt.

Eines dieser Bilder im Detail:

Auf das Bild klicken für Ansicht in Originalgröße.

Die Bilder sind größtenteils verwendbar. Einige wenige haben kleine Fehler, wie etwa eine Brille, die unterbrochen ist. Das ließe sich beheben, wurde aber für die Demo nicht gemacht.

Die Demo verwendet zudem nur die halbe mögliche Qualität für die Generierung. Die Qualität ist auch für die Bildkomposition verantwortlich. Eine höhere Qualität würde die Rechenzeit pro Bild etwas erhöhen, aber auch das oben genannte Brillenproblem reduzieren.

Eine noch höhere Generierungsqualität und noch höhere Bildauflösungen sind ebenso schnell programmiert. Die Generierungsgeschwindigkeit pro Bild geht dann hoch auf ca. 7 bis 10 Sekunden (auf meinem Laptop, je nach Bildauflösung).

Sehr hohe Bildauflösungen erzeuge ich persönlich durch Upscaling. Upscaling bedeutet Hochrechnen der Auflösung. Dies findet ebenfalls mit einem KI-Modell statt, das selbstverständlich wieder auf meinem KI-Laptop läuft. Mit Upscaling kann eine Auflösung vervierfacht oder auch verachtfacht werden, und zwar besser, als es jedes Bildbearbeitungsprogramm der Spitzenklasse auf herkömmliche Weise hinbekommt.

Vorteile

Die Vorteile nur in Kürze:

Beliebige Flexibilität
Maximale Optimierbarkeit
Eigenes Asset statt Aufschlauen von jemand anderem
Volle Datenkontrolle
24/7 Betrieb = selbe Kosten
Möglichkeit, immer von den neuesten Technologien zu profitieren

Denkt man das ganze weiter, kommt man bei der Bildgenerierung schnell zur Urheberrechtsfrage. Diese lässt sich mit dem KI-Showcase entschärfen. Jedes generierte Bild kann automatisiert auf Urheberrechtsprobleme hin untersucht werden. Ebenso können generierte Bilder automatisch in Kontrast oder Schärfe optimiert werden. Ist die Pipeline erst einmal aufgebaut, dann kann sie beliebig automatisiert und mit anderen eigenen KI-Pipelines kombiniert werden.

Die eben genannten Optimierungen sind bei Nutzung von kommerziellen Diensten nicht möglich. Und wenn doch, durch nachträgliches Anflanschen, dann wäre das Wissen für eine eigene Lösung da. Warum dann nicht gleich eigene Lösungen nutzen, die einem niemand wegnehmen kann?

Fazit

Ergebnisse, die vor einem halben Jahr unvorstellbar waren, sind nun kinderleicht möglich.

Unternehmen, die unabhängig von Dritten sein wollen, bekommen gratis strategisch nutzbare Lösungen dazu.

Niemand muss mehr Midjourney oder DALL-E nutzen. Während Privatanwender von kostenfreien oder kostengünstigen Angeboten profitieren, die „nur“ mit Daten bezahlt werden, ist dieser Weg für Unternehmen oft nicht sinnvoll. Entweder aufgrund rechtlicher Probleme, wegen der Kosten, wegen mangelnder Optimierbarkeit oder wegen mangelnder Flexibilität. Von der immer größer werdenden Abhängigkeit ganz zu Schweigen.

Jede Woche gibt es neue Open-Source Ansätze im KI-Bereich, die besser als alles bisher Dagewesene sind.
Eigene Beobachtung der letzten 9 Monate.

Die nächsten KI-Showcases werden zeigen, dass die Tage von Google oder Microsoft/OpenAI bald gezählt sind. Deren Produktpalette lässt sich zu großen Teilen durch KI-Anwendungen ersetzen, die Unternehmen auf eigener Hardware laufen lassen können.

Dies zeigt beispielsweise das am 18. April 2024 veröffentlichte Open-Source Sprachmodell namens LLama 3. Das Modell läuft auf meinem KI-Laptop. Es beherrscht beispielsweise das logische Schlussfolgern so gut, dass man leistungsfähige Unternehmens-Anwendungen damit betreiben kann, die vor kurzem noch undenkbar waren.

Kernaussagen dieses Beitrags

Mit einem Open-Source KI-Modell kann man schnell und einfach Bilder generieren, selbst auf einem Laptop.

Unternehmen sollten optimierte KI-Lösungen einsetzen, anstatt auf Cloud Dienste angewiesen zu sein, da diese flexibler, kostengünstiger und sicherer sind.

Über diese Kernaussagen

KI-Beratung, KI-Lösungen

Umfassende Beratung (fachlich, rechtlich, technisch):

Leistungsangebot:

Erstberatung inkl. Machbarkeitsaussagen
Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

Ihre Anfrage

Oder Mail an ki@dr-dsgvo.de

Alle Bilder in diesem Beitrag wurden von einem Computer-Programm erzeugt. Verwendet wurde das selbst entwickelte KI-System von Dr. DSGVO, ähnlich zu Midjourney. Die Bilder dürfen auf Webseiten frei verwendet werden, mit der Bitte, eine Verlinkung auf diesen Blog zu setzen.

Jetzt testen

KI-Showcase: Bilder generieren – Pfeilschnell auf einem Laptop

Einleitung