Dieser KI-Showcase zeigt, dass mit Open-Source KI-Modellen mit geringstem Aufwand auf einem erschwinglichen Laptop erstaunliche und schnelle Ergebnisse erzielt werden können. Ein Bild sagt mehr als tausend Worte. Nur deshalb kommt der erste KI-Showcase aus dem Bereich der Bildgenerierung.
Einleitung
Die Reihe der KI-Showcases hier im Dr. DSGVO Blog beginnt mit der Bildgenerierung. Folgendes soll gezeigt werden:
- Sehr gute Ergebnisse in kürzester Rechenzeit auf eigener Hardware
- Sehr kurze Programmierzeit, dank extrem guter Open-Source Frameworks
- Eigener Laptop und nicht etwa ein Desktop PC, ein Server oder gar ein kommerzielles KI-Modell
- Voller Datenkontrolle (alles funktioniert auch ohne Internetanbindung)
- Nutzung von Open-Source KI-Modellen (hier Bildgenerierung, demnächst im Showcase: Textanwendungen, Audio-Anwendungen usw.)
Ein größeres, qualitativ hochwertiges Bild in 1,4 Sekunden auf einem Laptop generieren.
Die Programmierung dafür dauerte 5 Minuten.
Warum ein Laptop? Was auf einem Laptop sehr gut funktioniert, funktioniert auf einem Server noch besser (vor allem läuft die Berechnung dann noch schneller).
Vergessen Sie Ihre Vorurteile gegenüber Open-Source, die außerhalb von KI gerechtfertigt sein mögen. Was KI angeht, gibt es keinen besseren Markt als Open-Source. Die frei verfügbaren Hilfsmittel sind extrem mächtig und stellen alles bisher Dagewesene in den Schatten.
Der Showcase
Zu einem Prompt (=Texteingabe) sollen Bilder generiert werden. Viele kennen das von DALL-E, Midjourney oder auch von Stable Diffusion allgemein.
Der Bildgenerator wird von null auf 100 programmiert. Er läuft auf einem eigenen Laptop, der Ende 2023 gekauft wurde. Betriebssystem des Laptops: Ubuntu (alles ohne Microsoft, Apple, Google oder Meta). Ubuntu ist ein populäres Betriebssystem auf Linux-Basis. Die Lizenzkosten sind schnell genannt: null.
Die Anwendung läuft völlig ohne Internetanbindung, nachdem alle Downloads für das Errichten der Anwendung abgeschlossen sind. Selbstverständlich wird kein Dienst von OpenAI, Microsoft, Google usw. verwendet. Alles läuft lokal.
Ziel dieses Showcases
Es soll gezeigt werden, dass Bildgenerierung in hoher Qualität mit hoher Geschwindigkeit auf eigener Hardware und ganz ohne Dienste Dritter möglich ist.
Ebenso soll gezeigt werden, dass die Programmierung innerhalb von Minuten möglich ist. Früher dauerten Software-Projekte dieser Art Monate, wenn sie überhaupt machbar waren. Ich spreche aus der Erfahrung der letzten 30 Jahre.
Weiterhin soll der Showcase verdeutlichen, dass eine Hardware unterhalb von „wer kann sich das denn leisten?“ in Lichtgeschwindigkeit Ergebnisse produzieren kann.
Volle Optimierungsmöglichkeiten inklusive Urheberrechtsprüfung für generierte Bilder.
Einige Merkmale der vorgestellten Lösung.
Volle Datenkontrolle
Volle Unabhängigkeit.
Für diesen Beitrag wurde eine kleine Demo programmiert. Sie generiert 20 Bilder und misst die Zeit für die Bilderstellung. Als Prompt wurde „Albert Einstein“ plus einer von vier willkürlich festgelegten Stilen (keine Vorgabe, Vorgabe schwarz weiß, usw.) verwendet. Auch andere Prompts wurden probiert.
Zeitaufwand für die Demo
Der Zeitaufwand insgesamt war kürzer als das Schreiben dieses Artikels hier gedauert hat. Ja, dieser Text wurde manuell geschrieben. In einem zukünftigen KI-Showcase wird gezeigt, dass eine Anwendung für das Texterstellen in Minuten programmiert und auf eigener Hardware ausgeführt werden kann. Schade für Microsoft, Google und Co., die dann keine Daten mehr bekommen.
Der Zeitaufwand im Detail:
- Download Open-Source KI-Modell: Wenige Minuten
- Programmieren Demo-Anwendung: 5 Minuten
Das war’s. Es sei angemerkt, dass ein KI-Modell wie dieses mehrere Gigabyte an Daten hat. Beim Hardware-Kauf empfehlen sich also große Festplatten. Diese Festplatten kostet nicht viel. Ein Terabyte sind 1024 Gigabyte. Der besagte Laptop hat eine 1,5 Terabyte Festplatte. Das ist groß genug, um einige Zeit lang experimentieren zu können, ohne nicht mehr benötigt KI-Modelle wieder löschen zu müssen.
Ergebnisse
Die auf die Schnelle programmierte Demo-Anwendung hat 20 Bilder in insgesamt unter 29 Sekunden generiert. Und zwar auf einem Laptop. Auf einem qualitativ vergleichbaren Desktop-PC wäre es doppelt so schnell gegangen.
Für jedes Bild wurden also ca. 1,45 Sekunden an Zeit benötigt.
Jedes Bild hat eine Auflösung von 1024 × 1024 Pixel. Auch Menschen, die keine Grafiker sind, wissen, dass dies oberhalb von „klein“ ist.
Hier die Ergebnisse in Kachelansicht:

Eines dieser Bilder im Detail:

Die Bilder sind größtenteils verwendbar. Einige wenige haben kleine Fehler, wie etwa eine Brille, die unterbrochen ist. Das ließe sich beheben, wurde aber für die Demo nicht gemacht.
Die Demo verwendet zudem nur die halbe mögliche Qualität für die Generierung. Die Qualität ist auch für die Bildkomposition verantwortlich. Eine höhere Qualität würde die Rechenzeit pro Bild etwas erhöhen, aber auch das oben genannte Brillenproblem reduzieren.
Eine noch höhere Generierungsqualität und noch höhere Bildauflösungen sind ebenso schnell programmiert. Die Generierungsgeschwindigkeit pro Bild geht dann hoch auf ca. 7 bis 10 Sekunden (auf meinem Laptop, je nach Bildauflösung).
Sehr hohe Bildauflösungen erzeuge ich persönlich durch Upscaling. Upscaling bedeutet Hochrechnen der Auflösung. Dies findet ebenfalls mit einem KI-Modell statt, das selbstverständlich wieder auf meinem KI-Laptop läuft. Mit Upscaling kann eine Auflösung vervierfacht oder auch verachtfacht werden, und zwar besser, als es jedes Bildbearbeitungsprogramm der Spitzenklasse auf herkömmliche Weise hinbekommt.
Vorteile
Die Vorteile nur in Kürze:
- Beliebige Flexibilität
- Maximale Optimierbarkeit
- Eigenes Asset statt Aufschlauen von jemand anderem
- Volle Datenkontrolle
- 24/7 Betrieb = selbe Kosten
- Möglichkeit, immer von den neuesten Technologien zu profitieren
Denkt man das ganze weiter, kommt man bei der Bildgenerierung schnell zur Urheberrechtsfrage. Diese lässt sich mit dem KI-Showcase entschärfen. Jedes generierte Bild kann automatisiert auf Urheberrechtsprobleme hin untersucht werden. Ebenso können generierte Bilder automatisch in Kontrast oder Schärfe optimiert werden. Ist die Pipeline erst einmal aufgebaut, dann kann sie beliebig automatisiert und mit anderen eigenen KI-Pipelines kombiniert werden.
Die eben genannten Optimierungen sind bei Nutzung von kommerziellen Diensten nicht möglich. Und wenn doch, durch nachträgliches Anflanschen, dann wäre das Wissen für eine eigene Lösung da. Warum dann nicht gleich eigene Lösungen nutzen, die einem niemand wegnehmen kann?
Fazit
Ergebnisse, die vor einem halben Jahr unvorstellbar waren, sind nun kinderleicht möglich.
Unternehmen, die unabhängig von Dritten sein wollen, bekommen gratis strategisch nutzbare Lösungen dazu.
Niemand muss mehr Midjourney oder DALL-E nutzen. Während Privatanwender von kostenfreien oder kostengünstigen Angeboten profitieren, die „nur“ mit Daten bezahlt werden, ist dieser Weg für Unternehmen oft nicht sinnvoll. Entweder aufgrund rechtlicher Probleme, wegen der Kosten, wegen mangelnder Optimierbarkeit oder wegen mangelnder Flexibilität. Von der immer größer werdenden Abhängigkeit ganz zu Schweigen.
Jede Woche gibt es neue Open-Source Ansätze im KI-Bereich, die besser als alles bisher Dagewesene sind.
Eigene Beobachtung der letzten 9 Monate.
Die nächsten KI-Showcases werden zeigen, dass die Tage von Google oder Microsoft/OpenAI bald gezählt sind. Deren Produktpalette lässt sich zu großen Teilen durch KI-Anwendungen ersetzen, die Unternehmen auf eigener Hardware laufen lassen können.
Dies zeigt beispielsweise das am 18. April 2024 veröffentlichte Open-Source Sprachmodell namens LLama 3. Das Modell läuft auf meinem KI-Laptop. Es beherrscht beispielsweise das logische Schlussfolgern so gut, dass man leistungsfähige Unternehmens-Anwendungen damit betreiben kann, die vor kurzem noch undenkbar waren.
Kernaussagen dieses Beitrags
Mit einem Open-Source KI-Modell kann man schnell und einfach Bilder generieren, selbst auf einem Laptop.
Unternehmen sollten optimierte KI-Lösungen einsetzen, anstatt auf Cloud Dienste angewiesen zu sein, da diese flexibler, kostengünstiger und sicherer sind.
KI-Beratung, KI-Lösungen
Leistungsangebot:
- Erstberatung inkl. Machbarkeitsaussagen
- Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
- KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server


gekennzeichnet.


Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die 