AI-Showcase: Generare immagini - Velocissimo come un fulmine su un laptop

Questo showcase di intelligenza artificiale mostra che con modelli di intelligenza artificiale open-source si possono ottenere risultati sorprendenti e rapidi con un minimo sforzo su un laptop accessibile. Una immagine vale più di mille parole. Ecco perché il primo showcase di intelligenza artificiale riguarda la generazione di immagini.

Introduzione

La serie di show dei sistemi di intelligenza artificiale qui nel blog del Dr. GDPR inizia con la generazione di immagini. Ecco ciò che si vuole mostrare:

Risultati molto buoni in tempo di calcolo estremamente breve su hardware proprio
Tempo di programmazione estremamente breve, grazie a framework open-source di eccellente qualità
Il mio laptop personale e non un desktop PC, un server o addirittura un modello di intelligenza artificiale commerciale
Con controllo dei dati completo (tutto funziona anche senza connessione internet)
Utilizzo di modelli AI open-source (qui generazione di immagini, presto nel showcase: applicazioni di testo, audio ecc.)

Generare un'immagine più grande e di alta qualità su un laptop in 1,4 secondi.
La programmazione ci è voluta 5 minuti.

Perché un laptop? Cosa funziona molto bene su un laptop funziona ancora meglio su un server (soprattutto la calcolazione si svolge poi anche più velocemente).

Dimenticate i vostri pregiudizi contro Open-Source, che potrebbero essere giustificati al di fuori dell'Intelligenza Artificiale. Quanto a AI, non esiste un mercato migliore di quello Open-Source. Gli strumenti disponibili gratuitamente sono estremamente potenti e mettono in ombra tutto ciò che è stato fatto finora.

Il Teatro dei Sogni

Per un prompt (inserzione di testo) dovrebbero essere generate immagini. Molti lo conoscono da DALL-E, Midjourney o anche da Stable Diffusion in generale.

Il generatore di immagini viene programmato da 0 a 100. Esegue il codice su un laptop proprio, acquistato alla fine del 2023. Sistema operativo del laptop: Ubuntu (tutto senza Microsoft, Apple, Google o Meta). Ubuntu è un sistema operativo molto popolare basato su Linux. I costi di licenza sono rapidamente detti: zero.

L'applicazione funziona completamente senza connessione internet, dopo aver completato tutti i download per la creazione dell'applicazione. Naturalmente non viene utilizzato alcun servizio di OpenAI, Microsoft, Google ecc. Tutto funziona localmente.

Obiettivo di questo showcase

Si vuole dimostrare che la generazione di immagini è possibile in alta qualità con alta velocità su hardware proprio e senza l'ausilio di servizi terzi.

Analogamente si dovrebbe dimostrare che la programmazione in pochi minuti è possibile. In passato, progetti di software di questo tipo duravano mesi, se non addirittura erano impossibili da realizzare. Sto parlando dell'esperienza degli ultimi 30 anni.

Inoltre il Showcase dovrebbe dimostrare che una hardware al di sotto di "chi se lo può permettere?" può produrre risultati in velocità della luce.

Opzioni di ottimizzazione complete, compresa la verifica dei diritti d'autore per le immagini generate. Controllo dei dati completi Indipendenza piena.
Qualche caratteristica della soluzione presentata.

Per questo articolo è stata programmata una piccola demo. Genera 20 immagini e misura il tempo per la loro creazione. Come prompt è stato utilizzato "Albert Einstein" più uno dei quattro stili scelti a caso (nessuna impostazione, impostazione nero e bianco, ecc.). Sono stati anche provati altri promemoria.

Tempo di esecuzione per la demo

Il tempo totale impiegato è stato inferiore a quello necessario per scrivere questo articolo qui. Sì, questo testo è stato scritto manualmente. In un futuro showcase di intelligenza artificiale si mostrerà che un'applicazione per la stesura del testo può essere programmata e eseguita su hardware proprio in pochi minuti. Peccato per Microsoft, Google e Co., che non riceveranno più dati.

Il tempo impiegato nel dettaglio:

Download Open-Source AI-Modell: Wenige Minuten
Esempio di applicazione per programmatori: 5 minuti

Era finito. Va notato che un modello di intelligenza artificiale come questo ha diversi gigabyte di dati. Al momento dell'acquisto del hardware si consiglia quindi grandi dischi rigidi. Questi dischi rigidi non costano molto. Un terabyte sono 1024 gigabyte. Il laptop in questione ha una 1,5 terabyte di disco rigido. È abbastanza grande per poter sperimentare per un po' senza dover cancellare nuovamente i modelli di intelligenza artificiale non più necessari.

Risultati

La demo-applicazione programmata in fretta ha prodotto 20 immagini in totale in meno di 29 secondi. E questo su un laptop. Su un desktop PC equivalente per qualità sarebbe stato il doppio veloce.

Per ogni immagine sono state quindi necessarie circa 1,45 secondi di tempo.

Ogni immagine ha una risoluzione di 1024 × 1024 pixel. Anche le persone che non sono grafici sanno che questo è al di sopra di "piccolo".

Ecco i risultati in vista a mosaico:

Screenshot der Kachelansicht der 20 KI-generierten Bilder, wie sie ein Bildanzeigeprogramm darstellt.

Un dettaglio di uno di questi immagini:

Auf das Bild klicken für Ansicht in Originalgröße.

Le immagini sono per lo più utilizzabili. Alcune poche hanno piccoli errori, come ad esempio un occhiale interrotto. Ciò si potrebbe correggere, ma non è stato fatto per la demo.

La demo utilizza inoltre solo la metà della qualità possibile per la generazione. La qualità è anche responsabile della composizione dell'immagine. Una maggiore qualità aumenterebbe leggermente il tempo di calcolo per immagine, ma ridurrebbe anche il problema dei cristalli sopra menzionato.

Una qualità di generazione ancora più alta e risoluzioni d'immagine ancora più elevate possono essere programmate altrettanto velocemente. La velocità di generazione per immagine aumenta quindi a circa 7-10 secondi (su mio laptop, a seconda della risoluzione dell'immagine).

AI for your company

Your AI can do more than ChatGPT.

Benefits:

Powerful and optimizable
Full data control
Fast proof of concept
Inexpensive

Free initial consultation: Mail to ai@dr-dsgvo.de

Ho ottenuto personalmente risoluzioni di immagini molto elevate attraverso l'upscaling. L'upscaling significa aumentare la risoluzione. Ciò avviene anche con un modello di intelligenza artificiale che, ovviamente, si trova sul mio laptop AI. Con l'upscaling una risoluzione può essere quadruplicata o addirittura ottuplicata e ciò in modo migliore di quanto possa fare qualsiasi programma di editing d'immagini di livello massimo in modo tradizionale.

Benefici

I vantaggi solo brevemente:

Qualsiasi flessibilità
Massima ottimabilità
Proprio asset invece di prendere a prestito da qualcun altro
Controllo dei dati completi
Funzionamento 24 ore su 24, 7 giorni a settimana = stesse spese
La possibilità di trarre sempre vantaggio dalle tecnologie più avanzate

Se si pensa a tutto ciò in modo più ampio, si arriva alla questione dei diritti d'autore nella generazione di immagini. Questo problema può essere risolto con il AI-Showcase. Ogni immagine generata può essere automaticamente sottoposta a un controllo per eventuali problemi di diritto d'autore. Allo stesso modo, le immagini generate possono essere automaticamente ottimizzate in termini di contrasto o nitidezza. Una volta stabilita la pipeline, essa può essere automatizzata all'infinito e combinata con altre proprie pipeline AI.

Le ottimizzazioni appena menzionate non sono possibili con l'utilizzo di servizi commerciali. E se lo fossero, attraverso un'analisi successiva, allora il sapere sarebbe disponibile per una propria soluzione. Perché quindi non utilizzare subito soluzioni proprie, che nessuno può togliere?

Conclusione

Risultati che un anno fa erano impensabili sono ora facilmente realizzabili.

Imprese che vogliono essere indipendenti da terzi ricevono gratuitamente soluzioni utili a livello strategico.

Nessuno deve più utilizzare Midjourney o DALL-E. Mentre gli utenti privati possono trarre vantaggio da offerte gratuite o a prezzi accessibili che "solo" pagano con i dati, questo percorso è spesso non sensato per le aziende a causa di problemi legali, dei costi, della mancanza di ottimizzabilità o di flessibilità. Non parlare poi dell'abitudine sempre più grande.

Ogni settimana ci sono nuovi approcci open-source nel campo dell'intelligenza artificiale che sono migliori di tutto quello che è stato fatto finora.
Osservazioni personali degli ultimi 9 mesi.

Le prossime mostre di intelligenza artificiale mostreranno che i giorni di Google o Microsoft/OpenAI sono contati. La loro gamma di prodotti può essere sostituita in gran parte da applicazioni di IA che le aziende possono eseguire su hardware proprio.

Questo è dimostrato dall'Open-Source LLM chiamato Llama 3, pubblicato il 18 aprile 2024. Il modello funziona sul mio laptop di intelligenza artificiale. Esso domina ad esempio il logico ragionamento così bene che si possono gestire applicazioni aziendali performanti, che fino a poco tempo fa erano impensabili.

Messaggi chiave

È possibile creare immagini di alta qualità rapidamente su un computer normale (laptop) usando software open-source gratuito.

È possibile generare immagini di alta qualità con un modello di intelligenza artificiale open-source in pochi secondi, anche su un laptop.

Le aziende possono ora utilizzare l'intelligenza artificiale in modo indipendente e più efficiente grazie alle soluzioni open source, superando i limiti dei servizi commerciali.

Ulteriori informazioni

Alle Bilder in diesem Beitrag wurden von einem Computer-Programm erzeugt. Verwendet wurde das selbst entwickelte KI-System von Dr. DSGVO, ähnlich zu Midjourney. Die Bilder dürfen auf Webseiten frei verwendet werden, mit der Bitte, eine Verlinkung auf diesen Blog zu setzen.