Ile czasu zajęło zaprogramowanie aplikacji demonstracyjnej dla generatora obrazów AI?

Programowanie aplikacji demonstracyjnej zajęło zaledwie 5 minut. Ten krótki czas pokazuje, jak łatwo jest skonfigurować lokalną generację obrazów opartą na sztucznej inteligencji.

Ile obrazów zostało wygenerowanych w aplikacji demonstracyjnej AI?

Aplikacja demonstracyjna wygenerowała 20 obrazów jednocześnie. Ta szybka generacja obrazów demonstruje efektywność rozwiązania open-source.

Jaka rozdzielczość miały wygenerowane obrazy AI?

Wygenerowane obrazy miały rozdzielczość 1024 x 1024 pikseli. Ta rozdzielczość jest wystarczająco wysoka i umożliwia różnorodne zastosowania wygenerowanych obrazów.

Dlaczego wykorzystywanie modelu sztucznej inteligencji open source do generowania obrazów jest atrakcyjne?

Modele sztucznej inteligencji open source oferują firmom elastyczność, efektywność kosztową i bezpieczeństwo danych w porównaniu z usługami w chmurze. Umożliwiają niezależne rozwiązanie, które nie jest zależne od zewnętrznych dostawców.

Jakie korzyści płacą się za automatyczną weryfikację obrazów generowanych przez AI?

Automatyczna weryfikacja praw autorskich zmniejsza ryzyko prawne i umożliwia bezpieczne wykorzystanie wygenerowanych obrazów. Jest to kluczowa funkcja, która często brakuje w komercyjnych usługach generowania obrazów.

Jak różni się używanie modelu sztucznej inteligencji open source od korzystania z usług takich jak Midjourney czy DALL-E?

Modele open source oferują możliwość uruchamiania aplikacji AI bezpośrednio na własnym sprzęcie, co prowadzi do większej kontroli, elastyczności i potencjalnie niższych kosztów. Jest to przeciwieństwo usług w chmurze, które często tworzą zależność od zewnętrznych dostawców.

Sichere KI, digitaler Datenschutz & Website-Compliance

Ten pokaz kwalifikacji AI pokazuje, że z modelami AI open-source można osiągnąć niesamowite i szybkie wyniki przy minimalnym nakładzie pracy na przystępnej komputerze. Jedna fotografia mówi więcej niż tysiąc słów. Dlatego pierwszy pokaz kwalifikacji AI dotyczy generowania obrazów.

Wprowadzenie

Seria prezentacji AI w tym blogu Dr. RODO zaczyna się od generowania obrazów. Poniżej przedstawione zostaną następujące rzeczy:

Wysokie wyniki w krótkim czasie obliczeniowym na własnym sprzęcie
Krótki czas programowania, dzięki bardzo dobrym otwartym źródłowym frameworkom
Swoisty laptop i nie tyle komputer stacjonarny, serwer czy nawet handelowe model AI
Pełna kontrola danych (wszystko działa również bez połączenia z internetem)
Użycie otwartych źródeł modeli AI (tutaj generowanie obrazów, wkrótce w Showcase: aplikacje tekstowe, audio itp.)

Generowanie większego, jakościowo wysokiego obrazu w ciągu 1,4 sekundy na laptopie.
Programowanie trwało 5 minut.

Dlaczego laptop? Co na laptopie działa bardzo dobrze, działa jeszcze lepiej na serwerze (zwłaszcza obliczenia są tam szybsze).

Zapomnijcie swoje uprzedzenia wobec Open-Source, które mogą być uzasadnione poza AI. W kwestii AI nie ma lepszego rynku niż Open-Source. Dostępne za darmo narzędzia są niezmiernie potężne i przewyższają wszystko, co dotąd istniało.

Pokaźny Pokaz

Do wektora wprowadzonego przez użytkownika mają powstać obrazy. Wielu z nich znają to od DALL-E, Midjourney lub też ogólnie Stable Diffusion.

Generator obrazu jest programowany od zera do 100. Biegle na własnym laptopie, który został zakupiony pod koniec 2023 roku. System operacyjny laptopa: Ubuntu (wszystko bez Microsoft, Apple, Google lub Meta). Ubuntu to popularne system operacyjne oparte na Linuksie. Koszty licencyjne są szybko wymienione: zero.

Aplikacja działa całkowicie bez połączenia z Internetem, po zakończeniu wszystkich pobierań niezbędnych do uruchomienia aplikacji. Naturalnie nie jest używany żaden serwis od OpenAI, Microsoft, Google itp. Wszystko działa lokalnie.

Cel tego pokazu

Małżonek ma być pokazany, że generowanie obrazów w wysoce wysokiej jakości z dużą prędkością na własnej maszynie i zupełnie bez usług trzecich jest możliwe.

Także ma być pokazane, że programowanie w ciągu minut jest możliwe. Wcześniej takie projekty softwareowe trwały miesiące, jeśli były możliwe w ogóle. Mówię z doświadczenia ostatnich 30 lat.

Nadal Showcase ma wyjaśniać, że sprzęt poniżej poziomu "kim może sobie na to pozwolić?" może w Prędkość światła uzyskiwać wyniki.

Pełne możliwości optymalizacji wraz z przeglądem praw autorskich dla wygenerowanych zdjęć. Pełna kontrola danych Pełna niezależność.
Niektóre cechy przedstawionej rozwiązania.

Dla tego wpisu został napisany mały demo. Generuje 20 obrazów i mierzy czas generowania obrazów. Jako prompt użyto "Albert Einstein" plus jeden z czterech losowo ustalonych stylów (bez ramki, szary na biały itp.). Inne prompsy również były testowane.

Czas potrzebny na demonstrację

Całkowity czas zużyty był krótszy niż czas potrzebny na napisanie tego artykułu tutaj. Tak, ten tekst został napisany ręcznie. W przyszłym AI-Showcase pokazuje się, że aplikacja do tworzenia tekstu może być programowana i uruchamiana na własnym sprzęcie w ciągu minut. Niestety dla Microsoftu, Google'a itd., które nie będą już mogły uzyskać danych.

Czas zużywany w szczegółach:

Pobierz otwarte źródło modelu AI: kilka minut
Programowanie – Demokratyczna aplikacja: 5 minut

To był koniec. Ma się zauważyć, że model AI takiego jak ten ma kilka gigabajtów danych. Podczas zakupu sprzętu poleca się więc duże dyski twardie. Te kosztują niezbyt wiele. Jedna terabajta to 1024 gigabajty. Ten wspomniany laptop ma 1,5 terabajta dysku twardego. To wystarczy na pewien czas do eksperymentowania bez konieczności usuwania modeli AI, które nie są już potrzebne.

Wyniki

Zaprogramowana na bieżąco aplikacja demonstracyjna wygenerowała 20 zdjęć w ciągu mniej niż 29 sekund. Aby to zrobić, użyto laptopa. Jeśli była to aplikacja o takiej samej jakości na komputerze osobistym, byłoby dwa razy szybsze.

Dla każdego zdjęcia potrzebowało się około 1,45 sekundy czasu.

Każde zdjęcie ma rozdzielczość 1024 × 1024 pikseli. Ludzie, którzy nie są grafikami, wiedzą, że to jest powyżej "małego".

Tu wyniki w widoku planszowym:

Screenshot der Kachelansicht der 20 KI-generierten Bilder, wie sie ein Bildanzeigeprogramm darstellt.

Jedno z tych zdjęć w szczegółach:

Auf das Bild klicken für Ansicht in Originalgröße.

Obrazy są w większości użyteczne. Niektóre mają małe błędy, takie jak okulary, które zostały przerwane. To można naprawić, ale nie zostało to zrobione podczas demonstracji.

Prezentacja używa tylko połowy możliwej jakości do generowania. Jakość jest również odpowiedzialna za kompozycję obrazu. Wyższa jakość nieznacznie zwiększyłaby czas obliczeń na jeden obraz, ale również zmniejszyłaby wymienione powyżej problemy z blaskiem.

Wyższa jakość generacji i wyższe rozdzielczości obrazu są równie szybko programowane. Prędkość generowania jednego zdjęcia wynosi około 7-10 sekund (na moim laptopie, w zależności od rozdzielczości).

AI for your company

Your AI can do more than ChatGPT.

Benefits:

Powerful and optimizable
Full data control
Fast proof of concept
Inexpensive

Free initial consultation: Mail to ai@dr-dsgvo.de

Bardzo wysokie rozdzielczości obrazu osiągam osobiście przez Upscaling. Upscaling oznacza podwyższenie rozdzielczości. To również odbywa się przy użyciu modelu AI, który oczywiście działa na moim laptopie z systemem AI. Przez Upscaling można zwiększyć rozdzielczość czterokrotnie lub nawet ośmiokrotnie, a tym lepiej niż każde programowanie obrazu klasy najwyższej w sposób tradycyjny.

Zalety

Wady tylko w krótkiej formie:

Dowolna elastyczność
Optymalizacja maksymalna
Własny kapitał zamiast pożyczać u kogoś innego
Pełna kontrola danych
24/7 działanie = te same koszty
Możliwość zawsze korzystać z najnowszych technologii

Jeśli dalej rozważamy całą sprawę, trafia się w kwestię praw autorskich przy generowaniu obrazów. Ta kwestia może być zneutralizowana za pomocą AI-Showcase. Każde generowane zdjęcie może być automatycznie przeszukiwane na problemy dotyczące praw autorskich. Tak samo można automatycznie optymalizować generowane obrazy w zakresie kontrastu lub ostrości. Gdy już zostanie zbudowana linia produkcyjna, może być ona automatyzowana bez ograniczeń i łączona z innymi własnymi AI-pipeline'ami.

Optymalizacje wymienione wyżej nie są możliwe przy użyciu komercyjnych usług. A jeśli tak, to poprzez późniejsze przeszukanie danych, wtedy wiedza ta będzie dostępna do własnej rozwiązania. Dlaczego więc nie używać od razu własnych rozwiązań, które nikt nikomu nie ukradnie?

Wnioski

Wyniki, które przed półtora roku były niezrozumiałe, teraz są łatwe do osiągnięcia.

Przedsiębiorstwa, które chcą być niezależne od innych, otrzymują za darmo rozwiązania przydatne strategicznie.

Nikt nie musi więcej używać Midjourney lub DALL-E. Podczas gdy prywatni użytkownicy korzystają z bezpłatnych lub tanich ofert, które „tylko” płacą danymi, ten sposób jest dla firm często nieskuteczny. Albo ze względu na problemy prawne, albo z powodu kosztów, albo z powodu braku możliwości optymalizacji lub z powodu braku elastyczności. Aby milczeć o coraz większej zależności.

Co tydzień pojawiają się nowe otwarte źródła w dziedzinie AI, które są lepsze niż wszystko co dotąd istniało.
Samo obserwowanie przez ostatnie 9 miesięcy.

Następne pokazy AI będą pokazywały, że dni Google lub Microsoft/OpenAI są już policzone. Ich portfolio produktów można w dużej mierze zastąpić za pomocą aplikacji AI, które działają na własnej odsprzedaży sprzęcie.

Przykładem tego jest otwarte źródło model języka Llama 3 opublikowane 18 kwietnia 2024 roku, które działa na moim komputerze AI. Potrafi np. logiczne wnioskowanie tak dobrze, że można z niego korzystać do prowadzenia skutecznych aplikacji biznesowych, których wcześniej nie uważano za możliwe.

Alle Bilder in diesem Beitrag wurden von einem Computer-Programm erzeugt. Verwendet wurde das selbst entwickelte KI-System von Dr. DSGVO, ähnlich zu Midjourney. Die Bilder dürfen auf Webseiten frei verwendet werden, mit der Bitte, eine Verlinkung auf diesen Blog zu setzen.