Ten pokaz kwalifikacji AI pokazuje, że z modelami AI open-source można osiągnąć niesamowite i szybkie wyniki przy minimalnym nakładzie pracy na przystępnej komputerze. Jedna fotografia mówi więcej niż tysiąc słów. Dlatego pierwszy pokaz kwalifikacji AI dotyczy generowania obrazów.
Wprowadzenie
Seria prezentacji AI w tym blogu Dr. RODO zaczyna się od generowania obrazów. Poniżej przedstawione zostaną następujące rzeczy:
- Wysokie wyniki w krótkim czasie obliczeniowym na własnym sprzęcie
- Krótki czas programowania, dzięki bardzo dobrym otwartym źródłowym frameworkom
- Swoisty laptop i nie tyle komputer stacjonarny, serwer czy nawet handelowe model AI
- Pełna kontrola danych (wszystko działa również bez połączenia z internetem)
- Użycie otwartych źródeł modeli AI (tutaj generowanie obrazów, wkrótce w Showcase: aplikacje tekstowe, audio itp.)
Generowanie większego, jakościowo wysokiego obrazu w ciągu 1,4 sekundy na laptopie.
Programowanie trwało 5 minut.
Dlaczego laptop? Co na laptopie działa bardzo dobrze, działa jeszcze lepiej na serwerze (zwłaszcza obliczenia są tam szybsze).
Zapomnijcie swoje uprzedzenia wobec Open-Source, które mogą być uzasadnione poza AI. W kwestii AI nie ma lepszego rynku niż Open-Source. Dostępne za darmo narzędzia są niezmiernie potężne i przewyższają wszystko, co dotąd istniało.
Pokaźny Pokaz
Do wektora wprowadzonego przez użytkownika mają powstać obrazy. Wielu z nich znają to od DALL-E, Midjourney lub też ogólnie Stable Diffusion.
Generator obrazu jest programowany od zera do 100. Biegle na własnym laptopie, który został zakupiony pod koniec 2023 roku. System operacyjny laptopa: Ubuntu (wszystko bez Microsoft, Apple, Google lub Meta). Ubuntu to popularne system operacyjne oparte na Linuksie. Koszty licencyjne są szybko wymienione: zero.
Aplikacja działa całkowicie bez połączenia z Internetem, po zakończeniu wszystkich pobierań niezbędnych do uruchomienia aplikacji. Naturalnie nie jest używany żaden serwis od OpenAI, Microsoft, Google itp. Wszystko działa lokalnie.
Cel tego pokazu
Małżonek ma być pokazany, że generowanie obrazów w wysoce wysokiej jakości z dużą prędkością na własnej maszynie i zupełnie bez usług trzecich jest możliwe.
Także ma być pokazane, że programowanie w ciągu minut jest możliwe. Wcześniej takie projekty softwareowe trwały miesiące, jeśli były możliwe w ogóle. Mówię z doświadczenia ostatnich 30 lat.
Nadal Showcase ma wyjaśniać, że sprzęt poniżej poziomu "kim może sobie na to pozwolić?" może w Prędkość światła uzyskiwać wyniki.
Pełne możliwości optymalizacji wraz z przeglądem praw autorskich dla wygenerowanych zdjęć. Pełna kontrola danych Pełna niezależność.
Niektóre cechy przedstawionej rozwiązania.
Dla tego wpisu został napisany mały demo. Generuje 20 obrazów i mierzy czas generowania obrazów. Jako prompt użyto "Albert Einstein" plus jeden z czterech losowo ustalonych stylów (bez ramki, szary na biały itp.). Inne prompsy również były testowane.
Czas potrzebny na demonstrację
Całkowity czas zużyty był krótszy niż czas potrzebny na napisanie tego artykułu tutaj. Tak, ten tekst został napisany ręcznie. W przyszłym AI-Showcase pokazuje się, że aplikacja do tworzenia tekstu może być programowana i uruchamiana na własnym sprzęcie w ciągu minut. Niestety dla Microsoftu, Google'a itd., które nie będą już mogły uzyskać danych.
Czas zużywany w szczegółach:
- Pobierz otwarte źródło modelu AI: kilka minut
- Programowanie – Demokratyczna aplikacja: 5 minut
To był koniec. Ma się zauważyć, że model AI takiego jak ten ma kilka gigabajtów danych. Podczas zakupu sprzętu poleca się więc duże dyski twardie. Te kosztują niezbyt wiele. Jedna terabajta to 1024 gigabajty. Ten wspomniany laptop ma 1,5 terabajta dysku twardego. To wystarczy na pewien czas do eksperymentowania bez konieczności usuwania modeli AI, które nie są już potrzebne.
Wyniki
Zaprogramowana na bieżąco aplikacja demonstracyjna wygenerowała 20 zdjęć w ciągu mniej niż 29 sekund. Aby to zrobić, użyto laptopa. Jeśli była to aplikacja o takiej samej jakości na komputerze osobistym, byłoby dwa razy szybsze.
Dla każdego zdjęcia potrzebowało się około 1,45 sekundy czasu.
Każde zdjęcie ma rozdzielczość 1024 × 1024 pikseli. Ludzie, którzy nie są grafikami, wiedzą, że to jest powyżej "małego".
Tu wyniki w widoku planszowym:

Jedno z tych zdjęć w szczegółach:

Obrazy są w większości użyteczne. Niektóre mają małe błędy, takie jak okulary, które zostały przerwane. To można naprawić, ale nie zostało to zrobione podczas demonstracji.
Prezentacja używa tylko połowy możliwej jakości do generowania. Jakość jest również odpowiedzialna za kompozycję obrazu. Wyższa jakość nieznacznie zwiększyłaby czas obliczeń na jeden obraz, ale również zmniejszyłaby wymienione powyżej problemy z blaskiem.
Wyższa jakość generacji i wyższe rozdzielczości obrazu są równie szybko programowane. Prędkość generowania jednego zdjęcia wynosi około 7-10 sekund (na moim laptopie, w zależności od rozdzielczości).
AI for your company
- Powerful and optimizable
- Full data control
- Fast proof of concept
- Inexpensive
Bardzo wysokie rozdzielczości obrazu osiągam osobiście przez Upscaling. Upscaling oznacza podwyższenie rozdzielczości. To również odbywa się przy użyciu modelu AI, który oczywiście działa na moim laptopie z systemem AI. Przez Upscaling można zwiększyć rozdzielczość czterokrotnie lub nawet ośmiokrotnie, a tym lepiej niż każde programowanie obrazu klasy najwyższej w sposób tradycyjny.
Zalety
Wady tylko w krótkiej formie:
- Dowolna elastyczność
- Optymalizacja maksymalna
- Własny kapitał zamiast pożyczać u kogoś innego
- Pełna kontrola danych
- 24/7 działanie = te same koszty
- Możliwość zawsze korzystać z najnowszych technologii
Jeśli dalej rozważamy całą sprawę, trafia się w kwestię praw autorskich przy generowaniu obrazów. Ta kwestia może być zneutralizowana za pomocą AI-Showcase. Każde generowane zdjęcie może być automatycznie przeszukiwane na problemy dotyczące praw autorskich. Tak samo można automatycznie optymalizować generowane obrazy w zakresie kontrastu lub ostrości. Gdy już zostanie zbudowana linia produkcyjna, może być ona automatyzowana bez ograniczeń i łączona z innymi własnymi AI-pipeline'ami.
Optymalizacje wymienione wyżej nie są możliwe przy użyciu komercyjnych usług. A jeśli tak, to poprzez późniejsze przeszukanie danych, wtedy wiedza ta będzie dostępna do własnej rozwiązania. Dlaczego więc nie używać od razu własnych rozwiązań, które nikt nikomu nie ukradnie?
Wnioski
Wyniki, które przed półtora roku były niezrozumiałe, teraz są łatwe do osiągnięcia.
Przedsiębiorstwa, które chcą być niezależne od innych, otrzymują za darmo rozwiązania przydatne strategicznie.
Nikt nie musi więcej używać Midjourney lub DALL-E. Podczas gdy prywatni użytkownicy korzystają z bezpłatnych lub tanich ofert, które „tylko” płacą danymi, ten sposób jest dla firm często nieskuteczny. Albo ze względu na problemy prawne, albo z powodu kosztów, albo z powodu braku możliwości optymalizacji lub z powodu braku elastyczności. Aby milczeć o coraz większej zależności.
Co tydzień pojawiają się nowe otwarte źródła w dziedzinie AI, które są lepsze niż wszystko co dotąd istniało.
Samo obserwowanie przez ostatnie 9 miesięcy.
Następne pokazy AI będą pokazywały, że dni Google lub Microsoft/OpenAI są już policzone. Ich portfolio produktów można w dużej mierze zastąpić za pomocą aplikacji AI, które działają na własnej odsprzedaży sprzęcie.
Przykładem tego jest otwarte źródło model języka Llama 3 opublikowane 18 kwietnia 2024 roku, które działa na moim komputerze AI. Potrafi np. logiczne wnioskowanie tak dobrze, że można z niego korzystać do prowadzenia skutecznych aplikacji biznesowych, których wcześniej nie uważano za możliwe.




My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
