Denna AI-showcase visar att med öppen källkod-baserade AI-modeller kan man med låg ansträngning på en tillgänglig dator uppnå förvånansvärt snabba och bra resultat. Ett bild säger mer än tusen ord. Därför är det första AI-showcase från området av bildgenerering.
Inledning
Serien med AI-visningar här på Dr. GDPR-bloggen börjar med bildskapande. Detta ska visas:
- Mycket bra resultat på kort tid med egen hårdvara
- Mycket kort programmeringstid, tack vare extremt bra öppen källkodsförtekniker
- Egen dator och inte ett desktopdator, en server eller till och med ett kommersiellt kognitivt artificiellt intelligensmodell
- Med fullständig datakontroll (allt fungerar även utan internetuppkoppling)
- Användning av öppen källkod för AI-modeller (här bildskapande, snart i showcase: textapplikationer, ljudapplikationer osv.)
Ett större, kvalitetsmässigt högkvalitativt bild i 1,4 sekunder på en laptop skapa.
Programmeringen för det tog 5 minuter.
Varför en dator? Vad som fungerar bra på en dator fungerar ännu bättre på en server (framför allt kör man då beräkningen snabbare).
Glöm inte era fördomar mot Open-Source, som kanske kan tyckas rättfärdiga utanför AI. Vad gäller AI finns det inget bättre marknad än Open-Source. De fria tillgängliga verktygen är extremt kraftfulla och övertrumfar allt tidigare gjort.
Showcase
Till en prompt (textingång) ska bilder skapas. Många känner till det från DALL-E, Midjourney eller också från Stable Diffusion i allmänhet.
image generatoren programeras från noll till 100. Den körs på en egen laptop som köptes i slutet av 2023. Laptopns operativsystem är Ubuntu (allt utan Microsoft, Apple, Google eller Meta). Ubuntu är ett populärt operativsystem baserat på Linux. Licenskostnaderna kan snabbt nämnas: noll.
Programmet fungerar fullt ut utan internetuppkoppling efter att alla nedladdningar för att bygga programmet är slutförda. Naturligtvis används inget service från OpenAI, Microsoft, Google etc. Allting körs lokal.
Syftet med denna utställning
Det ska visas att bildskapande kan ske i hög kvalitet med hög hastighet på egen hårdvara och helt utan tjänster från tredje part.
Likewise shall be shown that programming within minutes is possible. Previously, software projects of this kind took months, if they were even feasible at all. I speak from experience over the past 30 years.
För övrigt ska showcase tydliggöra att en hårdvara under "vem kan sig det heller?" kan producera resultat i Ljushastighet.
Fulla optimeringsmöjligheter inklusive upphovsrättskontroll för bilder som har genererats. Full kontroll med data Fullständig oavhängighet.
Vissa drag av den presenterade lösningen.
För detta inlägg har en liten demo skrivits. Den genererar 20 bilder och mäter tid för bildskapandet. Som prompt användes "Albert Einstein" plus en av fyra slumpmässigt fastställda stilar (ingenting, svartvitt osv.). Även andra prompts har provats.
Tid för demonstrationen
Tiden som tillbringats var kortare än det tog att skriva detta inlägg här. Yes, denna text har skrivits manuellt. I en framtida AI-showcase visas hur en applikation för att skapa text kan programmeras och köra på egen hårdvara i minuter. Tyvärr för Microsoft, Google med flera som då inte kommer att få några data längre.
Tidshöjden i detalj:
- Download Open-Source AI-Modell: Wenige Minuten
- Programmering Demoversion: 5 minuter
Det var allt. Det ska noteras att ett sådant AI-modell har flera gigabyte data. Vid inköp av hårdvara rekommenderas därför stora hårddiskar. Dessa hårddiskar kostar inte mycket. En terabyte är 1024 gigabyte. Den nämnda laptopen har en 1,5 terabyte hårddisk. Detta är tillräckligt för att kunna experimentera under en viss tid utan att behöva ta bort AI-modeller som inte längre behövs.
Resultat
Den snabbt programmerade demo-applikationen har genererat 20 bilder på mindre än 29 sekunder. Och det på en laptop. På en kvalitetsmässigt jämförbar dator skulle det ha gått dubbelt så fort.
För varje bild krävdes alltså cirka 1,45 sekunder i tid.
Varje bild har en upplösning på 1024 × 1024 pixlar. Även människor som inte är grafiker vet att detta ligger över "liten".
Här är resultaten i karréformat:

Ett av dessa bilder i detalj:

Bilderna är i stort sett användbara. Enstaka få har små fel, som till exempel en bräda som är avbruten. Detta kunde ha åtgärdats men inte gjordes för demo.
Demonstrationen använder dessutom bara halva möjliga kvalitet för att generera bilder. Kvaliteten är också ansvarig för bildkompositionen. En högre kvalitet skulle öka beräkningshastigheten per bild något, men även reducera det ovan nämnda glasögonproblem.
En ännu högre genereringskvalitet och ännu högre bildupplösningar kan programmeras lika snabbt. Genereringens hastighet per bild ökar då till cirka 7-10 sekunder (på mitt laptop, beroende på bildupplösning).
AI for your company
- Powerful and optimizable
- Full data control
- Fast proof of concept
- Inexpensive
Jag uppnår personligen mycket höga bildupplösningar genom uppskalning. Uppskalning innebär att öka upplösningen. Detta sker också med ett AI-modell, som naturligtvis kör på mitt AI-dator. Med uppskalning kan en upplösning fördubblas eller tredubblas, och det görs bättre än vad något bildbehandlingsprogram av toppklassen kan åstadkomma på traditionellt sätt.
Fördelar
De fördelarna i korthet:
- Omvärldslösning
- Maximum utvecklingsmöjlighet
- Eget tillgångar istället för att låna från någon annan
- Full kontroll med data
- 24/7 drift = samma kostnad
- Möjlighet att alltid dra nytta av de senaste teknologierna
Om man fortsätter att tänka på detta hela kommer man vid bildskapande snabbt till frågan om upphovsrätt. Denna kan avskaffas med hjälp av AI-showcase. Varje genererat bild kan automatiskt undersökas för upphovsrättsproblem. Likaså kan genererade bilder automatiskt optimeras i kontrast eller skärpa. När pipelinen är uppbyggd kan den automatiskt kombineras med andra egna AI-pipelines.
De optimaliseringar som nämnts tidigare är inte möjliga vid användning av kommersiella tjänster. Och om det skulle vara så, genom efterhandsförsök, då vore kunskapen för en egen lösning där. Varför då inte direkt använda egna lösningar som ingen kan ta ifrån en?
Sammandrag
Resultat som före ett halvt år var omöjliga är nu lätt att uppnå.
Företag som vill vara oberoende av tredje part får gratis strategiskt användbara lösningar till detta.
Ingen behöver längre använda sig av Midjourney eller DALL-E. Medan privatpersoner kan dra nytta av gratis- eller lågbudgetalternativ som bara betalas med data, är detta ofta inte särskilt värdefullt för företag. Antingen på grund av rättsliga problem, på grund av kostnaderna, på grund av bristande optimeringsmöjligheter eller på grund av bristande flexibilitet. Att tala om den alltmer ökande beroendet är ju inte ens värt att nämnas.
Varje vecka presenteras nya öppen källkodsbaserade tillvägagångssätt inom AI-området, som är bättre än allt som tidigare har funnits.
Egen observation under de senaste 9 månaderna.
De nästa AI-föredragen kommer att visa att dagarna för Google eller Microsoft/OpenAI snart är räknade. Deras produktsortiment kan till stora delar ersättas med AI-användningar som företag kan köra på egen hårdvara.
Detta visar till exempel det öppna källkodsmodell för språk som heter Llama 3, som publicerades den 18 april 2024. Modellen körs på min AI-dator. Den behärskar till exempel logiskt slutledande så bra att man kan driva effektiva företagsanvändningar med hjälp av det, som nyligen varit omöjligt.




My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
