Скільки часу зайняло програмування демо-додатку для генератора зображень на основі штучного інтелекту?

Програмування демо-додатку потребувало лише 5 хвилин. Цей короткий час демонструє, наскільки просто встановити локальне генерацію зображень на основі штучного інтелекту.

Скільки зображень було згенеровано в демо-додатку штучного інтелекту?

Демо-застосунок згенерував 20 зображень одночасно. Ця швидка генерація зображень демонструє ефективність рішення з відкритим кодом.

Яка роздільна здатність згенерованих зображень ШІ?

Згенеровані зображення мали роздільну здатність 1024 x 1024 пікселі. Ця роздільна здатність є достатньо високою і дозволяє різноманітні застосування згенерованих зображень.

Чому використання моделей штучного інтелекту з відкритим кодом для генерації зображень є привабливим?

Відкриті моделі штучного інтелекту пропонують компаніям гнучкість, економічну ефективність та безпеку даних порівняно з хмарними послугами. Вони дозволяють створити незалежне рішення, яке не залежить від сторонніх постачальників.

Які переваги пропонує автоматизований перевірка зображень, згенерованих штучним інтелектом?

Автоматична перевірка авторських прав зменшує юридичні ризики та дозволяє безпечне використання згенерованих зображень. Це важлива функція, яка часто відсутня в комерційних сервісах генерації зображень.

Як відрізняється використання моделі штучного інтелекту з відкритим кодом від використання таких сервісів, як Midjourney або DALL-E?

Відкриті моделі пропонують можливість запускати ШІ-додатки безпосередньо на власному обладнанні, що забезпечує більший контроль, гнучкість і потенційно нижчі витрати. Це контрастує з хмарними послугами, які часто створюють залежність від зовнішніх постачальників.

AI-Шоу: Створити зображення - швидкість стріли на ноутбуці

Цей шоу програми з AI демонструє, що із відкритим джерелом моделей AI можна досягти видатних і швидких результатів навіть при мінімальному навантаженні на доступному ноутбуці. Зображення говорить більше ніж тисяча слів. Тому перший шоу програми з AI відбувається у сфері генерації зображень.

Вступ

Серія презентацій AI починається з генерації зображень у цьому блозі про ДЗПВ. Нижче наведено що буде показано:

Вражаючі результати у найкоротші часи виконання на власній апаратній базі
Вельми короткий період програмування, завдяки дуже добре розробленим відкритим джерелом framework'ів
Свій ноутбук і не зовсім десктопний комп'ютер, сервер чи навіть комерційне КІ-модель
З повною перевіркою даних (все працює навіть без інтернет-зв'язку)
Користування відкритими джерелами моделей штучного інтелекту (тут генерація зображень, згодом у демонстраційному розділі: текстові програми, аудіопрограми тощо)

Створити більший, якісний зображення за 1,4 секунди на ноутбуці.
Програмування цього зайняло 5 хвилин.

Чому комп'ютер? Що добре працює на комп'ютері, краще працює на сервері (у цьому випадку виконання розрахунків буде ще швидше).

Забувайте свої упередження щодо Open-Source, які можуть бути виправдані поза КІ. Що стосується КІ, немає кращого ринку ніж Open-Source. Вільно доступні засоби дуже потужні та перевершують усе попереднє.

Виставковий зал

Для створення зображень за допомогою текстової команди (prompt) використовують багато програм. Всі знають про DALL-E, Midjourney або навіть про Stable Diffusion загалом.

Білогenerator програмується від 0 до 100. Він працює на власному ноутбуці, який був придбаний наприкінці 2023 року. Оперативна система ноутбука: Ubuntu (всі без Microsoft, Apple, Google або Meta). Ubuntu — популярне операційне середовище на основі Linux. Відсотки ліцензування швидко згадуються: 0.

Аплікація працює цілком без інтернет-зв'язку після завершення всіх завантажень для створення програми. Відповідно, ніякі послуги від OpenAI, Microsoft, Google тощо не використовуються. Всі операції відбуваються локально.

Мета цього шоу

Надо показати, що генерація зображень можливі у високій якості зі швидкістю та власною апаратною підтримкою і зовсім без послуг третіх осіб.

Також має бути показано, що програмування протягом декількох хвилин можливе. Раніше такі проекти тривали місяці, якщо вони були здійснені взагалі. Я говорю з досвіду останніх 30 років.

Наприроджено, показовий стенд повинен продемонструвати, що обладнання нижче рівня «хто собі це міг дозволити?» може працювати зі швидкістю світла та забезпечувати результати.

Повна оптимізація можливостей, включаючи перевірку авторських прав для згенерованих зображень. Повна перевірка даних Повна незалежність.
Някі з особливостей представленої вирішення.

Для цього статті була написана невелика демонстрація програми. Вона створює 20 зображень та вимірює час створення зображень. Як Prompt використовувався «Альберт Ейнштейн» разом із однією з чотирьох випадково встановлених стилів (нія, чорно-біла тощо). Також інші Prompts були перевірені.

Час витрачений на демонстрацію

Всього витрачений час був коротшим ніж написання цього статті тут зайняло. Так, цей текст був написаний вручну. У майбутньому демонстраційному шоу AI буде показано, що застосування для створення тексту можна програмувати та виконувати на власній апаратній базі протягом декількох хвилин. Краща новина для Microsoft, Google тощо., які більше не отримуватимуть даних.

Витрат часу на деталі:

Завантажити відкритий код КІ-модель: декілька хвилин
Програмування Демо-аплікація: 5 хвилин

Дуже добре! Для цього було потрібно кілька гігабайт даних. При покупці обладнання рекомендовано великі жорсткі диски. Ці жорсткі диски не дуже дорогі. Тераобібт (1 терабайт = 1024 Гб) досить велика для експериментів протягом певного часу, без необхідності видаляти ненадійні моделі КІ. 1,5 терабайта досить добре для цього.

Результати

Демонстраційна програма, написана швидко, змогла згенерувати 20 зображень протягом всього менше 29 секунд на ноутбуці. На порівнянному за якістю десктопі це було б вдвічі швидше.

Для кожного зображення було потрібно близько 1,45 секунди часу.

Кожне зображення має роздільну здатність 1024 × 1024 пікселів. А навіть люди, які не є графічними спеціалістами, знають, що це вище за «маленьке».

Результати у вигляді плиток:

Screenshot der Kachelansicht der 20 KI-generierten Bilder, wie sie ein Bildanzeigeprogramm darstellt.

Один з цих зображень у деталі:

Auf das Bild klicken für Ansicht in Originalgröße.

Фотографії майже цілком використовуються. Незначна частина має невеликі помилки, наприклад, перервана окуляр. Це можна було виправити, але для демонстрації цього зроблено не було.

Демо використовує лише половину можливої якості для генерації. Якість також відповідає за композицію зображень. Higher quality would slightly increase processing time per image, but also reduce the above-mentioned problem with glasses.

Навіть вищу якість генерації та ще вищі роздільні здатності можна швидко програмувати. Швидкість генерації на одне зображення зростає до близько 7-10 секунд (на моїй ноутбук, залежно від роздільної здатності).

AI for your company

Your AI can do more than ChatGPT.

Benefits:

Powerful and optimizable
Full data control
Fast proof of concept
Inexpensive

Free initial consultation: Mail to ai@dr-dsgvo.de

Вельми високі роздільні здатності я створюю особисто шляхом збільшення розміру зображень. Збільшення розміру означає підвищення роздільної здатності. Це відбувається також за допомогою моделі штучного інтелекту, яка, звичайно ж, знову працює на моїй ноутбуці зі штучним інтелектом. За допомогою збільшення розміру можна збільшити роздільну здатність вчетверо або навіть у вісім разів, і краще, ніж будь-яке програмне забезпечення обробки зображень вищого класу робить це звичайним шляхом.

Переваги

Переваги лише за короткий час:

Наявність будь-якої flexibility
Максимальна оптимізаційність
Власний актив замість отримання від когось іншого
Повна перевірка даних
24/7 Робота = ті ж витрати
Можливість завжди користуватися останніми технологіями

Якщо розглядати все ще далі, то при генерації зображень швидко потрапляє до питання авторського права. Це можна усунути за допомогою демонстраційного шоу КІ. кожне згенероване зображення може бути автоматизовано перевірено на проблеми із авторським правом. Так само згенеровані зображення можуть бути автоматично оптимізовані щодо контрастності чи чіткості. Коли вже створена потік даних, вона може бути автоматизовано змінена та поєднана з іншими власними КІ-потоками.

Вимоги, які згадані вище, не можуть бути виконані при використанні комерційних послуг. І навіть якщо це можливо, шляхом додаткового вивчення матеріалу, тоді знання для власної реалізації вже будуть наявні. Чому тоді не використовувати власні рішення, яким ніхто нічого не завадить?

Висновок

Результати, які півроку раніше були непомірними, тепер легко досягні.

Підприємства, які хочуть бути незалежними від інших, отримують безкоштовно стратегічно корисні рішення.

Ніхто не повинен більше використовувати Midjourney чи DALL-E. Хоча приватні користувачі можуть скористатися безкоштовними або дешевими пропозиціями, які «лише» сплачують дані, цей шлях для підприємств часто не є ефективним. Either через юридичні проблеми, через витрати, через відсутність можливості оптимізувати чи через відсутність гнучкості. Від зростаючої залежності взагалі мовчати.

Кожна неділя виникають нові відкриті джерела в галузі штучного інтелекту, які краще всього раніше існуючого.
Свої спостереження за останні 9 місяців.

Наступні виставки з застосуванням штучного інтелекту будуть показувати, що часи Google або Microsoft/OpenAI вже майже закінчуються. Їхній продукт можна частково замінити застосунками штучного інтелекту, які працюють на власному обладнанні підприємств.

Наприклад, це відкритий джерело мовний модель Llama 3, який був опублікований 18 квітня 2024 року та працює на моїй комп'ютері з інтелектуальною технікою. Він володіє логічним висновком, такий що можна виконувати ефективні бізнес-аплікації, які раніше вважалися неможливими.

Alle Bilder in diesem Beitrag wurden von einem Computer-Programm erzeugt. Verwendet wurde das selbst entwickelte KI-System von Dr. DSGVO, ähnlich zu Midjourney. Die Bilder dürfen auf Webseiten frei verwendet werden, mit der Bitte, eine Verlinkung auf diesen Blog zu setzen.