Text-to-Image: як AI ілюструє події в Україні та що потрібно знати, щоб генерувати власний арт
Привіт! Мене звати Олексій Авілов, я працюю
Багато хто з 3D-артистів, художників чи ілюстраторів вважає, що з часом штучний інтелект їх замінить. Я дивлюсь на цю проблему з іншого боку. У ZibraAI ми розробляємо рішення для того, щоб спростити роботу гейм дизайнерів, використовуючи штучні нейронні мережі. Ми не хочемо замінити людей, а прагнемо допомогти їм, зробити найбільш часозатратні та нудні процеси швидкими.
Останні кілька років я захоплююсь генеративним артом, мистецтвом, згенерованим за допомогою штучного інтелекту.
На початку минулого року ми працювали над генерацією 3D-моделей і випробовували різні підходи, у тому числі генерацію з тексту в зображення. Це починалось більше як хобі, і якби не війна, це, мабуть, так би і залишилося захопленням.
В цьому блозі я хочу поділитись різними підходами до генерації зображень за допомогою штучного інтелекту та розповісти, як ми використали генеративне мистецтво для привернення уваги до війни в Україні.
Початок генерації зображень з тексту
Перші спроби генерації зображень з тексту почалися у середині
Generative Adversarial Network — це система з двох штучних нейронних мереж, які змагаються між собою. Одна мережа (генератор) генерує зображення за текстовими описами, а інша (дискримінатор) оцінює їх.
При тренуванні, мета генератора — обдурити дискримінатор, створивши синтезоване зображення, яке максимально схоже на реальне. Задача дискримінатора — точно відрізняти реальні зображення від синтезованих.
Ось приклад такої генерації, створеної у
Тоді це був прорив, хоча зараз, звісно, виглядає дуже погано
Згодом з’явилося кілька альтернативних алгоритмів для генерації зображень за текстовими запитами, проте помітного прогресу в якості порівняно з GANs не було. Загалом, непоганий огляд на тему генерації зображень (і не тільки) з давніх-давен і до сьогодення можна почитати ось тут на GitHub.
Наступний етап розвитку — DALL·E та CLIP
Великі зміни у сфері text-to-image відбулися лише на початку минулого року. Тоді OpenAi представили два рішення які, на мою думку, дали старт революції в генерації зображень яку ми бачимо зараз. Це нейромережі DALL·E та CLIP.
Нейронна мережа DALL·E заснована на GPT-3 — третьому поколінні алгоритму обробки природної мови від OpenAi та має архітектуру трансформера, що продовжує послідовність тексту спеціальними токенами зображень, які потім перетворюються іншою моделлю (декодером) в зображення.
Порівняно з попередніми рішеннями, DALL·E показала великий стрибок за показником якості синтезованих зображень. Особливої уваги заслуговує рівень узагальнення, властивий нейромережі. Завдяки йому DALL·E може генерувати приклади, які не бачила під час навчання (приклади, що відсутні в тренувальному датасеті).
Наприклад, ці крісла в формі авокадо, які стали візитівкою OpenAI.
CLIP зібрала менше хайпу на момент релізу, проте, як на мене, зробила суттєвіший вклад в розвиток text-to-image генерації. CLIP чудово зв’язує зображення з текстом і складається з двох енкодерів — по одному для тексту і для зображень.
На відміну від DALL·E, натреновані ваги CLIP розробники виклали у вільний доступ. Після цього у сфері text-to-image почало з’являтися багато рішень, які використовують CLIP (BigGAN+CLIP, VQGAN+CLIP, CLIP Guided Diffusion та інші).
І з того часу в цій галузі відбувається якесь божевілля.
Триває змагання між open source рішеннями від ком’юніті незалежних розробників (Disco Diffusion, Latent Diffusion, Stable Diffusion) та комерційними моделями великих (і не тільки) компаній (DALL·E 2 від OpenAI, Imagen від Google Research, Midjourney та інші). А у світі з’являється усе більше генеративного контенту.
Персонажі South Park. Згенеровано у Midjourney. Джерело — Twitter
Midjourney. Джерело
Midjourney. Джерело
Генерації в DALL·E 2:












Джерела зображень в каруселі: [1], [2], [3], [4], [5], [6], [7], [8], [9], [10], [11], [12].
Генерації в Imagen:






Джерела зображень в каруселі: [1], [2], [3], [4], [5], [6].
Генерації в Stable Diffusion:









Джерела зображень в каруселі: [1], [2], [3], [4], [5], [6], [7], [8], [9].
Тут є ще круті гіфки, зроблені в Stable Diffusion:

Попри те, що корпорації зазвичай мають доступ до більших обчислювальних потужностей, багато generative artists надають перевагу open source рішенням. Перевага таких рішень у тому, що кожен може долучитися до розробки продукту і спробувати, як він працює, а самі технології швидко еволюціонують та розвиваються.
На вибір між open source продуктами та комерційними рішеннями часто впливає і цензура. Так, наприклад, OpenAI забороняє генерувати зображення на «чутливі теми» і банить після декількох спроб це зробити. Слово «Україна» також є забороненим для текстового інпуту.
Цензура в DALL·E 2
Генерація зображень про війну в Україні
У перший тиждень повномасштабної війни наша команда вирішила використати свою експертизу, щоб допомогти зібрати кошти на відбудову міст, зруйнованих росією, та нагадати світові, що війна триває. Так з’явився проєкт Sirens Gallery, створений на основі open source моделі. На початку роботи над ним ми провели невеликий рісьорч і обрали за основу підхід, реалізований в Disco Diffusion.
На той момент у відкритому доступі була версія 4.1, зараз вже вийшла 5.6. В основі Disco Diffusion лежить класово-умовна дифузійна модель від OpenAI разом з CLIP, що з’єднує текстові запити із зображеннями (погратися з нейронкою можна тут).
Day 1 — Ghost of Kyiv
Ми дослідили параметри, доступні моделі та художні стилі. Обрали варіант, який найбільше нам сподобався, і почали генерувати картини (тут можна знайти гайд по параметрах, а тут — по стилях у Disco Diffusion). Щоб зображення були кращої якості, до пайплайну додали super-resolution. А ще — зробили зручний інтерфейс для внутрішніх потреб. Зараз все працює в телеграм-боті.
Проте насправді більше часу і сил у нашої команди забрала робота не над технологічною частиною, а над таймлайном війни. Щоб обрати найважливіші події, а потім написати до них історії довелось передивитись немало подій, фотографій. І кожен раз, кожну історію потрібно було пропустити крізь себе.
Усього є близько 2000 картин, згенерованих штучним інтелектом за текстовими описами найголовніших подій війни. 1991 картину виставили на продаж як NFT на платформах Opensea.io та Paras.id. На цей час ми вже продали частину картин загальною вартістю понад 250 000 гривень. Ці кошти ми перерахували на рахунки трьох благодійних проєктів на Dobro.ua (тут можна побачити звіт).
Нашою метою було привернути увагу світового суспільства до жахіть, які робить росія (країна-терорист) в Україні. Разом з тим ми хотіли показати хоробрість, стійкість і людяність українців та зібрати гроші для постраждалих.
Day 85 — Heroes of Azovstal hold defense of Mariupol for 85 days
Продовження розвитку технологій
Технології не стоять на місці. Деякі рішення роблять реалістичніші генерації. Після того, як ми почали займатись Sirens Gallery, вийшли і Stable Diffusion, і Imagen, і Midjourney, і DALL·E 2.
Декілька тижнів тому розробники релізнули ваги Stable Diffusion. Відтоді почало з’являтись багато рішень на їх основі. Наприклад, колаб з вже знайомим користувачам Disco Diffusion інтерфейсом, де можна додавати свої зображення для обробки, генерувати 2D та 3D анімації.
Крім того, команда Stable Diffusion створила API. На його основі вже доступні плагіни для Photoshop, GIMP та Blender. Існує також варіант для Blender з генерацією текстур і навіть для опенсорс проєкта цифрового живопису Krita. З плагінами до нього можна ознайомитися за посиланнями тут і тут.
Велику базу даних по генерації Stable Diffusion можна подивитися тут. А ось тут ще можна знайти гайд для «чайників», як завести Stable Diffusion у себе на PC.
Ми у Sirens Gallery не робили ставку на досконалість технології, навпаки, наш проєкт більше про те, чого можна досягти, маючи технології. Згенеровані штучним інтелектом картини та описи до них можна побачити у наших соцмережах Instagram та Twitter. Подивитись їх можна також на сайті проєкту Sirens Gallery.
Day 4 — Russian helicopters get destroyed in Chornobayivka
Нещодавно спільно з організацією Save Ukraine ми провели першу офлайн-виставку згенерованих нейромережею картин, які зображують історії порятунку українських дітей від війни. У наступні місяці картини покажуть на трьох континентах, після чого продадуть у Нью-Йорку. Усі отримані кошти підуть на допомогу українцям, постраждалим від російської агресії.
На що підписатись тим, хто цікавиться генеративним мистецтвом:
Twitter:
RiversHaveWings
nshepperd1
gandamu_ml
zippy731
Somnai_dreams
danielrussruss
datamosh__
Також можете підписатися на мене в Facebook, LinkedIn або Instagram.
25 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів