Як працює Stable Diffusion — нейромережа для створення зображень з відкритим кодом

TelegramУсі статті, обговорення, новини про AI — в одному місці. Підписуйтеся на DOU | AI!

Моє знайомство з нейромережами для створення зображень почалося з DALL-E. Після заповнення анкети на сайті я отримав шаблонну відповідь про те, що тестувати їхню нейромережу — велика честь! А якщо серйозно — запит доданий до списку очікування, щоб забезпечити відповідальне використання та відмінний досвід :-)

З Midjourney було простіше — одразу затвердили безкоштовний акаунт з прив’язкою до e-mail та можливістю генерувати зображення у чат-боті з обмеженням на 25 команд.

І, нарешті, зовсім недавно (22 серпня 2022 року) вийшла у відкритий доступ Stable Diffusion — це означає, що будь-хто може встановити її на власний комп’ютер і, за наявності достатньо потужної відеокарти (бажана NVIDIA з 6+ GB), генерувати зображення за будь-якими запитами, в промислових кількостях.

До речі, ентузіасти вже створюють на гітхабі свої форки оригінальної версії, що дозволяють обходити апаратні обмеження — наприклад, ділять дані на шматки, і по черзі поміщають у відеопам’ять або адаптують під AMD Radeon і тому подібне.

1. Як це працює

Перш ніж витрачати час на налаштування локальної версії, раджу потестувати на відкритому ресурсі, раптом не сподобається. Наприклад, ось тут можна спробувати.

У ’Enter your prompt’ вводимо опис зображення, наприклад про кота в незвичних обставинах:

Commissioned artwork of a black-and-white cat sunbathing on the beach, painted todd lockwood, jeff easley, greg rutkowski, james gurney, artgerm, digital art, trending on artstation

Натискаємо кнопку ’Generate image’. Результат:

4 зображення (за дефолтом) створюються за 2-3 хвилини. На ’Advanced options’ можна зменшити кількість зображень, а також налаштувати деякі інші опції.

Іноді проскакує помилка ’This application is too busy! Try again soon.’ — ось ще один привід, щоб запустити нейромережу локально і не залежати від напливу відвідувачів на сайті. Коли я запускав її у себе, використовуючи відеокарту GeForce RTX 3080 10 ГБ, 4 зображення генерувалися менше ніж за пів хвилини.

2. Як запустити локально

Для себе я випробував різні модифікації і поки що зупинився на суміщенні цих двох:

1) Main (forked from CompVis/stable-diffusion);
2) Stable Diffusion web UI.

У вас повинні бути встановлені Python (тестував з версією Python 3.9.12) і Anaconda або Miniconda. Також потрібно завантажити та скомпонувати головну та UI гiлки stable-diffusion з гiтхаба, ваги (остання версія — sd-v1-4.ckpt => model.ckpt ~4 Gb, звідси та додаткові моделі, наприклад, GFPGANv1.3.pth для корекції обличчя.

Для зручності я зібрав усі файли в загальний архів і виклав на OneDrive.

Коротка інструкція:

1. Завантажити архів stable-diffusion_files.zip з OneDrive.

2. Розпакувати.

3. Встановити Miniconda для всіх користувачів: Miniconda3-latest-Windows-x86_64.exe (я встановив в C:\ProgramData\Miniconda3).
Під час інсталяції не ставте галочку «Register Miniconda as the system Python 3.9», якщо вона вам не потрібна.

4. Скопіювати теку stable-diffusion зі збереженням файлової структури на свій жорсткий диск (я помістив її в корінь C:\).

5. Запустити webui.cmd.

Дочекайтеся закінчення Installing pip dependencies, це може зайняти 1-2 хвилини:

Якщо все пройде вдало, після повного завантаження скрипту ви повинні побачити повідомлення про локально запущений сервер:

Running on local URL: localhost:7860

6. Закрийте консоль.

7. Скопіюйте моделі з stable-diffusion(models)\src в C:\stable-diffusion\src.

8. Знову запустіть webui.cmd.

Тепер завантаження піде швидше і в консолі мають з’явитися повідомлення про завантаження моделей:

Found GFPGAN
Found RealESRGAN

Після появи Running on local URL: localhost:7860 — залиште консоль відкритою та перейдiть за лінком у будь-якому браузері (я тестував у Chrome):

3. Як генерувати зображення

Тепер спробуємо намалювати янгола. Вводимо опис:

Angel, perfectly-centered-painting of christina hendricks, sweaty, dynamic action pose, insane, intricate, highly detailed, digital painting, artstation, concept art, smooth, sharp focus, illustration, unreal engine 5, 8k, art by artgerm and greg rutkowski and alphonse mucha

Натискаємо ’Generate’. Готово:

Наведіть курсор на зображення і виберіть його лівою кнопкою миші. Правим кліком можна зберегти зображення янгола, але її очі лякають!

Спробуємо це виправити. Натисніть кнопку ’Send to lab’. Після переходу на вкладку ’Image Lab’ виберіть ’Fix Faces’:

Натисніть ’Process’ і дочекайтеся появи покращеного зображення. Ну, ось, зовсім інша річ:

Маємо ще таку вкрай цікаву опцію створення зображення на базi іншого зображення, навіть за спрощеним контуром.

Перейдіть на вкладку ’Image-to-Image Unified’. Тут завантажено приклад контуру ландшафту. Задайте опис:

A fantasy landscape, trending on artstation.

Натисніть ’Generate’. Результат:

Пам’ятаєте такий популярний мем: намалювати сову дуже просто?

Нейромережа зробила цей жарт реальністю:

An owl perched on a branch, high-quality, Pixiv, Greg Rutkowski, ArtStation, Oil on canvas

4. Недоліки

Адикція

Колись давно читав у журналі «Всесвiт» фантастичне оповідання про книгу з нескінченними сторінками. Мова, якою вона написана, була неземною і неперекладною, але, на щастя, траплялися малюнки. Чоловік, який володів нею, потрапив у залежність — гортав та гортав cторінки, копіюючи кожне нове зображення. Він навіть хотів спалити книгу, але побоювався, що нескінченна книга і горіти буде вічно і заповнить димом всю планету. Тоді він зібрався з духом і підкинув книгу до крамниці букініста.

Так от, нескінченні малюнки від нейромережі викликають залежність, гіршу за цю ;-)

Моторошна долина

«Моторошна долина», «неприродна долина» — гіпотеза, згідно з якою людиноподібні роботи викликають відразу, якщо вони виглядають і поводяться дуже схоже на людину.

Деякі зображення, які генерує нейромережа настільки зламані і дивні, що можуть викликати неприємні почуття, схожі на ефект «моторошної долини». Приклад:

Але, як жартують деякі користувачі, той, хто дивився в дитинстві мультфільми студії «Арменфільм» не підвладний цьому страху ;-)

5. Висновок

Незважаючи на вищезгадані проблеми, у нейромереж — захопливе майбутнє та цікаве сьогодення, тож раджу ознайомитися з прикладами запитів та згенерованих зображень, представлених на цьому сайті:

Lexica.art

👍ПодобаєтьсяСподобалось9
До обраногоВ обраному4
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Update: знайшов ліпшу збірку, якість картинок значно краща і запускається без додаткових зусиль — Fooocus. Прошу ознайомитися: dou.ua/forums/topic/46346

Ось ще... Може я вже казав про це, але повторити таке не буде зайвим.
Якщо AI буде рекомендатором дій, це дасть змогу людині розвивати власний мозок.
Тобто AI як експертна система, оцінююча обставини та пропонуюча якісь рішення це наче шось таке непогане.
У випадку із генеруванням зображень — якщо спочатку надати AI перелік тих предметів які треба намалювати — у вигляді стандартизованих (або ні) контурів це трохи відфільтрує шум.
Якщо надати ще й порядок, та те, як ці предмети одне з одним повинні взаємодіяти може результат буде ще точнішим.
У такому випадку людина буде конструктором, а AI варіатором.

Cute Pen Games анонсувала гру «This Girl Does Not Exist», де «все, що ви побачите, включаючи всю графіку, всіх персонажів, історію та навіть озвучку, було створено штучним інтелектом»:
store.steampowered.com/...​This_Girl_Does_Not_Exist
youtu.be/TPZ-KsKpxPs
Для генерації потрібних зображень довелося робити кілька ітерацій в Midjourney.
Отримали негативні відгуки: людям не сподобалася не стільки сама гра, а, передусім, те, що вона розроблена штучним інтелектом. Частина побоюється, що штучний інтелект позбавить їх роботи, інші відчули від гри «мерзенні вібрації».
__________________________
Від мене: творці гри вирішили хайпанути на дешевій популярності нейромереж, а сама по собі гра — це простий пазл і не думаю що її код теж написав AI, але вийшло навпаки — тільки налякали юзверей ;-)

Можна зробити автогенеративну гру — проходження сгенерованих лабірінтів, при цьому складність проходження весь час буде нарощуватися, а необхідні складові для проходження — ключі, артефакти, будуть також генеруватися и ускладнюватися.
При цьому кожна гра буде сгенерована із випадкового number хешу тобто, якщо зберегти потім цей хеш та знову скормити його генератору лабірінту — побачимо той же самий лабірінт. Але непройдений.
І все це не буде AI це буде генеративний арт. Я їм займаюся.

Щодо гри з лабіринтами мабуть важко перевершити цей хіт — ADOM (Ancient Domains of Mystery):
en.wikipedia.org/...​ncient_Domains_of_Mystery

Ще згадав як колись у дитинстві багато порався з генераціями псевдовипадкових чисел, коли намагався втиснути в ’прокрустово ліжко’ 99 або 105 кроків програми програмованого мікрокалькулятора МК-61 (потім МК-52) ідею якоїсь гри.
Найпопулярніший був: RND * 11 + Pi (3.1415926), взяти дробову частину від результата і знову підставити замість RND.
Щоб помістився банальний ’морський бій’ доводилося викручуватися. Наприклад, коли не вистачало пам’яті для зберігання клітин поля, по яким вже велася стрілянина (8×8),- брали 8 регістрів пам’яті, перша координата X — це був номер регістра, а в ньому зберігалася координата Y — рандомне число от 1 до 8, наступний номер обчислювався: для 1-5 з додаванням 3, а для 6-8 з відніманням 5; таким чином обходили всі клітини по маршруту 1,4,7,2,5,8,3,6

Памятаю. Саме через це я й зацікавився генераторами всього. Все є буква, або звязок між двома буквами.

Ви наче можете заперечити — наприклад АBC це не буква.
Але я кажу що ABC це макрос, агрегат, значення, мета буква, об єднання і якщо йому присвоїти якусь букву (наприклад К) то вийде не АBС а просто К
Теперь візьмемо букву D та букву K і якщо поставимо їх разом то отримаємо зв язок KD
І ось таким чином можно сформувати будь які відносини. Зберігати їх, робити швидкісний пошук, порівняння, синтез, фільтрацію (цей термін мені більш подобається ніж віднімання)
Тобто мій генератор всього просто генерує всі перестановкі деякого алфавіту трохи лимітований фільтрами.

щодо розгрому військ РФ: такий шлях російського ведмедя! росіяни пишаються своїм тотемним звіром: мовляв сильний, лютий, кольору г...) тільки чомусь мовчать про “ведмежу хворобу” — це характерна поведінка переляканого ведмедя, коли звір тікає то обсирається на бігу ;-)

за допомогою нейромережі створив триптих:
i.imgur.com/4qdfNEx.jpg

Prompt: Ukrainian soldier on the foreground watches burning russian bear on the background, d & d, fantasy, bright atmosphere, volumetric lights, intricate, elegant, extremely detailed, digital painting, artstation, concept art, matte, smooth, sharp focus, hyper realistic, illustration, art by artgerm and greg rutkowski and alphonse mucha

Втім, ось інший кут зору на явище: автогенерування зображень. Це можуть бути штучні очі.
Ось так працюватимуть: на вхід пристрою подаємо якесь зображення, генеруємо щось та порівнюємо. За результатами порівняння додаємо до банку пам яті і таким чином оптімізуємо генерування у більш точний бік.
Тобто ось у цій схемі нічого не порушується: на вхід якесь досконале зображення, порівнюється десь у коробці, десь у чіпах, з якоюсь автогенерацією, і там, подалі від людських очей, подалі від людей, опрацювається пошук різниці та классіфікація відбувається.
Як бачите, у цьому випадку AI буде сам вчити себе генерувати краще за допомогою людських знань, свої генерації нікому не показуючи.
І на це я згоден. Хоча звісно так можна створити автоматичну снайперську гвинтівку, але краще мабуть розпізнавати якісь непотрібні гени болячок у геномі.
Ось такі в нас очі можут з явитися.

Ось ще знайшов аргумент проти. Навіщо створили те велике сховище насіння? А тоді вже почали експерименти із ГМО. Злякалися втрати ідеальної форми тобто природної форми тобто створеної природним відбіром і тому досконалої форми. А створили те сховище не абихто.
Чому ж вони нічого не кажуть про можливість втрати семантичної та художної форми?
Не можна отак просто брати і культивувати хаос. Рекламувати його форми. Це призведе до хаосу у душах, у свідомості, та що гірше — у підсвідомості. Це приведе вже до випадків незвичної поведінки яка буде здаватися цілком нормальною. Вікно овертона але овертона випадкового. Тут навіть не буде цільового контролю.
Ось наприклад що є релігії? Це досконалі форми для впорядкування людської поведінки.
Чим може замініти інтернет ці віками перевірені інструкції?
Інтернет це квантове множинне болото. Люди вибирають окремі кочки на них, інформаційні ділянки. У кожного один чи два рівні, три може. А могутні AI можуть легко перемішувати різні рівні. І це дуже погано. Бо це не поступово, а шоковим методом. Бам! Бах! І вилазить це людині боком аж десь потім.
Безконтрольне створювання випадкових спостережень це інформаційна «чорна смерть»
Створюючі AI та ті, хто їх спонсорують створювати, повинні чітко усвідомлювати, що вони обирають для своїх нащадків. Бо провляться ці зміни через 5-10-20 років у усій своїй красі.
Втім може потоп почнеться раніше.

Нiхто не стане забороняти нейромережi на підставі бездоказових побоювань. Цивілізацію рухають 2 могутнi сили: бабло та цiкавiсть.
Творці нейронки знайшли фінансування для її розробки — дякую їм за це, а за те, що виклали код у відкритий доступ — велика подяка!
Тепер справа за цiкавicтю — тобто за комьюнiтi. Навiть якщо раптово виявлять що цi картинки зводять з розуму або лікують рак — додадуть рядок-попередження у overview та продовжать «лупати цю скелю» ;-) Прогрес не зупинити.

Ну добре тоді. Ось від прогресу зараз лід на полюсах тане. Може ці AI знайдуть рішення як поставити дамби швидко, всюди де потрібно, як зупинити океани.

Навіщо псувати природу дамбами? Ілон Маск усіх на Марс евакуює :-)

Якщо ти вирішиш захистити екологію — у тебе вийде краще чим у мене.

Чогось спало на думку: а що, якщо картоплю вирощувати у контейнерах? Кожен кущ у своєму контейнері чи невеличкій діжці. Таке діло можна навіть на невеликій ділянці влаштувати.
P.S. Якщо картопля не викликає харчової аддикції — тут треба досліджувати.

Ще трохи поміркував. Виникло нове питання. А чого ці генеровані зображення привертають нашу увагу?
Є версія. Мозок бачить щось несуразне, щось помилкове, щось що не відповідає нормам, стандартам. накопиченому досвіду. Але, як тільки загадка зображення буде розкрита: «не пропорційне, де чотири лапи, зовсім не гелікоптер» втрачається інтерес.
Якось так.

До речі, а чи є фільтр золотої пропорції у цьому інструменті? Бо той ангел щось непропорційний.

Невпевнений що є, бо iнодi таке накручує: руки замість ніг, спотворенi обличчя та iнше. Але ж пicля того як виклали у вiдкритий доступ — ентузiасти вже UI дописали, фiльтр для виправлення обличчя, генерацiя зображення за контуром — i це лише 2 тижня пройшло, гадаю що швидко вирiшать i дотримання золотої пропорції..

Тобто люди вже хотять лімітувати свободу цього інструменту? Очікувано.
Я давно розмірковую над цими питаннями.
Лімітування та рух до ще більшого лімітування то рух до життя.
Тому рендом то погана історія. Ну ось така кнопка «random» — яка формує три числа від 0-255 і додає ці числа у кольор кожної крапки малюнку. Одні й ті самі додавання. Таким чином без втрати форми я змінюю вибір кольорів. І бачу самі різні варіанти. Я теж аддикт тепер. На використанні всіх своїх власних інструментів. У мене їх штук сорок.
Замість рендому треба виходити із досконалої форми і трохи її розмивати. Волатильності додавати. Таке не є злочин. Якщо люфт не порушує меж золотої пропорції.
А ось рендом — це погано. Його краще ні .
Тобто заборонити нафіг.

До речi, це ви здається шукали на DOU дизайнера щоб малювати зображення, якi хотiли потiм перетворювати в NFT та продавати? Можете спробувати використати для генерацiї зображень цю нейронку, але треба з’ясувати як там справи з авторськими правами на її комерцiйне використання..

Мені потрібен художник якій вже досяг комерційного успіху, і який хоче за допомогою мого софту та куплених арів та солан записати до блокчейну кілька нфт. Я отримую процент за використання мого софту та вміння програмувати, а він за своє містецтво. Зараз ар та солана на ведмежому ринку тобто дешеві. може зростуть втричі чи більше. Як етеріум перейде до пос, буду дивитися як на ньому робити нфт.
Відбирати щось випадкове дуже важко мені. Саме тому я зупинився лише на створенні візерунків які нічого нікому не говорять. Але тому і продати їх важко бо це форми малозмістовні.
Але зміст нейронко генерований мене лякає. Увіковічувати його я не хочу зовсім.
Мені потрібна людина. Машина для мене це те що зберігає людські знання, а не генерує неперевірені часом варіанти.
Фармацевти створюють ліки, але їх перевіряють і дуже довго. Хтось каже що містецтво це ліки для душі. Але чи всяке містецтво? Чого ж його не перевіряють?

Щось у цих малюнках вдале, а щось ні. Як розрізнити? Вам потрібен спостерігач. Це функція, яка знає які контури продаються, а які ні. Це може бути і статистика. Але ліпше — це повинна бути людина, бажано успішна, тобто яка у своїх виборах робить вдалі припущення.
Людину спостерігача тут можна вважати фільтром комерційного успіху. AI як гугл видає одночасно дуже багато всього. Може навіть і несумісного, що призводить до когнитивних дисонансів і гіпнотизування того, хто працює з інструментом. Але чомусь не створюють платних гіпножаб (футурама)...
Що ми маємо? Щось випадкове у якихось межах, але внутрішньо слабко пов язане.
Без цих зв язків воно токсичне. Так як тоді бути?
Малювати сову. Спочатку одне кружальце, тоді поряд інше. Тоді що там — у інструкції ? (яку до речі може зберігати саме AI)
Бачите? Є велика різниця між поступовим підбором кирпичів — атомів до якогось образу та малювання «всього і одразу».
Із крапок можна створити фігуру. Я беру різні по формі крапки — кола, квадрати, зірки. Фігура та сама — елементи різні. Мій AI зберігає та видає знання людства, не винаходячі власних взаємозв язків. Бо саме такі «винаходи» є проблемою. Як та відео касета на який щось записано таке, що дивитися її не можна.
Якійсь зміст без збереження досконалої форми — це буде руйнування фундаментів існування.
Я боюся, що саме це зараз відбувається повсюде де вже use randomiosly (all in) based AI
Руйнація досконалої форми — навіщо вам?

О! Ви навели мене на iдею — треба щоб тисячі бета-тестерів добровольців стали цим ’ідеальним спостерігачем’, хто втілюватиме усереднене почуття прекрасного. Зробити просту iгрову апку а-ля тiндер, але замiсть жiночих фоток хай показує зображення згенерованi нейромережою, а юзери будуть роздивлятися i лайкати якщо сподобається чи дiзлайкати слайсом якщо нi, а нейронка буде вчитися відповідати вподобанням людства :-)

Навіщо добровільців? Подивиться скільки зараз шутерів? Можна відстрілювати погані зображення.

Шутер як жанр — це вже ускладнення та обмеження цільової аудиторії, я наприклад бiльше RPG полюбляю i якийсь екзотичний шутер навiть не встановив би. А картинки дивляться всi — дiтлахи, домогосподарки, пенсiонери)

Змушувати робити такий вибір це як влаштувати людині жорстокий допит. Це боляче. Це спричинювати боль означає. Ті що зараз модерують — поцікавтеся які у них проблеми психологічні. А тут теж модерування.
Простіше й дешевше — виходити із дерева знаннь та ідеальних форм. Та від простого до більш складного. Тобто у кота повинні бути чотири лапи. А не чорно-білий овал замість них.
Подивиться як Conveys Life створює складні форми виходячи із простих правил.

Цю нейронку немає сенсу увіковічувати заради сенсу. Її результати споріднені з дитячим лепетом. Цінність на рівні пам’яті, як то було у дитини. Можна придумати промпт, який буде еталоном при порівнянні зрілості нейронки, накштальт тестової картинки, що використовують при порівнянні якості друку принтерів. Отий промпт та результати окремих нейронок, наче фото зростаючої людини, можна нфт-стемпіть у родинний альбом.

Щодо структури «дорослої» нейронки, здається ви праві. Потрібно дві послідовні нейронки, одна продукує структуру графічних прикладів, друга продукує селекцію відповідних результатів.

Перший компонент — композиція. Дизайн нейронки та тренировка має на меті виявляти з великої кількості прикладів образотворчі компоненти (структуру малюнку), а потім за тією структурою, за тим синтаксисом творів відтворювати результати промптів. Якість композиції можна відслідковувати за глибиною послідовності якісних структурних елементів. Наприклад глибина даної нейронки десь 3. У ланцюзі: професія -> людина -> частини тіла -> елементи частини тіла,- результат іноді збивається на третьому компоненті. Наприклад, малює кентаврів замість конюхів. Завжди збивається на четвертому компоненті — лице конюха переважно зовсім відсутнє. Якісна композиція буде десь з рівня 7-8.

Друга нейронка — селекція. Сітка побудована схоже, як перша, але структурує людське сприйняття. Її завдання — формувати агрегат людської мети. Тобто, завдання — розуміти семантику промпту, та на основі того фільтрувати результати першої нейронки. Результатом такої селекції всі малюнки будуть на рівні виконання митців. Тобто буде уможливлено створити нову комбінаторіку за межі існуючого, за межі сьогочасного колажування. Оті результати вже можна копирайтити та нфт-стампувати.

Дуже дякую, що написали інструкції по запуску в тому числі.

Будь ласка! Якщо створите щось цiкаве — подiлiться у каментах плиз.

Дякую, вже погрався з цим. Наче й прикольно, але виглядає, як іграшка, чисто заради фану. І погоджусь з тим, що можна надовго залипнути, суто із цікавості.

FYI, main вже мігрував до webui репи: github.com/...​ui/stable-diffusion-webui. І там полізло дуже багато багів. Витратив купу часу на те, щоб завести його в докері. Вони наче й додали його підтримку, але дуже криво.

Ось ця варіація мені сподобалась більше тим, що там вже готовий 1-click скріпт для деплою: github.com/...​cmdr2/stable-diffusion-ui. Працює трохи швидше. Більше сетінгів. І головне — є прогрес в консолі. Видно, скільки ще чекати. Але з мінусів — там нема таких штук, як face correction.

Було цікаво пофантазувати на тему «руського воєнного корабля». Взяв славнозвісну марку за основу, і ось що вийшло: drive.google.com/...​FeU1ggA-X-pQa?usp=sharing. Навіть машини знають, що ж трапилось з тим кораблем.

П.С. По залізу: тестував на PC з gtx 1080. Нормально пішло. Середній час обробки на дефолтних сетінгах — 25-30 сек. Але більше 512×512 резолюшен не зробиш вже, бо 8 гіг не вистачає.

Дякую, протестую вашу знахiдку! В мене теж максимальний резолюшен не тягне, десь до 700+, а потiм помилку кидає.
Доречi щодо ваг — я вказував офiцiальний лiнк: huggingface.co/...​-diffusion-v-1-4-original
sd-v1-4.ckpt на 4+ GB — це те що я приаттачив, а там ще є sd-v1-4-full-ema.ckpt — майже на 8 GB, про них писали що працює довше, але й результати можуть бути кращими, зараз вже пiдкладаю їх, але якоїcь великої рiзницi не помітив.

Клас! файнi замальовки — руський кораблик та його бавовна)) я коли здобув собi цю марку то загорiвся фiлателiєю — вже другий клясер заповнюю українськими марками, нещодавно з песиком Патроном придбав)
А на Midjourney такi теми спробував — ось що вийшло:
girl in Ukrainian national costume
i.imgur.com/SHkuvfm.png
i.imgur.com/behPFIF.png
i.imgur.com/NQdpEGe.png
i.imgur.com/8IyJ2fG.png
Crimea is Ukraine
i.imgur.com/xGWQzKL.png
i.imgur.com/Hw2ApjC.png
i.imgur.com/QoWmQjJ.png
i.imgur.com/dLAckB0.png

Щодо застосування — вже давно плекаю ідею написати таку iгрову апку: текстову RPG з покроковими бiйками на дайсах (спрощена D&D система), з крафтом та ілюстраціями; окрім браку часу мене ще стримувало невміння малювати, а якщо використовувати фрiшнi асети та зображення — це була б дика збiрна солянка рiзних стилей.. Але здається нейронка вирiшує цю проблему: безлiч зображень на задану тему з вказаним стилем малювання, i все це майже без зусиль!

До речі, її можна натренувати на мультиках і генерувати сиквели?..

на даному етапі невпевнений, що це буде просто реалізувати. вважаю що максимум — при копіткій роботі оператора, який уточнюватиме опис сцен, відбраковуватиме невдалі кадри і коригуватиме зображення, можна буде прискорити створення звичайного мультфільму.
але певні зрушення є, ось наприклад знайшов цікаві застосування:
1) комiкс
youtu.be/L-cmYtMgaBk
2) хенд-мейд дитяча книга
www.reddit.com/...​or_my_daughter_in_just_2
3) майже мультфiльм, але поки що ближче до слайд шоу
twitter.com/...​tatus/1558508866463219712

я сам мрію що колись можна буде сказати нейронцi: згенеруй серiал на 10 сезонiв за творами Роберта Говарда, про Конана-варвара, у головній ролі Арнольд Шварценеггер, спецефекти як у ’Грi престолів’ :-)
машинка поторохтить хвилин десять та й зробить, але звiсно що не завтра — може років за п’ятдесят..

Ну власне ось. 16 сезон 1 серія Сімпсони. Там не багато, але про генерування сюжетів нейронкою. Бо дуже на це схоже. Я сподіваюся що це все ж таки пародія.

Підписатись на коментарі