Порівнюємо графічні ШІ: плюси, мінуси та особливості Adobe Firefly, Midjourney, BlueWillow, Leonardo AI, Lexica

Усі статті, обговорення, новини про AI — в одному місці. Підписуйтеся на DOU | AI!

Усім привіт, з вами Оля — UI/UX дизайнерка з досвідом у сфері пікселей понад 9 років. У вільний час тестую деякі AI-продукти, слідкую за їх стрімким розвитком та змінами, ділюсь отриманими знаннями і враженнями.

Про графічні нейронні мережі вже багато хто чув, хтось наважився спробувати їх, хтось ще ні. В цій статті пропоную розібратися з перевагами та недоліками деяких з них. Розглянемо 5 графічних ШІ — Adobe Firefly, Midjourney, BlueWillow, Leonardo AI, Lexica, подивимось на результати генерацій, а в кінці порівняємо ці нейронки за допомогою однакових промптів.

Adobe Firefly

▶️ Офіційний сайт
🖼️ Галерея
💰 Вартість: безкоштовно (beta версія)
🅰️ Мова: англійська
🖐️Створено/ започатковано: Adobe, Headquartered in San Jose, California.

Компанія Adobe, що майже 40 років (!) на ринку диджитал-продуктів вирішила не відставати від трендів і запустила новий продукт Adobe Firefly, що використовує нейронки для генерації зображень та створення візуальних ефектів за формою (шейпу) тексту.

Зараз доступна безкоштовна тестова версія (beta). Щоб почати використовувати Adobe Firefly потрібно зареєструватися, подати заявку і дочекатися інвайту.

В інтерфейсі присутній швидкий вибір стилів і технік, їх багато і це круто, але прев’ю стилів дуже схожі і складно орієнтуватись за ними. Мікс різних опцій дозволяє швидко отримувати різноманіття в зображеннях.

На цей момент не генерує зображення з відомими людьми чи персонажами, часто при використанні імені та прізвища в промпті система пише, що «слово заборонене і вимкнено для генерації», причому яке саме слово, Firefly не вказує/ не підсвічує. В список заборонених також потрапляють слова по типу «ворог», «війна».

Щодо відмови генерувати відомі персони: причиною такого рішення, мабуть, стали нещодавні скандали і фейкові генерації зображень з публічними і посадовими особами в конкуруючих продуктах. Firefly дуже обережно підходить до подібних ситуацій і, схоже, що робить все, щоб уникнути конфліктів і судових позовів.

На кожну згенеровану роботу додається watermark (логотип) і текст, що зображення не для комерційного використання.

➕ Плюси:

  1. Висока якість зображень.
  2. Інтерфейс з налаштуваннями, де можна швидко вибрати стилі, основні кольори, освітлення, композицію.
  3. Швидка генерація (8-15 секунд).
  4. Добре генерує тварин у різних стилях.
  5. Генерація зображень одразу в акаунті (в вебі).
  6. Ком’юніті на сайті та в дискорді, можна запропонувати ідеї та фічі.
  7. Є функція використати згенероване зображення як референс «Use as reference image», це дозволяє створювати схожі зображення і редагувати їх промптом (зараз працює не дуже, але все залежить від запиту і зображення).

➖ Мінуси:

  1. Проблеми з анатомією людей.
  2. Не має історії генерацій/ власної галереї.
  3. Іноді не включає у запит якісь слова, які вважає забороненими.
  4. Рідко, але трапляються баги (але це бета — і це ок).
  5. Додає вотермарк на всі роботи.
  6. Погано розуміється на правильному використанні слів, цифрах, символах і зображеннях.
  7. Функціонал Composition ще не працює досконало (іноді здається, що ця функція взагалі ігнорується).

👩‍💻 Враження: за гарними тваринками та різноманітними артстилями — точно сюди.

Нижче наводжу декілька зображень, які я згенерувала в Adobe Firefly.

Midjourney

🔗 Офіційний сайт
🖼️ Галерея
📖 Документація та підказки
💰Вартість: платно (від $10/міс, $30, $60 і т.д.)
🅰️Мова: англійська
🖐️Створено/ започатковано: San Francisco, California. David Holz — CTO & co-founder of Leap Motion, founder and CEO of Midjourney.

На цей момент Midjourney — одна з найпотужніших нейромереж для генерації зображень за допомогою текстового запиту. Створює зображення високої деталізації в будь-яких стилях, дуже якісні і креативні підходи.

Є функціонал «негативних» підказок, тобто зменшення/ видалення/ заборона на малювання якихось об’єктів. Є можливість обирати моделі генерації — старіші чи новіші (v4, v5, v5.1 та ін.) або спеціальні, такі як Niji для ілюстративного стилю.

Також є команди для зміни пропорцій зображення, сили стилізації, якості, розділення та змішування промптів, а також багато іншого. Все це добре описано в документації з прикладами (вище є посилання).

На жаль, з квітня 2023 Midjourney став платним для використання, до того моменту кожен мав можливість безкоштовно трохи спробувати потужності системи.

Для роботи в Midjourney необхідно мати акаунт в Discord (платформа для спілкування з розширеним функціоналом, близько 350 млн юзерів). Навіщо? Саме через дискорд відбувається генерація зображень. В дискорді ви пишете запит і бот (система) буде надсилати відповіді та результати.

Як почати роботу з Midjourney:

  1. Зайти на офіційний сайт, тицьнути «Join Beta» (Приєднатись до бета-тестування) та зареєструватись.
  2. Отримати інвайт в канал міджорней в дискорді. Після прийняття запрошення ви будете додані до сервера/ ком’юніті міджорней і будете бачити правила користування, підказки, деякі роботи інших учасників та інше.
  3. Оскільки використання Midjourney на цей момент платне, то треба купити підписку. Це можна зробити в особистому кабінеті. Також деталі щомісячної і річної підписки, інструкції можна подивитись тут.
  4. Після оплати підписка активується досить швидко, синхронізація сайту і дискорду відбувається автоматично і миттєво. Ви отримаєте інформацію від бота щодо активації підписки в особистих повідомленнях в дискорді.
  5. Тепер можна генерувати зображення, як в каналах з іншими учасниками, так і в особистих повідомленнях з ботом. Це дуже зручно, бо в каналі стрічка з повідомленнями іноді дуже активна і можна з легкістю загубити свої запити і результати. Роботи згенеровані в особистих повідомленнях бачите тільки ви, але ці роботи ж можуть відображатись в галереї ком’юніті. В найдорожчому плані доступний функціонал «генерації скритого режиму» (Stealth image generation), в такому випадку згенеровані зображення теоретично не будуть взагалі ніде відображатись.
  6. Щоб подивитись скільки доступно/ залишилось/ використано годин-генерацій, необхідно в чат написати команду /info.
  7. Щоб згенерувати зображення в чаті напишіть команду /imagine prompt: (означає «уяви, підказка») а потім додайте те, що хотіли б бачити на зображенні, відправте в чат цю команду і через деякий час (від декількох секунд до хвилин) у чаті з’явиться результат згідно з вашим запитом (промптом).
  8. Midjourney генерує 4 варіанти зображення на 1 запит одразу. Після генерації зображень під ним з’являються кнопки U1, U2, U3, U4 та V1, V2, V3, V4. Літера U позначає Upscale — збільшити масштаб та якість, літера V позначає Version — версія, кожна цифра — це номер згенерованого зображення. Якщо вам припала до душі версія 2, то ви можете натиснути U2 і саме для цього зображення алгоритм згенерує майже таке ж саме зображення, але трохи більшого розміру і з покращеною деталізацією. Якщо вам сподобалась одна з чотирьох ідей (наприклад, зображення #3), але деталі не влаштовують, то натискаємо V3 і Midjourney згенерує ще чотири схожі зображення.
  9. До промпту можна додавати різні налаштування та параметри. Наприклад, співвідношення сторін (aspect ratio) можна задати за допомогою параметру - -ar 16:9. Вибрати версію або модель Midjourney можна за допомогою параметру - -v 5, або - -v 4. Більше деталей можна знайти тут.
  10. Всі зображення зберігаються в галереї особистого кабінету, вона доступна саме на сайті (не в дискорді).

➕ Плюси:

  1. Найкреативніший ШІ, найбагатша уява.
  2. Можливість генерувати декілька зображень одночасно.
  3. Підтримка величезної кількості стилів та матеріалів, реалістичні та деталізовані зображення.
  4. Непогане розуміння метафор.
  5. Функція покращення та збільшення зображення (upscale).
  6. Миттєва синхронізація акаунта в вебі і акаунта в дискорді.
  7. В акаунті є галерея згенерованих зображень зі збереженням використаних промптів.
  8. Доступна детальна документація, що постійно оновлюється.

➖ Мінуси:

  1. Іноді трапляються проблеми з анатомією людей і тварин (частіше всього з пальцями, руками, рідше ногами та очима). Іноді неможливо підказками (промптами) пофіксити ці проблеми.
  1. Ще не розуміється на правильному використанні слів, цифрах, символах у зображеннях.
  2. Довго генерує зображення навіть на платному акаунті в режимі fast generation (40 сек — декілька хвилин).
  3. Немає пробної (trial) версії.
  4. Робота в дискорді (для когось може бути не дуже зручно).

👩‍💻 Враження: крутий сервіс, багато можливостей, високий рівень якості зображень, рекомендую. ✨

Нижче додаю декілька зображень, які я згенерувала в Midjourney.

BlueWillow

🔗 Офіційний сайт
🖼️ Галерея
📖 «Словник» зі стилями і промптами
💰Вартість: безкоштовно, але є вдосконалена нова модель за підписку, стартує від символічних $3, далі $5-10-20.
📖 Мови: пише, що підтримує 11 мов (англійська, французька, німецька, португальська, іспанська, італійська, російська, китайська, індійська, корейська, філіппінська). Промпти приймає будь-якою з цих мов, навіть українською, але за результатами видно, що часто нічого не розуміє, або одне слово вихопить і щось від нього згенерує. Найліпше працює з англійською.
🖐️Створено/ започатковано: Headquartered in San Francisco, California.

BlueWillow — безкоштовна нейронка для генерації зображень за допомогою текстового запиту. Підтримує різні стилі, досить швидко видає результати. Для роботи в BlueWillow необхідно мати акаунт в Discord, там відбувається генерація зображень в спільних каналах (канали з назвою «rookie»).

Рівень якості зображень трохи нижче, ніж, наприклад, у Midjourney (v4 та v5), але є «але». Всі безкоштовні генерації виконуються з навченою моделлю V3, нова модель V4 значно краще, але доступна за платною підпискою.

Якщо BlueWillow будуть продовжувати навчати та розвивати, то цей продукт може стати сильним конкурентом в майбутньому.

➕ Плюси:

  1. Швидка генерація зображень (10-30 секунд).
  2. Можливість генерувати декілька зображень одночасно.
  3. Безкоштовно можна використовувати безліч генерацій, але з моделлю v3.
  4. Підтримка різних стилів.

➖ Мінуси:

  1. Не вистачає різноманіття та креативності.
  2. Є проблеми з анатомією людей і тварин.
  3. Погано розуміється на правильному використанні слів, цифрах, символах у зображеннях.
  4. Часом буває, що неправильно розуміє підказки і просто малює людей.
  5. Бувають проблеми з композицією.
  6. Через те, що використовуються спільні канали, стрічка генерацій від усіх користувачів весь час оновлюється і дуже швидко губляться свої згенеровані зображення (одне з тимчасових швидких рішень — можна використовувати вбудований в дискорд пошук по своєму ж промпту).
  7. Робота в дискорді (для когось може бути не дуже зручно).

👩‍💻 Враження: непоганий сервіс, безкоштовний, можна спробувати, очікуємо на розвиток 👌

Нижче додаю зображення, згенеровані особисто в BlueWillow.

Leonardo AI

🔗 Офіційний сайт
🖼️ Галерея (доступно в особистому кабінеті після отримання інвайту)
💰Вартість: безкоштовний та платні тарифи (від $10/міс)
🅰️Мова: англійська
🖐️Створено/ започатковано: Sydney, Australia. JJ Fiasson — Founder Leonardo.Ai.

Познайомлю вас з моїм улюбленцем — це графічна нейронка Leonardo AI. Використовує алгоритми Stable Diffusion. Leonardo Ai пропонує бібліотеку різних моделей генерацій (Finetuned Models), які навчені і налаштовані таким чином, що можуть по різному працювати під певний тип запитів, наприклад: реалізм, артстиль, піксельний арт, портрети персонажів, милі гейм-персонажі, ізометричні зображення тощо.

Досить насичений інтерфейс з різноманітним функціоналом, з яким на початку треба буде трохи розібратись, але далі — швидкий у використанні. Є динамічний лічильник, що рахує скільки генерацій (токенів) доступно/ буде використано. Можна вибирати розмір зображення, редагувати значення точності або відхилення від промпту, стиль та інше. Можливість додавати негативні промпти в окремому текстовому полі.

Працює у вебі. Щоб почати користуватись, необхідно подати заявку і дочекатись запрошення. Безкоштовно доступно кожного дня: до 150 швидких генерацій (fast generations), до 30 покращень/ збільшень згенерованих зображень (upscalers/ unzooms) та до 75 видалень фонів, а далі — підписка.

Є чати та групи в дискорді, в яких пишуть про оновлення, обговорення різних питань, діляться результатами.

Краще працює з обличчями, тваринами, інтер’єрами, але поки що не дуже з архітектурою та пейзажами (вони часто з «шумами» або розмиті (заблюрені)), хоча все залежить від промптів і обраної моделі. Пейзажі іноді були схожі на низькоякісні колажі.

Не завжди зрозуміла логіка генерації зображень: іноді неймовірно чіткий та деталізований якісний результат, а іноді — щось дуже неякісне, розмите та з візуальними помилками незалежно від обраних підказок (промптів) та моделі. Інколи є враження, що використовується одна модель обличчя або тварини, тобто не має різноманіття, — це інколи плюс, але може бути й мінусом.

Ще один цікавий функціонал: можна завантажити будь-яке зображення і промптом його редагувати, є регулювання «сили зміни» (Init Strength) оригінального зображення. Результати цієї фічі можуть виходити досить різноманітними, але поки що часто трапляються на зображеннях якісь «аномалії».

Нюанси з логіном
Ситуація: заявка на користування сервісом (Early Access) подається, додавши пошту (без створення пароля), при отриманні емейла-інвайта надається посилання для входу в Leonardo AI. Далі система вимагає емейл + пароль, але форма для сетапу пароля не пропонується, при запиті на ресет пароля система не присилає емейли. Але дозволяє залогінитися, використовуючи гугл-акаунт (знову ж таки, без пароля). В налаштуваннях акаунту наразі взагалі немає функціоналу оновити пароль. Можливо, ця проблема буде вирішена вже на момент публікації статті.

➕ Плюси:

  1. Генерує швидко (до 10 секунд).
  2. Бібліотека різних моделей для генерацій (+ можна подивитись роботи для кожної моделі).
  3. Висока якість зображень.
  4. Історія генерацій зі збереженням усіх налаштувань та промптів.
  5. Можливість швидко копіювати промпти.
  6. Можливість обрати кількість зображень для генерації (від 1 до 8).
  7. Інтерфейсний підхід.
  8. Працює у вебі.

➖ Мінуси:

  1. Іноді з невідомих причин генерує зображення дуже низької якості (пікселізоване або розмите).
  2. Є проблеми з анатомією, іноді з обличчями. Майже завжди зайві кінцівки у тварин, проблеми з зіницями.
  3. Рідко, але можуть трапитись «довгі» генерації понад 45 секунд.
  4. Обрані моделі (навчені моделі) не завжди генерують в тому стилі чи якості, яка очікується.

👩‍💻 Враження: вразило те, що доступно 150 безкоштовних генерацій щодня при тому, що якість деяких зображень дуже висока. З інтерфейсом необхідно буде трохи розібратись, але є багато зручних функцій (фіч). Рекомендую спробувати ✨

Нижче приведено декілька зображень, згенерованих особисто в Leonardo AI.

Lexica Art

▶️ Офіційний сайт
💰Вартість: 100 генерацій щомісяця безкоштовно, потім підписка від $8.
🅰️Мова: англійська
🖐️Створено/ започатковано: San Francisco, California. Sharif Shameem — Founder Lexica Art, Co-Founder & CEO Vectordash.

Lexica Art — графічна нейромережа, що вміє створювати яскраві зображення в стилі диджитал артів. Щоб почати роботу з Lexica Art необхідно пройти просту реєстрацію, використовуючи емейл.

Кожного місяця дається 100 безкоштовних генерацій, якщо потрібно більше, то можна купити підписку від $8 ($24, $48..). Є галерея робіт інших юзерів, доступна історія своїх генерацій. Створює сет з 4 зображень по 1 запиту приблизно 20 сек- 1 хв.

В безплатному акаунті можливо 2 генерації одночасно (навіть якщо відкрити декілька вкладок), при покупці підписки доступно 3 паралельні генерації. Є можливість завантажити зображення і редагувати його промптом. В найдорожчій підписці ($48) є опція для генерування в приватному режимі.

➕ Плюси:

  1. Простий зручний інтерфейс.
  2. Швидка реєстрація.
  3. Функціонал негативних підказок.
  4. Яскраві результати.

➖ Мінуси:

  1. Проблеми з анатомією людей, тварин (руки, лапи).
  2. Схожий стиль в зображеннях/ одноманітність стилю.
  3. Погано розуміється на правильному використанні слів, цифрах, символах в зображеннях.
  4. В безкоштовній версії не можна вибрати версію моделі (системи генерації), дефолтна може сама змінюватись на гіршу/ кращу (старішу/ новішу).

👩‍💻 Враження: хочеться яскравого, кольорового чи няшного? Lexica в цьому майстер👌

Нижче додаю зображення, згенеровані особисто мною в Lexica Art.

Порівняння ШІ на однакових промптах

Розібрались з особливостями, а тепер спробуємо порівняти ці 5 сервісів генерації зображень, використовуючи однакові промпти.

⭐️ Голографічне диджитал яблуко

Промпт: Ultra detailed VR holographic apple, 3D octane render, hacking effects, cybernetics, circuits, glitch, digital, neon glowing ethereal surreal background, computer glitch, repeating pattern, sparks, mirror, broken glass, light emitting diode, energy, ultra detail, hyper realistic, 8k, texture, photorealistic, 8k HD wallpaper.

⭐️Стормтрупери, що копають картоплю

Промпт: Stormtrooper dig potatoes, fields, 8K.

⭐️Чорна діра

Промпт: black hole, golden ratio, intricate, epic, trending on artstation, highly detailed, vibrant, production cinematic render, ultra-high quality.

⭐️Сюрреалістичний єнот торкається годинника, з казки «Аліса в країні див»

Промпт: Raccoon touching clock in Alice in Wonderland, surrealism.

Переглянувши згенеровані зображення, можна відмітити, що кожна графічна нейронна мережа має своє унікальне бачення і стилі, має свої переваги і може використовуватись під різні задачі.

Висновок

Наразі процес генерування зображень за допомогою ШІ є трохи непередбачуваним в усіх сенсах. Це стосується як самого результату, так і витраченого часу. Інколи коротенький простий промпт і дуже деталізований промпт можуть дати неймовірні результати, але ситуація може скластися навпаки — ШІ може інтерпретувати промпти зовсім інакше, ніж очікує людина.

Через це можна витратити дуже багато часу / токенів / грошей, але так і не досягти бажаного результату. Навіть найновіші і найпотужніші моделі/ версії все ще генерують якісь артефакти та аномалії, бо не зовсім розуміють анатомічні особливості, фізичні явища та інше.

Деякі згенеровані зображення необхідно мануально редагувати, деякі можна використовувати для натхнення і подальшої роботи (варто не забувати перевіряти умови комерційного використання зображень у кожному сервісі окремо).

Втім зараз ми живемо в цікаві часи і знаходимось в моменті стрімкого розвитку, популярності і конкуренції ШІ, прогрес вражає. Більше прикладів моїх експериментів з графічними (і не тільки) нейронками можна подивитись тут.

Якщо у вас є якісь питання — буду рада відповісти чи обговорити.

👍ПодобаєтьсяСподобалось28
До обраногоВ обраному10
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Цікавить таке питання.
Чи є вже інструмент який може згенерувати нове зображення обʼєкту на основі інших подібних зображень?
Наприклад, є 10 фотографій будівлі з приблизно однакового ракурсу, але не ідентичні, зроблені різними авторамив різний час.
Чи є інструмсент який згенерує нову «фотографію» того обʼєкта так що вона не буде ідентичною до жодної з заданих але юуде виглядати як фотографія?
Є щось таке?

Доброго дня. На цей момент є можливість в деяких нейронках завантажити 1 зображення і редагувати його промптом, але результати поки що дуже слабкі. Робила декілька дуже простих експериментів, опишу текстом, навіть так буде зрозуміло, наприклад, в Leonardo ai:
1. Завантажила фото кота на білому фоні (тобто немає ніяких зайвих об’єктів і дуже впізнавана тварина, яка має бути досить простою для нейронок), попросила намалювати йому капелюха, серед результатів — якийсь інший кіт з неправильними пропорціями, але в капелюсі, кіт в ілюстративному стилі (тобто чомусь вже не фото, хоча про зміну стилю не було мови в промпті) і без капелюха взагалі.
2. Завантажила фото кімнати, де є диван, попросила намалювати сплячого кота на ньому. Результат: кота змішало з подушками дивану, інтер’єр і диван схожі, але взагалі не ті, що були завантажені.

Висновок: саме в тих нейронках, що є в статті ще рано редагувати завантажене зображення, але можливо вже в близькому майбутньому це зміниться. Бо є схожа технологія, яку нещодавно анонсувала компанія Adobe в фотошопі (могли б зробити у веб версії firefly, але ні) — це generative fill, де можна виділити якусь зону на фото і тільки вона буде змінена промптом (а не усе зображення).
Теоретично схожий будинок нейронка зможе намалювати, але «зрозуміти» його модель і запам’ятати особливості в різних ракурсах поки що ні.

Я також тестував різні інструменти. І всі генерують не те що треба.

Є спосіб. Це можна зробити в LeonardoAI. Створити свій набір картинок, тобто завантажити ваші фотографії, і натиснути кнопку «Train». Після того як процес «тренування» завершиться, ви матимете свою «модель», яку можна буде вибрати зі списку решти моделей, щоб згенерувати фото за вашим текстовим описом.

Есть. Обучение модели/текстовой инверсии/Лоры в stable diffusion

Ілюстратори, дизайнери, вже можуть шукати нову роботу. Те, що вони будуть малювати кілька тижнів, нейронка малює за секунди.

Я не кажу що дизайнери зникнуть як класс (а то зараз набіжать і скажуть що дизайнер не тільки малює і що ніколи нейронка не замінить дизайнера). Просто замість 10 дизайнерів, компанії буде достатньо 1-2 для того ж об’єму задач, причому таких які мають досвід робот з нейронками і які вміють створювати ефективні промпти.

Просто замість 10 дизайнерів, компанії буде достатньо 1-2 для того ж об’єму задач

Ви забуваєте про те що з ростом продуктивності ростуть також потреби споживачів. І там, де для колишнього об’єму задач буде достатньо 1-2 людей замість 10, цей самий об’єм задач сам може вирости в 5-10 разів щоб бути краще конкурентів. Не кажу вже про те що всі нейрокартинки дуже схожі між собою, в них є оця «штучність», дерев’яні пози людей, затемнення по краям і т.д. І оскільки ці засоби доступні широкому колу людей, створити з їх допомогою продукт, що виділятиметься на загальному фоні, буде дуже складно. І знову будуть потрібні люди, як не крути.

Та ніхто не малює кілька тижнів лол.

Генерує за секунди, а після 2 тижні виправляє зображення згідно правок від кліента :)

Все трансформується, і професії також. Наразі краще мати ШІ як помічника і збільшувати свою продуктивність, покращувати результати чи спрощувати рутину. На цей момент нейронки не можуть замінити ні ілюстраторів, ні графічних дизайнерів, ні ui/ux, ні програмістів. Бо є велика кількість нюансів і знань в кожній спеціалізації. Всі отримані результати за допомогою ШІ треба перевіряти, інколи перероблювати, дороблювати, інтегрувати ітд. Як помічник — так, супер, як заміна хорошим спеціалістам — ще точно ні.

Тоже самое можно сказать и про кодинг. Пока что никого ещё не заменили. Копирайтеров возможно частично, и то я не уверен.

Мені дуже сподобалась стаття, я ще нічим з цього не користувався, цікаво було побачити цей огляд

Проблема таких ШІ в тому що вони не можуть дати вам дуже специфічний результат. Якщо вам потрібна картинка з дуже конкретною композицією, конкретними об’єктами в ній, певною логікою розташування предметів, і все таке інше, ШІ вам з цим не допоможе. Спробуйте згенерувати якийсь об’єкт де повинна бути присутня логіка розташування елементів, наприклад, звичайну клавіатуру, ви зрозумієте про що я.
На даному етапі ШІ годиться лише для генерації «заглушок», коли вам потрібно «аби що», та пошуку ідей та референсів.
До вирішення реальних комерційних задач тут як до Китаю раком.

Для композиції і специфічного результату є ControlNet, інпеїнти та img2img в Stable Diffusion. До речі без стейбла стаття взагалі «ніачьом» і тему ніяк не розкриває.

Стаття, насправді, хороша для новачків як огляд ШІ генераторів картинок в цілому. Але дійсно, найпотужніший доступний інструмент не розглянутий. А саме Stable Diffusion + контрол.нет, і2і, регіонал промпт, інпейнт

В статті була мова про порівняння лише деяких нейронок, так, не всіх, і здебільшого швидких та простих для використання. Переглянувши статтю можна для себе обрати ті сервіси, які підійдуть для конкретних потреб, а які ні.

Якщо поділитесь досвідом у використанні Stable Diffusion було б супер 😉

По-перше, дуже специфічний результат не так часто і потрібен насправді.

По-друге, ще рік назад нейронки не вміли людей генерувати, генерували якихось мутантів. Так, зараз також інколи мутантів генерить (ну там з трьома пальцями), но в більшості випадків все ок. Так що, за рік-другий і клавіатуру навчиться малювати якщо треба.

Та навіть на картинках в статті доволі непогано справилися з часами.

По-перше, дуже специфічний результат не так часто і потрібен насправді

Він як раз таки потрібен зазвичай, для задач типу «потрібно аби шо» давно існували стоки. Кажу з власного досвіду, бо працюю художником в геймдеві. Наприклад, мені потрібен дизайн докації, це повинна бути кімната якогось алхіміка, у стилі стімпанку, розміром 10×15 метрів, кімната повинна бути поділена на певні зони з різними активностями, елементи в кімнаті повинні розказувати певний характер персонажу (він повинен бути здаватися добрим персонажем, але насправді він злодій) і так далі, і тому подібне.
Або, наприклад, мені потрібна вежа з балістою наверху, в стилі що змішує персидський анімалістичний стиль і арт деко, баліста повинна обертатися на 360° і підіймати «дуло» на 45°, бо вона стріляє по дузі, як артилерія.
Жодна з нейронок не дасть вам і близько того результату що вам потрібен і достатній для того щоб його передати 3д-художникам щоб вони почали робити з нього модель (у якої можуть бути певні технічні вимоги типу ліміту по полігонам, це також треба враховувати в дизайні).

ще рік назад нейронки не вміли людей генерувати, генерували якихось мутантів

Людей нейронки вміли генерувати ще давно, був такий сайт This Person Does Not Exist що генерував портрети людей, досить реалістично. Тільки от сенсу в цьому ніякого не було.
В моїй компанії все ще наймають художників-джунів, бо нейронка не вміє в вирішення задач з багатьма перемінними, з абстрактними вимогами і «ми самі поки що не знаємо що хочемо, ось тобі трохи базової інфи, зроби якісь ескізи».
Нейронку використовують зараз хіба що для пітчей, коли треба показати якусь загальну ідею замовнику/керівництву. Раніше для цього використовувалися картинки з гугла та швидкий фотобаш. Принципово нічого не змінилося.

100% правда. Дякую за коментар, а то тут постійно генії роблять вигляд що шарять за арт лол.

Дякую, дуже цікаво!
З приводу художників — за картину платять багато не тому, що там намальовано, а тому, яка людина намалювала та яке враження створила.

Засмітили планету — засмітимо й інтернет.

Інтернет засмічен ще з часів Web 1.0.

Дякую за увагу і приділений час 😁

Так-так, а UML замінить програмістів ;)
Десь ми це вже чули...

Підписатись на коментарі