Порівнюємо графічні ШІ: плюси, мінуси та особливості Adobe Firefly, Midjourney, BlueWillow, Leonardo AI, Lexica
Усім привіт, з вами Оля — UI/UX дизайнерка з досвідом у сфері пікселей понад 9 років. У вільний час тестую деякі AI-продукти, слідкую за їх стрімким розвитком та змінами, ділюсь отриманими знаннями і враженнями.
Про графічні нейронні мережі вже багато хто чув, хтось наважився спробувати їх, хтось ще ні. В цій статті пропоную розібратися з перевагами та недоліками деяких з них. Розглянемо 5 графічних ШІ — Adobe Firefly, Midjourney, BlueWillow, Leonardo AI, Lexica, подивимось на результати генерацій, а в кінці порівняємо ці нейронки за допомогою однакових промптів.
Adobe Firefly
▶️ Офіційний сайт
🖼️ Галерея
💰 Вартість: безкоштовно (beta версія)
🅰️ Мова: англійська
🖐️Створено/ започатковано: Adobe, Headquartered in San Jose, California.
Компанія Adobe, що майже 40 років (!) на ринку диджитал-продуктів вирішила не відставати від трендів і запустила новий продукт Adobe Firefly, що використовує нейронки для генерації зображень та створення візуальних ефектів за формою (шейпу) тексту.
Зараз доступна безкоштовна тестова версія (beta). Щоб почати використовувати Adobe Firefly потрібно зареєструватися, подати заявку і дочекатися інвайту.
В інтерфейсі присутній швидкий вибір стилів і технік, їх багато і це круто, але прев’ю стилів дуже схожі і складно орієнтуватись за ними. Мікс різних опцій дозволяє швидко отримувати різноманіття в зображеннях.
На цей момент не генерує зображення з відомими людьми чи персонажами, часто при використанні імені та прізвища в промпті система пише, що «слово заборонене і вимкнено для генерації», причому яке саме слово, Firefly не вказує/ не підсвічує. В список заборонених також потрапляють слова по типу «ворог», «війна».
Щодо відмови генерувати відомі персони: причиною такого рішення, мабуть, стали нещодавні скандали і фейкові генерації зображень з публічними і посадовими особами в конкуруючих продуктах. Firefly дуже обережно підходить до подібних ситуацій і, схоже, що робить все, щоб уникнути конфліктів і судових позовів.
На кожну згенеровану роботу додається watermark (логотип) і текст, що зображення не для комерційного використання.
➕ Плюси:
- Висока якість зображень.
- Інтерфейс з налаштуваннями, де можна швидко вибрати стилі, основні кольори, освітлення, композицію.
- Швидка генерація
(8-15 секунд). - Добре генерує тварин у різних стилях.
- Генерація зображень одразу в акаунті (в вебі).
- Ком’юніті на сайті та в дискорді, можна запропонувати ідеї та фічі.
- Є функція використати згенероване зображення як референс «Use as reference image», це дозволяє створювати схожі зображення і редагувати їх промптом (зараз працює не дуже, але все залежить від запиту і зображення).
➖ Мінуси:
- Проблеми з анатомією людей.
- Не має історії генерацій/ власної галереї.
- Іноді не включає у запит якісь слова, які вважає забороненими.
- Рідко, але трапляються баги (але це бета — і це ок).
- Додає вотермарк на всі роботи.
- Погано розуміється на правильному використанні слів, цифрах, символах і зображеннях.
- Функціонал Composition ще не працює досконало (іноді здається, що ця функція взагалі ігнорується).
👩💻 Враження: за гарними тваринками та різноманітними артстилями — точно сюди.
Нижче наводжу декілька зображень, які я згенерувала в Adobe Firefly.
Midjourney
🔗 Офіційний сайт
🖼️ Галерея
📖 Документація та підказки
💰Вартість: платно (від $10/міс, $30, $60 і т.д.)
🅰️Мова: англійська
🖐️Створено/ започатковано: San Francisco, California. David Holz — CTO & co-founder of Leap Motion, founder and CEO of Midjourney.
На цей момент Midjourney — одна з найпотужніших нейромереж для генерації зображень за допомогою текстового запиту. Створює зображення високої деталізації в будь-яких стилях, дуже якісні і креативні підходи.
Є функціонал «негативних» підказок, тобто зменшення/ видалення/ заборона на малювання якихось об’єктів. Є можливість обирати моделі генерації — старіші чи новіші (v4, v5, v5.1 та ін.) або спеціальні, такі як Niji для ілюстративного стилю.
Також є команди для зміни пропорцій зображення, сили стилізації, якості, розділення та змішування промптів, а також багато іншого. Все це добре описано в документації з прикладами (вище є посилання).
На жаль, з квітня 2023 Midjourney став платним для використання, до того моменту кожен мав можливість безкоштовно трохи спробувати потужності системи.
Для роботи в Midjourney необхідно мати акаунт в Discord (платформа для спілкування з розширеним функціоналом, близько 350 млн юзерів). Навіщо? Саме через дискорд відбувається генерація зображень. В дискорді ви пишете запит і бот (система) буде надсилати відповіді та результати.
Як почати роботу з Midjourney:
- Зайти на офіційний сайт, тицьнути «Join Beta» (Приєднатись до бета-тестування) та зареєструватись.
- Отримати інвайт в канал міджорней в дискорді. Після прийняття запрошення ви будете додані до сервера/ ком’юніті міджорней і будете бачити правила користування, підказки, деякі роботи інших учасників та інше.
- Оскільки використання Midjourney на цей момент платне, то треба купити підписку. Це можна зробити в особистому кабінеті. Також деталі щомісячної і річної підписки, інструкції можна подивитись тут.
- Після оплати підписка активується досить швидко, синхронізація сайту і дискорду відбувається автоматично і миттєво. Ви отримаєте інформацію від бота щодо активації підписки в особистих повідомленнях в дискорді.
- Тепер можна генерувати зображення, як в каналах з іншими учасниками, так і в особистих повідомленнях з ботом. Це дуже зручно, бо в каналі стрічка з повідомленнями іноді дуже активна і можна з легкістю загубити свої запити і результати. Роботи згенеровані в особистих повідомленнях бачите тільки ви, але ці роботи ж можуть відображатись в галереї ком’юніті. В найдорожчому плані доступний функціонал «генерації скритого режиму» (Stealth image generation), в такому випадку згенеровані зображення теоретично не будуть взагалі ніде відображатись.
- Щоб подивитись скільки доступно/ залишилось/ використано годин-генерацій, необхідно в чат написати команду /info.
- Щоб згенерувати зображення в чаті напишіть команду /imagine prompt: (означає «уяви, підказка») а потім додайте те, що хотіли б бачити на зображенні, відправте в чат цю команду і через деякий час (від декількох секунд до хвилин) у чаті з’явиться результат згідно з вашим запитом (промптом).
- Midjourney генерує 4 варіанти зображення на 1 запит одразу. Після генерації зображень під ним з’являються кнопки U1, U2, U3, U4 та V1, V2, V3, V4. Літера U позначає Upscale — збільшити масштаб та якість, літера V позначає Version — версія, кожна цифра — це номер згенерованого зображення. Якщо вам припала до душі версія 2, то ви можете натиснути U2 і саме для цього зображення алгоритм згенерує майже таке ж саме зображення, але трохи більшого розміру і з покращеною деталізацією. Якщо вам сподобалась одна з чотирьох ідей (наприклад, зображення #3), але деталі не влаштовують, то натискаємо V3 і Midjourney згенерує ще чотири схожі зображення.
- До промпту можна додавати різні налаштування та параметри. Наприклад, співвідношення сторін (aspect ratio) можна задати за допомогою параметру
- -
ar 16:9. Вибрати версію або модель Midjourney можна за допомогою параметру- -
v 5, або- -
v 4. Більше деталей можна знайти тут. - Всі зображення зберігаються в галереї особистого кабінету, вона доступна саме на сайті (не в дискорді).
➕ Плюси:
- Найкреативніший ШІ, найбагатша уява.
- Можливість генерувати декілька зображень одночасно.
- Підтримка величезної кількості стилів та матеріалів, реалістичні та деталізовані зображення.
- Непогане розуміння метафор.
- Функція покращення та збільшення зображення (upscale).
- Миттєва синхронізація акаунта в вебі і акаунта в дискорді.
- В акаунті є галерея згенерованих зображень зі збереженням використаних промптів.
- Доступна детальна документація, що постійно оновлюється.
➖ Мінуси:
- Іноді трапляються проблеми з анатомією людей і тварин (частіше всього з пальцями, руками, рідше ногами та очима). Іноді неможливо підказками (промптами) пофіксити ці проблеми.
- Ще не розуміється на правильному використанні слів, цифрах, символах у зображеннях.
- Довго генерує зображення навіть на платному акаунті в режимі fast generation (40 сек — декілька хвилин).
- Немає пробної (trial) версії.
- Робота в дискорді (для когось може бути не дуже зручно).
👩💻 Враження: крутий сервіс, багато можливостей, високий рівень якості зображень, рекомендую. ✨
Нижче додаю декілька зображень, які я згенерувала в Midjourney.
BlueWillow
🔗 Офіційний сайт
🖼️ Галерея
📖 «Словник» зі стилями і промптами
💰Вартість: безкоштовно, але є вдосконалена нова модель за підписку, стартує від символічних $3, далі $5-10-20.
📖 Мови: пише, що підтримує 11 мов (англійська, французька, німецька, португальська, іспанська, італійська, російська, китайська, індійська, корейська, філіппінська). Промпти приймає будь-якою з цих мов, навіть українською, але за результатами видно, що часто нічого не розуміє, або одне слово вихопить і щось від нього згенерує. Найліпше працює з англійською.
🖐️Створено/ започатковано: Headquartered in San Francisco, California.
BlueWillow — безкоштовна нейронка для генерації зображень за допомогою текстового запиту. Підтримує різні стилі, досить швидко видає результати. Для роботи в BlueWillow необхідно мати акаунт в Discord, там відбувається генерація зображень в спільних каналах (канали з назвою «rookie»).
Рівень якості зображень трохи нижче, ніж, наприклад, у Midjourney (v4 та v5), але є «але». Всі безкоштовні генерації виконуються з навченою моделлю V3, нова модель V4 значно краще, але доступна за платною підпискою.
Якщо BlueWillow будуть продовжувати навчати та розвивати, то цей продукт може стати сильним конкурентом в майбутньому.
➕ Плюси:
- Швидка генерація зображень
(10-30 секунд). - Можливість генерувати декілька зображень одночасно.
- Безкоштовно можна використовувати безліч генерацій, але з моделлю v3.
- Підтримка різних стилів.
➖ Мінуси:
- Не вистачає різноманіття та креативності.
- Є проблеми з анатомією людей і тварин.
- Погано розуміється на правильному використанні слів, цифрах, символах у зображеннях.
- Часом буває, що неправильно розуміє підказки і просто малює людей.
- Бувають проблеми з композицією.
- Через те, що використовуються спільні канали, стрічка генерацій від усіх користувачів весь час оновлюється і дуже швидко губляться свої згенеровані зображення (одне з тимчасових швидких рішень — можна використовувати вбудований в дискорд пошук по своєму ж промпту).
- Робота в дискорді (для когось може бути не дуже зручно).
👩💻 Враження: непоганий сервіс, безкоштовний, можна спробувати, очікуємо на розвиток 👌
Нижче додаю зображення, згенеровані особисто в BlueWillow.
Leonardo AI
🔗 Офіційний сайт
🖼️ Галерея (доступно в особистому кабінеті після отримання інвайту)
💰Вартість: безкоштовний та платні тарифи (від $10/міс)
🅰️Мова: англійська
🖐️Створено/ започатковано: Sydney, Australia. JJ Fiasson — Founder Leonardo.Ai.
Познайомлю вас з моїм улюбленцем — це графічна нейронка Leonardo AI. Використовує алгоритми Stable Diffusion. Leonardo Ai пропонує бібліотеку різних моделей генерацій (Finetuned Models), які навчені і налаштовані таким чином, що можуть по різному працювати під певний тип запитів, наприклад: реалізм, артстиль, піксельний арт, портрети персонажів, милі гейм-персонажі, ізометричні зображення тощо.
Досить насичений інтерфейс з різноманітним функціоналом, з яким на початку треба буде трохи розібратись, але далі — швидкий у використанні. Є динамічний лічильник, що рахує скільки генерацій (токенів) доступно/ буде використано. Можна вибирати розмір зображення, редагувати значення точності або відхилення від промпту, стиль та інше. Можливість додавати негативні промпти в окремому текстовому полі.
Працює у вебі. Щоб почати користуватись, необхідно подати заявку і дочекатись запрошення. Безкоштовно доступно кожного дня: до 150 швидких генерацій (fast generations), до 30 покращень/ збільшень згенерованих зображень (upscalers/ unzooms) та до 75 видалень фонів, а далі — підписка.
Є чати та групи в дискорді, в яких пишуть про оновлення, обговорення різних питань, діляться результатами.
Краще працює з обличчями, тваринами, інтер’єрами, але поки що не дуже з архітектурою та пейзажами (вони часто з «шумами» або розмиті (заблюрені)), хоча все залежить від промптів і обраної моделі. Пейзажі іноді були схожі на низькоякісні колажі.
Не завжди зрозуміла логіка генерації зображень: іноді неймовірно чіткий та деталізований якісний результат, а іноді — щось дуже неякісне, розмите та з візуальними помилками незалежно від обраних підказок (промптів) та моделі. Інколи є враження, що використовується одна модель обличчя або тварини, тобто не має різноманіття, — це інколи плюс, але може бути й мінусом.
Ще один цікавий функціонал: можна завантажити будь-яке зображення і промптом його редагувати, є регулювання «сили зміни» (Init Strength) оригінального зображення. Результати цієї фічі можуть виходити досить різноманітними, але поки що часто трапляються на зображеннях якісь «аномалії».
Нюанси з логіном
Ситуація: заявка на користування сервісом (Early Access) подається, додавши пошту (без створення пароля), при отриманні емейла-інвайта надається посилання для входу в Leonardo AI. Далі система вимагає емейл + пароль, але форма для сетапу пароля не пропонується, при запиті на ресет пароля система не присилає емейли. Але дозволяє залогінитися, використовуючи гугл-акаунт (знову ж таки, без пароля). В налаштуваннях акаунту наразі взагалі немає функціоналу оновити пароль. Можливо, ця проблема буде вирішена вже на момент публікації статті.
➕ Плюси:
- Генерує швидко (до 10 секунд).
- Бібліотека різних моделей для генерацій (+ можна подивитись роботи для кожної моделі).
- Висока якість зображень.
- Історія генерацій зі збереженням усіх налаштувань та промптів.
- Можливість швидко копіювати промпти.
- Можливість обрати кількість зображень для генерації (від 1 до 8).
- Інтерфейсний підхід.
- Працює у вебі.
➖ Мінуси:
- Іноді з невідомих причин генерує зображення дуже низької якості (пікселізоване або розмите).
- Є проблеми з анатомією, іноді з обличчями. Майже завжди зайві кінцівки у тварин, проблеми з зіницями.
- Рідко, але можуть трапитись «довгі» генерації понад 45 секунд.
- Обрані моделі (навчені моделі) не завжди генерують в тому стилі чи якості, яка очікується.
👩💻 Враження: вразило те, що доступно 150 безкоштовних генерацій щодня при тому, що якість деяких зображень дуже висока. З інтерфейсом необхідно буде трохи розібратись, але є багато зручних функцій (фіч). Рекомендую спробувати ✨
Нижче приведено декілька зображень, згенерованих особисто в Leonardo AI.
Lexica Art
▶️ Офіційний сайт
💰Вартість: 100 генерацій щомісяця безкоштовно, потім підписка від $8.
🅰️Мова: англійська
🖐️Створено/ започатковано: San Francisco, California. Sharif Shameem — Founder Lexica Art, Co-Founder & CEO Vectordash.
Lexica Art — графічна нейромережа, що вміє створювати яскраві зображення в стилі диджитал артів. Щоб почати роботу з Lexica Art необхідно пройти просту реєстрацію, використовуючи емейл.
Кожного місяця дається 100 безкоштовних генерацій, якщо потрібно більше, то можна купити підписку від $8 ($24, $48..). Є галерея робіт інших юзерів, доступна історія своїх генерацій. Створює сет з 4 зображень по 1 запиту приблизно 20 сек- 1 хв.
В безплатному акаунті можливо 2 генерації одночасно (навіть якщо відкрити декілька вкладок), при покупці підписки доступно 3 паралельні генерації. Є можливість завантажити зображення і редагувати його промптом. В найдорожчій підписці ($48) є опція для генерування в приватному режимі.
➕ Плюси:
- Простий зручний інтерфейс.
- Швидка реєстрація.
- Функціонал негативних підказок.
- Яскраві результати.
➖ Мінуси:
- Проблеми з анатомією людей, тварин (руки, лапи).
- Схожий стиль в зображеннях/ одноманітність стилю.
- Погано розуміється на правильному використанні слів, цифрах, символах в зображеннях.
- В безкоштовній версії не можна вибрати версію моделі (системи генерації), дефолтна може сама змінюватись на гіршу/ кращу (старішу/ новішу).
👩💻 Враження: хочеться яскравого, кольорового чи няшного? Lexica в цьому майстер👌
Нижче додаю зображення, згенеровані особисто мною в Lexica Art.
Порівняння ШІ на однакових промптах
Розібрались з особливостями, а тепер спробуємо порівняти ці 5 сервісів генерації зображень, використовуючи однакові промпти.
⭐️ Голографічне диджитал яблуко
Промпт: Ultra detailed VR holographic apple, 3D octane render, hacking effects, cybernetics, circuits, glitch, digital, neon glowing ethereal surreal background, computer glitch, repeating pattern, sparks, mirror, broken glass, light emitting diode, energy, ultra detail, hyper realistic, 8k, texture, photorealistic, 8k HD wallpaper.
⭐️Стормтрупери, що копають картоплю
Промпт: Stormtrooper dig potatoes, fields, 8K.
⭐️Чорна діра
Промпт: black hole, golden ratio, intricate, epic, trending on artstation, highly detailed, vibrant, production cinematic render, ultra-high quality.
⭐️Сюрреалістичний єнот торкається годинника, з казки «Аліса в країні див»
Промпт: Raccoon touching clock in Alice in Wonderland, surrealism.
Переглянувши згенеровані зображення, можна відмітити, що кожна графічна нейронна мережа має своє унікальне бачення і стилі, має свої переваги і може використовуватись під різні задачі.
Висновок
Наразі процес генерування зображень за допомогою ШІ є трохи непередбачуваним в усіх сенсах. Це стосується як самого результату, так і витраченого часу. Інколи коротенький простий промпт і дуже деталізований промпт можуть дати неймовірні результати, але ситуація може скластися навпаки — ШІ може інтерпретувати промпти зовсім інакше, ніж очікує людина.
Через це можна витратити дуже багато часу / токенів / грошей, але так і не досягти бажаного результату. Навіть найновіші і найпотужніші моделі/ версії все ще генерують якісь артефакти та аномалії, бо не зовсім розуміють анатомічні особливості, фізичні явища та інше.
Деякі згенеровані зображення необхідно мануально редагувати, деякі можна використовувати для натхнення і подальшої роботи (варто не забувати перевіряти умови комерційного використання зображень у кожному сервісі окремо).
Втім зараз ми живемо в цікаві часи і знаходимось в моменті стрімкого розвитку, популярності і конкуренції ШІ, прогрес вражає. Більше прикладів моїх експериментів з графічними (і не тільки) нейронками можна подивитись тут.
Якщо у вас є якісь питання — буду рада відповісти чи обговорити.
26 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів