Як створити дитячу книжку за один день завдяки інтеграції ChatGPT і Midjourney

Усі статті, обговорення, новини про AI — в одному місці. Підписуйтеся на DOU | AI!

Привіт. Я — Юра Дзюбан, бекенд-розробник IT-компанії Master of Code Global. Ця стаття — приклад того, як поєднати ChatGPT і Midjourney для створення ілюстрованої книги. У моєму випадку це була ілюстрована книга для дітей, але описаний підхід із незначними варіаціями має підійти для створення коміксів чи, наприклад, ілюстрованих презентацій.

Я бекенд-розробник, і ні разу не ілюстратор, тож ця стаття також демонструє, яких результатів може досягти пересічна в плані графічного дизайну людина за допомогою сучасних AI-інструментів і відносно невеликих вкладень часу і зусиль. Фото кінцевого результату, а також орієнтовні оцінки витрачених ресурсів (часу, грошей) дивіться нижче.

Створення книги: основні кроки

1. Визначення змісту: персонажі, сцени, діалоги

Припустимо, що ми зацікавились ідеєю створити ілюстровану історію (книгу, комікс, презентацію). Першим кроком буде логічно зрозуміти, що саме ми будемо малювати — хто наші персонажі і якими будуть наші сцени, адже далі ці образи необхідно перевести в формат запитів до моделей для генерації зображень і тексту.

У плані пошуку ідеї для візуалізації я бачу кілька варіантів:

  • Якщо метою є насамперед помалювати у Midjourney (або Dall-E, Leonardo.ai тощо), можна ілюструвати якусь існуючу історію (наприклад, казку «Аліса у країні див» чи щось подібне, якусь історичну подію тощо). Щобільше, якщо це буде якась відома історія, хороші шанси, що релевантні зображення можуть бути серед зображень, на яких тренували Midjourney, що має полегшити генерацію графіки.

    Нарешті, для навчання роботи з Midjourney можна просто повторити якийсь з існуючих прикладів.

  • Якщо готової історії немає — не страшно, тут нам допоможе ChatGPT. Можна згенерувати історію на ту чи іншу тему, проінструктувавши ChatGPT відповідати як оповідач (приклад чату в ChatGPT). Далі у форматі діалогу з ChatGPT можна уточнити описи локацій, персонажів, підібрати ключові слова для запитів у Midjourney.
  • Нарешті, можливо, у вас вже є певна історія та бачення персонажів для ілюстрації. У моєму випадку так вийшло, що поєдналось 2 мотиви — я хотів познайомитись із Midjourney, а також створити щось на кшталт «спойлера» для дітей перед тим, як подарувати їм собаку. Діти давненько просили різних тваринок, і ця книга — по суті, ілюстрація наших діалогів.

Пройшовши цей крок, ми маємо сформулювати список персонажів і сцен, які будемо малювати. У моєму випадку персонажами були мої діти, ми з дружиною і різні тваринки (кінь, ворона, ящірка, дракон, білки). Також було необхідне зображення подарункової коробки.

Частина історії та дизайну — діалоги між персонажами. У моєму випадку, діти просять батьків завести тваринку Х, а батьки під різними приводами уперто відмовляються. Остання сцена — батьки повідомляють, що, схоже, найкраща тваринка знайдена, але яка саме — то буде сюрприз.

2. Створення контенту

Маючи описи персонажів і сцен, а також ідею діалогів, переходимо до генерації тексту та зображень.

Діалоги згенеруємо за допомогою ChatGPT. Мушу зауважити, що це була чи не найлегша частина проєкту, яка зайняла від сили 10-15 хвилин. Усі діалоги в моїй історії були згенеровані за допомогою одного шаблону — «write me one sentence in the style of a children’s book about <далі йде конкретна тема>» — будь ласка, дивіться чат в ChatGPT і скріншот для прикладу нижче.

Після генерації діалогів у ChatGPT у мене вималювався наступний план. З нього слідує, що наша книга матиме 7 розворотів: 1 розворот із «зав’язкою», далі 5 розворотів про різних тварин, і останній розворот з обіцянкою подарунку. Можна переходити до створення потрібних картинок.

Генерація зображень у Midjourney була найскладнішою для мене частиною даного проєкту, процес нерідко викликав асоціації з наступним мемом:

Нагадаю, що Midjourney — один з найпопулярніших і найефективніших публічно доступних сервісів для генерації зображень на основі текстових запитів (альтернативи — DALL-E, Stable Diffusion, Leonardo.ai та інші). Сервіс платний, місячні плани починаються від $8 (за що обіцяють генерацію ~200 зображень). Взаємодія з моделлю відбувається через Discord-бота.

Запити до моделі складаються з:

  • команди, наприклад /imagine для генерації зображення чи /settings для виклику меню налаштувань;
  • ключових слів, які описують суть необхідного зображення і його стиль, наприклад little girl character, multiple poses and expressions, children’s book illustration style, full body, character sheet, simple, cute, 6-year-old girl, full color, blue children clothes, blond hair, flat color;
  • опціональних додаткових параметрів, що задають версію моделі Midjourney (наприклад, --v 5.2), пропорції зображення (--ar 4:3), «мінус-слова» (--no text, fonts, letters, watermark words, typography, slogans, signature для уникнення тексту на зображеннях) та багато іншого;
  • запити можуть включати [посилання на] зображення.

Запити для Midjourney — навичка з елементами мистецтва. Існує досить багато тонкощів і прийомів, наприклад, для генерації консистентних персонажів (з використанням параметру —seed, шляхом включення у запит масиву посилань на попередньо відібрані зображення тощо).

На кожен запит модель генерує 4 варіації зображення і виводить 4 пари кнопок (U1/V1 — U4/V4) для збільшення (upscaling) чи генерації варіацій (variations) відповідних картинок.

Загальний підхід до генерації виходить наступним (і в цілому нагадує розробку): пробуємо певний запит, якщо результат не влаштовує, вносимо у нього невеликі зміни (керуючись власною логікою, прийомами, чужими прикладами тощо), і так повторюємо до отримання прийнятного результату.

Найлегше було генерувати тварин, особливо драконів, ящірку. Діти виходили дещо важче, а з батьками/ дорослими результат взагалі якось дуже часто не збігався з очікуваннями (ризикну припустити, що це може бути пов’язане з тим, що тварин і дітей в моделі на запит «children’s illustration book» помітно більше, ніж дорослих персонажів).

Ще одна проблема з генерацією зображень у Midjourney — важко зупинитись, адже наступний запит, можливо, дасть ще кращий результат ;)

Врешті після близько 3 годин активної переписки з Midjourney-ботом (упродовж кількох днів) і ~220 запитів я отримав зображення усіх персонажів і об’єктів, які планував.

Збільшуємо вибрані зображення, зберігаємо їх локально, — і можна переходити до наступного етапу.

3. Обробка, монтаж, друк

Для отримання чіткіших зображень і якіснішої обрізки фону зображення рекомендується додатково масштабувати. Пошук видає чималу кількість сервісів для збільшення масштабу (upscaling), як безоплатних, так платних (часто з trial-пакетом). Я скористався pixelbin.io, що має цілком зручний інтерфейс і обіцяє масштабування х4 разів.

Таким чином зображення, які були збережені з Midjourney і мали розмір біля 692×692 px, було збільшено до 2768×2768 px.

Далі було кілька годин достатньо рутинних маніпуляцій у Photoshop (альтернативно згодиться Gimp, pixlr.com чи аналоги), що зводились в основному до:

  • вирізання зображень з їх фону;
  • правки артефактів з пальцями та зіницями (слабке місце Midjourney, принаймні до версії 5.1);
  • компонування окремих зображень на розворотах, їх відносного масштабування, часом, дзеркальне відображення;
  • роботи з текстом. Для написів було використано шрифт Henny Penny (шкода, що такого немає для кирилиці).

Вихідною задумкою було оформити дану роботу у вигляді фотокниги. Тож ще на стадії створення нового документу у Photoshop слід зрозуміти, якого розміру будуть сторінки нашої фотокниги, щоб задати потрібний розмір полотна (зважаючи на те, що роздільна здатність зображень для друку становить 300 пікселів на дюйм).

Одна з помилок, якої я припустився в контексті друку — залишив надто малі відступи між зображеннями та краями сторінок, що довелося підправити.

Після цього я скористався одним з вітчизняних сервісів для фотодруку, де в онлайн-редакторі вибрав параметри книги (розміри, матеріали) і розмістив картинки на розворотах. Через 5-7 робочих днів після замовлення отримав роздруковану книгу.

Підсумки

Готові зображення, а також фото роздрукованої книги можна побачити у цьому репозиторії. Нижче наведу кілька обраних фото:







Час, що знадобився на проєкт: у моєму випадку, на те, щоб розібратись, як малювати у Midjourney і пройти вищеописані кроки, пішло близько 8-9 годин роботи (упродовж кількох днів) — приблизно по 1/3 на навчання, генерацію зображень і монтаж.

Грошові витрати: від $0 до ~$30+

  • $8 на місячний Basic Plan у Midjourney (при цьому я витратив лише біля 50% квоти на генерацію ~220 зображень). Даний пункт витрат, гіпотетично, можна звести до 0, скориставшись Stable Diffusion, Leonardo.ai чи іншими безоплатними альтернативами;
  • ~$18 (650 грн) на друк фотокниги (опціонально);
  • Інші можливі витрати — плата за сервіси для upscaling зображень, софт для обробки графіки, але в обох випадках вистачає безплатних варіантів.

Це був цікавий і місцями непростий (що стосується знайомства з Midjourney) досвід, який, думаю, знадобиться мені в майбутньому для генерації зображень для презентацій і, не виключено, у проєктах з елементами text-to-image генерації.

Використання ChatGPT в комбінації з Midjourney відкриває нові можливості, і при належному підході може дати синергічний ефект, який було б неможливо отримати, використовуючи їх поодинці.

Ну? і анонс подарунка, думаю, вдався ;)

P.S. Якщо, можливо, ви віддаєте перевагу споживанню подібних інструкцій у відеоформаті — будь ласка, дивіться детальне відео на YouTube (англійською мовою).

👍ПодобаєтьсяСподобалось41
До обраногоВ обраному8
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Использую теже инструменты. Я занимаюсь с детьми 1 час в день, на чешском. В детском саду у них каждую неделю вывешивают тему занятий, какие сказки будут читать, какие песенки слушать/петь. У меня в варианте минимум получается это обработать приблизительно за 20 минут. (без распечатки), вариант максимум 1 час (с распечаткой, но с распечаткой постоянна какая то засада, своего принтера нет, местный робот печатает через раз). Стараюсь приучить спокойно смотреть картинки на телефоне, без тыц тыц тыц. Вот пример сегодняшней работы:
>chat gpt 4 hi, please generate text: lecture in Czech language  for topic:"hygienické návyky před jídlem" (гигиенические привычки перед едой) ...Да мой господин... >ok based on this text please generate 12 scenes for image generation,  description should be in english each item with postfix --ar 9:16.  Idea: scenes should show why it is important (there are bacterias?) ...да мой господин...
12 сцен скармливаются мидджорней, конвейером,
Выбираю лучшее -> копирую на телефон
либо в ворд где располагаю на одной страничке и распечатываю

Затраты:
-подписки чат+художник ~40$ в месяц
-распечатки ~ 20$ в месяц

труд: 37.5 часов, по моему рейту это около 1150 $

В эпоху до роботов я покупал книги в среднем на те же 40 $ в месяц, тратил своего труда меньше, 900$
Итого с AI 1210$ vs 940$ without AI

Этот коммент я писал 10 минут

Ваш кейс, думаю, можна цитувати як чудовий приклад того, як AI може підвищувати ефективність роботи 💪 Малювати вручну по 12 зображень в день + нормальні тексти (на нерідній, по ідеї, мові) — звучить як робота на повний день ;)

Захоплююче і надихаюче 😍

Скільки коштував друк?

У тому варіанті (к-ість, розмір, матеріал сторінок, палітурки і т.д.) обійшлось у 650грн.

Офігезна ідея і реалізація! Дякую за статтю!

В романі Орвела 1984 описувалось як контент для пролів генерували машини. Трішки моторошно мені читати такі статті якщо чесно)

ну ось же, може бути все таки корисний і цікавий контент на ДОУ

Щобільше, ви й самі можете корисний і цікавий контент на DOU створювати! ;) Завжди чекаємо на [email protected] або dou.ua/forums/new

як перетворити віртуальне сміття у паперове

крутезна ідея та реалізація!

А як щодо авторських прав на малюнки які згенерував AI?

Пишуть, що “Midjourney images can be used commercially by paying members, though the licence does not grant copyright ownership of the images” (openaimaster.com/...​-midjourney-commercially), що б це не значило

Юра, класний проект, окрема дяка за відео

Я відношусь до консервативних батьків, які пишуть книгу самі і іллюструють їх людьми )

Ось про мою книгу:
twitter.com/...​tatus/1638122110802444288

А поки поясню чому мені здається, що писати книги нейромережами типу ChatGPT не ок

1. Діти це та сама нейромережа, що навчається. Уже відомо, що якщо давати ChatGPT вчитись на своїх згенерованих текстах він тупішає. От і дітям краще не давати продукт його діяльності як книгу.
2. Тексти. В них багато води. Щоб зацікавити дитину треба писати так, щоб кожне слово цікавило. Треба писати жарти, розуміти що дітям цікаво і т.п. Власне ми писали книгу з сином так, що кожен рядок і кожне слово ми виписували разом і він сам перевіряв і якщо хотів щось додавав. Ба більше, коли в мене був творчий ступор я віддавав клавіатуру йому і новий абзац починав він.
3. Сюжет. Вцілому ChatGPT може генерувати навіть сюжети. І це дуже цікаво, щоб знати які сюжетні переходи будуть очевидними і передбачуваними.

По іллюстраціям: так, у Міджорні вони можуть бути яскравими (власне це все що там класного). Але сучасні художники малюють не гірше. А найголовніше, на відміну від Midjourney можуть намалювати кілька разів одного і того ж персонажа в різних позах, сценах і т.п. Нейромережі поки не дуже уміють малювати одних і тих же персонажів. І знов таки — не вистачає певних приколів, які може додати тільки людина яка розуміє контекст і цільову аудиторію, тобто дітей.

Звісно, моя книга обійшлась мені набагато дорожче. І писали ми її кілька років. Але це класний пет-проект якому можна було приділити достатньо часу, бо це все якісний час з дитиною.

Крутезна книга/проект! 🤩 Мій респект!

Дякую! На жаль, примірників більше не залишилось — всі 100 екземплярів розійшлись. Але зараз ведемо переговори з видавництвом і сподіваюсь скоро буде в книгарнях (мрія довести пет проект до стабільного релізу)

Книга дуже гарна. І собачка. І шрифти. Де ви брали шрифти?

Ваааааау. Це дуже цікаво

Крутий результат!
Також аналогічно із чатом + міджорні робив таке 7 місяців тому, але мої полюбляють майнкрафт, тож довелося генерувати про це: www.linkedin.com/...​utm_medium=member_desktop

Бомба! Хороша ідея, мої теж зависають у майнкрафті

ШІ надихає дітей які за допомогою ШІ потім будуть робити контент на якому буде вчитися ШІ..

Yep, хороша штука excalidraw.com і, схоже, вірусно поширюється

Думал в конце будет гайд как запостить в KDP и делать 1000$ наносек не вставая с дивана.

Ага. Тоді, мабуть, краще було б озаглавити «100500-перша ілюстрована книга на KDP, намальована за допомогою ШІ».

Але якщо без жартів, то вангую в скорому майбутньому сервіси, які будуть генерувати ± нормальні книги (текст, графіку) під побажання користувача (уже бачив прості реалізації із Stable Diffusion, але там результат виглядав поки досить creepy)

про теж саме подумав

Підписатись на коментарі