YouTube та АІ: генеруємо епічні відео та заробляємо гроші
Пів року тому я написав статтю «Чи може розробник вмить стати художником», де намагався на практиці дізнатися чи справді художники та інші творчі люди панікують небезпідставно. На той момент я зробив висновок, що нейромережі ще не готові конкурувати з живими людьми. Проте штучний інтелект розвивається вкрай стрімко, тож всього за пів року моя думка кардинально змінилася.
У цій статті я розповім, як почав використовувати штучний інтелект для створення YouTube-каналу з нуля та контенту для нього, скільки часу / сил / грошей це потребує, які є проміжні результати і які глобальні плани на майбутнє. Якщо вас також зацікавить ця ідея — після цієї статті ви зможете самостійно спробувати реалізувати власні задуми.
Стаття поділена на дві частини: у першій я розповім основні технічні моменти та свій шлях й еволюцію моїх відео. У другій дам поради щодо того, як краще підходити до створення та масштабування власного YouTube-каналу, на що звертати увагу у першу чергу, які фактори успіху ключові, а які — другорядні.
Cassandra Tales — YouTube-канал автора статті
Практичні деталі використання АІ
Одне з частих питань, які мені ставлять люди: «Як тобі в голову прийшла ця ідея?». Думаю, ключовим моментом стало випадкове знайомство з ElevenLabs — сервісом, що дозволяє перетворювати текст на аудіофайл з дуже реалістичним голосом (можна обрати один зі стандартних або синтезувати власну модель — свого голосу або когось іншого). Коли я дізнався, наскільки сильно розвинувся напрямок text-to-speech і що це вже зовсім не схоже на роботизований голос, у мене в голові наче склався пазл: у нас же тепер є все необхідне для створення повноцінного відеоконтенту! АІ для написання текстів, для озвучення цих текстів, для генерації зображень, для перетворення зображень у відео і навіть генератори музики!
Як великий фанат жанрів фентезі та наукової фантастики, перше, що я зробив — попросив у ChatGPT згенерувати 50 ідей для фантастичних розповідей. Запит був буквально такий: Generate 50 ideas of tales-like stories for teens and adults. Результат виглядав ось так:
Потім для кожної із запропонованих тем я використовував один і той же шаблон, підставляючи лише назву й опис, щоб попросити ChatGPT згенерувати повноцінну історію. Запит виглядав ось так: Generate a fantasy fiction story with this title: «The Secret Society» and this description: A group of individuals with extraordinary abilities forms a secret society to protect the world from supernatural threats. The story should be no longer than 10000 characters.
Після того, як найголовніше — історії — було готове, я переслухав усі стандартні голоси з бібліотеки ElevenLabs і обрав той, який мені здавався найбільш відповідним для начитування подібних історій. Спойлер: це була моя перша (і далеко не остання) помилка. Я обрав занадто спокійний голос, слухати який є сенс лише перед сном, якщо хочеш пошвидше заснути. Як показали відверто поганенькі результати перших відео — у подібному жанрі від голосу багато що залежить, і коли з часом я перейшов на інший голос, результати стали набагато кращі. Для порівняння, різниця між найбільшою кількістю переглядів відео з другим голосом у 20+ разів більше, ніж з першим.
Я використовував два підходи для перетворення тексту на аудіо — великими об’ємами (1000+ символів) і малими (окремими реченнями). У кожного підходу є плюси та мінуси. Наприклад, під час генерації одразу великого тексту у вас не буде проблеми з різкою зміною гучності чи інтонації, які з’являються під час генерації окремими реченнями. З іншого боку, для подальших дій з відеопродакшену зручніше використовувати купу окремих аудіофайлів, кожен з яких є окремим реченням з тексту.
У цього сервісу є певний безкоштовний об’єм тексту, який ви можете озвучити протягом місяця (10 тисяч символів — мені цього вистачило лише на 3 історії). Якщо потрібно перетворювати на аудіо більше тексту, то можна оформити платну підписку. Я користуюся тією, що коштує 22$ на місяць і дає змогу озвучувати 100 тисяч символів — цього цілком достатньо для тієї кількості тексту, з якою я працюю.
Також у них є досить зручний АРІ, тож якщо ви хоча б трохи вмієте писати код — це може значно спростити ваше життя (як спростило моє), бо за допомогою невеликого скрипту можна розбивати текст на окремі речення, відправляти їх на АРІ ElevenLabs і зберігати результат у вигляді аудіофайлів. Це значно швидше, ніж мануально користуватися їхньою вебформою.
Отже, у нас є 20, 30, 50, 100 аудіофайлів з АІ-озвученими реченнями нашої АІ-згенерованної історії — що далі? А далі ми звертаємося до інших АІ, щоб почати генерувати відеоконтент. У цій частині відеопродакшену є багато різних підходів та інструментів. Деякі з них я тестував сам, про деякі лише чув від інших людей. Після вдалих (і не дуже) експериментів я зупинився на такій схемі:
- Для кожного речення / аудіофайлу нашої історії генеруємо статичне зображення за допомогою NightCafe. Місячна підписка коштує 8$, але я поки користуюся безкоштовними токенами, які накопичив за всі попередні місяці, що мав акаунт, але нічого не генерував.
- Далі за допомогою одного з двох сервісів — Runway або LeiaPix — перетворюємо наші статичні зображення на відео / анімацію. Місячна підписка на Runway коштує 15$, а LeiaPix умовно-безкоштовна: якщо вам достатньо якості 720р, то анімація не коштує нічого, якщо вам треба краща якість — доведеться платити. У вас може з’явитися питання, нащо використовувати аж два сервіси, тим паче, якщо один з них платний, а інший — ні. Справа ось у чому: Runway зазвичай дає чудові результати, і це мій основний інструмент. Але іноді та нейромережа, що лежить у його основі, — глючить і видає жахливі результати. Ось тут якраз в пригоді стає LeiaPix, яка генерує менш цікаві, але більш передбачувані результати. Тобто це свого роду план Б, якщо основний анімаційний АІ не справляється.
Також досить популярним інструментом для створення АІ-анімацій є безкоштовний сервіс PikaLabs, проте мене не дуже вразили ті результати, які він видає, особливо порівняно з Runway. Тому я готовий платити додаткові 15$ на місяць за вищу якість.
Нарешті на цьому етапі після всіх маніпуляцій зі штучним інтелектом і генерацій контенту в нас є майже все необхідне — озвучка та відео. Залишилося лише зібрати це все в один файл за допомогою відеоредактору, накласти фонову музику, і можна публікувати перше відео на наш YouTube-канал з нулем підписників. Фонова музика — це єдиний момент, де я вирішив поки не використовувати АІ (хоча навіть для цього вже є багато досить непоганих сервісів, наприклад — Beatoven.ai та Soundraw). Переважно це пов’язано з тим, що той відеоредактор, який я використовую, має бібліотеку з 15+ тисяч музичних композицій, серед яких можна знайти потрібну для будь-якого відео. Також ви можете використовувати непоганий сервіс з copyright free music — Pixabay.
Щодо відеоредактору — це була моя друга серйозна помилка. Напочатку я не думав про те, щоб генерувати відеоконтент / анімації за допомогою АІ, а хотів генерувати лише аудіо, а для візуалу використовувати готові copyright free-відеофрагменти, які б пасували до контексту. У перших приблизно 12 відео я так і робив, використовуючи Pictory.AI, проте це виявилося поганою стратегією, і зрештою в останніх пʼяти відео я вже перейшов до повноцінного АІ-згенерованого відеоконтенту, описаного вище. На жаль, на той момент я вже встиг оформити річну підписку на Pictory.AI, яка коштує 15$ на місяць, з урахуванням усіх можливих знижок. Хоча, маю сказати, це досить зручний відеоредактор з величезною колекцією аудіо та відео, що часто стає у пригоді. Проте коли поточна річна підписка закінчиться, скоріш за все я знайду безкоштовну альтернативу, а не буду продовжувати її.
Я не описую конкретні детальні кроки для кожного із сервісів, бо тоді б стаття стала просто безкінечною. Але, ймовірно, з кожним з них ви зможете розібратися без проблем: всі вони мають досить прості й зрозумілі інтерфейси та туторіали для новачків на самих сайтах цих сервісів.
Я створив свій YouTube-канал приблизно 1,5 місяці тому. На момент написання статті він має 46 підписників та 27 відео, з яких 22 long format і пʼять — shorts. За цей час я встиг припуститися декількох серйозних помилок, зробити висновки та розвʼязати їх, що значно допомогло каналу.
Наприклад, моє найперше відео — Princess Cassandra and the Forest Witch — було просто однією статичною картинкою, на фоні якої АІ розповідав історію досить тихим і занадто спокійним голосом, а на фоні грала не менш спокійна мелодія. Усе це призвело до того, що глядачі досить швидко переставали дивитися відео, і воно перестало просуватися YouTube. Після цього я спробував додати трохи екшену й замість статичного зображення використав зациклену анімацію дівчини, що читає книгу. Це також не призвело до серйозних позитивних змін.
Далі я експериментував з сюжетами історій, з використанням copyright free-відеофрагментів, знятих іншими людьми, але по-справжньому серйозним проривом стало дві події: по-перше, я змінив голос оповідачки з тихого / спокійного на більш динамічний, по-друге, я почав використовувати АІ-згенерований відеоконтент. Перше відео, де я використав такий підхід, набрало 2200+ переглядів на момент написання статті. Для порівняння, попереднє опубліковане перед ним відео (ще з недоліками голосу та відео) набрало лише близько 10 переглядів, тобто результат став кращим у 200+ разів!
У мене ще є декілька ідей, які допоможуть покращити наступні відео, тож сподіваюся на ще один ривок у десятки-сотні разів найближчими місяцями. А щодо глобальних планів, то хочу досягти стадії монетизації каналу менше ніж за рік його існування.
Поки що YouTube-канал лише потребує вкладання грошей, але, сподіваюся, із часом ця інвестиція почне приносити плоди. Місячні витрати складають всього 52$. Я кажу «всього», тому що це набагато менше, ніж довелося б платити фрілансерам, які б робили аналогічний контент: письменникам / сценаристам, художникам / аніматорам, акторам озвучки і т. д. Ці 52$ складаються з:
- місячна підписка на ElevenLabs — $22;
- місячна підписка на Runway — $15;
- місячна підписка на Pictory.AI — $15.
Коли на NightCafe закінчаться безкоштовні кредити, доведеться оформити місячну підписку за 8$, тобто сумарні витрати сягатимуть 60$. Якщо для будь-чого з цього списку ви знайдете гідну безкоштовну альтернативу — ваші витрати будуть меншими або навіть нульовими.
Загальні поради щодо ведення YouTube-каналу зі згенерованим AI контентом
Хоча я й писав, що всі мої вже опубліковані відео (і ті, що будуть опубліковані в майбутньому) належать до жанру фентезі та наукової фантастики — вам не обов’язково повторювати мій шлях. Ви можете обрати той напрям, який цікавить саме вас: фінансові поради, психологічна допомога, жарти / гумор, реальні історичні факти, детективні історії, мультфільми, керовані медитації, трейлери, короткометражки тощо.
Головна порада, яку я можу дати щодо вибору теми: залишайтесь послідовними й оберіть певну нішу — це дуже сильно допоможе. Якщо ви створите
Тоді, знайшовши ваш канал і подивившись 2-3-5 відео, люди з набагато більшою ймовірністю підпишуться і будуть чекати ще подібного контенту, бо вони приблизно вже уявляють, яким шляхом ви рухаєтесь як контент-творець.
Наступна надважлива порада: не чекайте швидких успіхів і будьте готові до того, що на довгі місяці YouTube стане вашою другою part-time роботою. Навіть не зважаючи на те, що не потрібно самому писати тексти, малювати графіку, писати музику й на те, що найбільш складну частину роботи за вас робить АІ, однаково в мене були тижні, коли доводилося присвячувати створенню роликів до 20 годин на тиждень.
У якийсь момент я зрозумів, що це вже занадто, і знизив навантаження до 8 годин на тиждень (а разом із цим і кількість відео, що публікую щотижня), проте наразі не бачу способу автоматизувати все настільки, щоб можна було генерувати якісний контент натисканням однієї кнопки. Є досить багато аспектів, де потрібен контроль зі сторони людини, наприклад:
- чи якісне зображення було згенероване, чи треба перегенерувати?
- чи якісне відео / анімація було згенероване, чи треба перегенерувати?
- яку фонову музику краще підібрати під конкретну історію?
- чи немає надто великої різниці в гучності / інтонації між сусідніми реченнями?
- яке прев’ю для ролика зробити, щоб людям хотілося на нього натиснути?
Більшість людей, які займаються створенням відео для YouTube досить давно, сходяться у тому, що зазвичай потрібно від чотирьох до шести місяців регулярної публікації відео на новому каналі, щоб побачити перші серйозні результати (десятки / сотні тисяч переглядів на одному відео, купа нових підписників і т. д.). Якщо вам вдасться досягти цього швидше — мої вітання. У вас або вроджені здібності до подібної справи, або є попередній релевантний досвід, який дозволяє створювати кращий і хайповіший контент, ніж може звичайний новачок, який ніколи нічим подібним не займався навіть віддалено.
Ще одна порада — звертайте увагу на 2 найважливіші параметри кожного вашого опублікованого відео: CTR (click-through rate) та AVD & APV (average view duration & average percentage viewed). Перший — це відношення кількості людей, які побачили прев’ю вашого відео у стрічці до тієї кількості, які клікнули та почали дивитися. Інші два параметри кажуть самі за себе — середня тривалість перегляду і середній відсоток (від всієї довжини відео) перегляду.
Що вище будуть ці параметри, то більше шансів, що алгоритми YouTube будуть активно просувати ваші відео, а це, своєю чергою, означає більше переглядів, більше watch time, більше підписників, що буде наближати вас до монетизації. Бажано, щоб CTR був 5% і вище, а APV — 50% і вище. AVD буде залежати від того, скільки триває ваше відео: якщо воно триває 10 хвилин і його в середньому дивляться 50% часу, AVD буде 5 хвилин. А якщо ваше відео триває 3 хвилини і його дивляться в середньому 67% часу, AVD буде 2 хвилини.
Тут дуже важливо знайти баланс між тим, щоб зробити відео не надто довгим, не надто коротким і водночас цікавим протягом всього часу. Особливо критичні перші
В середньому, якщо ви робите англомовний контент і вас дивляться люди з Європи та Північної Америки, коли ви досягнете критеріїв подання на монетизацію, у перші місяці зможете розраховувати на дохід у $100-300 на місяць. Знаю, це не та сума, заради якої можна покинути роботу в ІТ, проте насправді це лише початок подорожі.
Якщо продовжувати розвивати канал, то зазвичай він продовжує рости не лінійно, а експоненційно, тобто на те, щоб набрати другу тисячу підписників, третю і т. д., вам знадобиться набагато менше часу, ніж на першу тисячу. І якщо ви не сеніор девелопер, то, починаючи з десь
Також ви можете створювати контент і на інших мовах, ChatGPT та ElevenLabs дають таку змогу. Проте, скоріш за все, ваша потенційна аудиторія буде значно менше, адже англійську знають набагато більше людей, ніж, скажімо, українську чи італійську.
Особисто у мене таке відчуття, наче цей напрям (використання генеративного АІ для створення контенту для майбутньої монетизації) чимось схожий на ранні роки криптовалюти — тоді крипта була чимось новим і не дуже зрозумілим, багато хто не ризикував у неї вкладатися, але ті, хто вклалися — через багато років стали мільйонерами, а решта кусала лікті зі словами «Чорт, чому ж у мене немає машини часу, щоб повернутися в минуле та встигнути застрибнути у цей потяг!».
От зараз схожий момент відбувається зі штучним інтелектом, і якщо зачекати ще рік-два, то, думаю, буде занадто пізно: хто почав зараз, той вже буде мати велику аудиторію, досвід, може навіть побудований конвеєр з відеопродакшену. А ті, хто будуть починати потім — зіткнуться з величезною конкуренцією, і їхні відео потонуть у безмежному океані АІ-згенерованого контенту.
Якщо вас цікавить цей напрям і ви хочете стежити за еволюцією АІ у сфері генерації відео, але не хочете займатися цим самі — підписуйтеся на мій канал Cassandra Tales, зазвичай я публікую
66 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів