«Нас надихала можливість побачити плоди своєї роботи в Голлівуді». Інтерв’ю з Дмитром Бєлєвцовим, CTO і співзасновником «звукового» стартапу Respeecher
Дмитро Бєлєвцов — співзасновник і CTO Respeecher, стартапу, який працює у галузі speech processing і за допомогою штучного інтелекту дозволяє одній людині розмовляти голосом іншої. Технологія має попит в різних сферах, від геймдеву до голлівудської кіноіндустрії. У новому YouTube-інтерв’ю DOU поспілкувався з Дмитром про незвичайний домен Respeecher, залучення в military-tech галузь, необхідний стек для майбутніх співробітників компанії та плани на найближче майбутнє.
👉🏼 Підписуйтесь на YouTube, щоб не пропустити нові інтерв’ю
Публікуємо скорочену та відредаговану версію їхньої розмови.
Про Respeecher
У Respeecher працюють близько 50 фахівців. У нас є кілька основних команд. Перша розробляє вебплатформу і стежить за серверною інфраструктурою. Друга — це R&D-команда, з якої і починався Respeecher, вона продовжує поліпшувати алгоритми, що базуються на нашій core-технології. Також є делівері-команда, яка займається препродакшеном, валідацією даних. Вони знають, які моделі краще підходять для розв’язання задач клієнта. Крім цього, існує біздев-команда, яка займається B2B-продажами і розвитком В2С-напряму.
Підхід, який я ввів у нашому бізнесі, — у R&D більшість ідей генерує сама команда. Там працюють люди максимально в технічному контексті, здатні придумувати нові продуктові рішення. Моє ж завдання як CTO — розуміючи задачі бізнесу, зрозуміти їхні пропозиції та надати найкращим з них пріоритет.
Ми розробляємо технологію, яка дозволяє одному актору грати голосом іншого. У нас була амбіція — довести це до такої якості, щоби це використовували у професійному кіно. І нам це вдалось.
Останні кілька років ми працюємо над В2С-проєктом, щоб дозволити використовувати нашу технологію й невеликим креаторам, а не тільки голлівудським студіям.
Але коли ми тільки починали, нас надихала можливість побачити плоди своєї роботи на великому екрані в Голлівуді.
Водночас успіх в кіносфері впливає і на B2C-сегмент, адже щоби отримати дозвіл використання голосів зірок першого рангу звичайним користувачам, тобі треба мати гарну репутацію в Голлівуді. Це й було одним з перших стратегічних кроків Reespecher — здобути репутацію і контакти з великими студіями.
А потім ти можеш отримати дозвіл від великих акторів на використання їхнього голосу і масштабувати свій бізнес. Коли ми почали цим займатись, ринку, на якому ми працюємо, фактично не існувало, але вже були зашкварні deepfake порноролики, і Голлівуд був цим нажаханий.
Нейромережі та легальне поле
Щодо ChatGPT та інших нейромереж, які з часом навчаться класно генерувати голоси: якщо мережа використовувала тисячі голосів, щоб зрозуміти, як працює людська мова, як зімітувати розмову звичайної дитини, то це не варто розцінювати як посягання на право власності. Але якщо вона вчилась на тисячах композицій відомих співаків і тепер може згенерувати щось схоже на Фредді Мерк’юрі, і ми це не контролюємо, то хтось захоче це монетизувати, зробить купу каверів, хайпоне на цьому і заробить чимало грошей, а правовласники Фредді Мерк’юрі нічого не отримають — це не добре. І запитання про те, як розв’язувати ці проблеми, залишається відкритим.
Сучасні нейромережі ніколи не тренуються на одному голосі. Є поняття претрейну, коли модель тренується на прикладах мовлення багатьох різних людей, стилів і модальностей. І от тут постає питання легального поля — чи відтворюватиме вона лише той голос, права на який має компанія.
У нашому випадку — так, ми робили претрейн на тисячах голосів, після чого затюнили отриману нейромодель на конкретний голос, який ми легально можемо використовувати. Вона не зможе говорити, як колишній президент США Барак Обама, навіть якщо його голос потрапив у претрейн.
Яку б тему ми не озвучували тим чи іншим голосом, голоси людей з претрейну, які мають стосунок до неї, раптово не з’являться. Якщо ми попросимо озвучити голосом Дарта Вейдера монолог про американську політику, голос Барака Обами не з’явиться. Бо в нас фонетична модель, яка не знає, що таке мова, політика тощо. Вона працює суто в розрізі фонетики.
З якими технологіями працюють інженери в команді
Наші нейромоделі розробляють Deep Learning або Machine Learning інженери; люди, які мали досвід роботи зі штучним інтелектом. Бажано мати досвід з Computer Vision.
Але якщо у кандидата невеликий робочий досвід, але він працював лише зі Speech Processing технологіями, це все одно гірше, ніж людина, в якої
У питанні вибору технологій я маю консервативний підхід: працює — не чіпай! Ми використовуємо Python і PyTorch. Раніше в нас був TensorFlow, бо це open source продукт, і частина спільноти імплементувала і динамічні, і статичні графи, відбулося їхнє нашарування, безлад, через що наша робота крашилась. Доводилось робити імпорти з різних підбібліотек. Нині в TensorFlow це стабілізували, але вже пізно.
Роль етики у Speech-to-Speech галузі
Етика для нас є ключовою річчю. Питанням етичності продукту і використання голосів у нас займається окрема людина, її завдання — доносити позицію нашого бізнесу на різних рівнях, починаючи з конференцій і закінчуючи етичними комітетами, які починають формуватись довкола галузі Speech-to-Speech.
Ми прагнемо брати участь у міжнародному процесі легалізації і формування законодавчої бази навколо АІ, адже як лідери в цій сфері маємо мати змогу цим керувати або спрямовувати такі процеси в правильне русло.
Стартапи, які не паряться щодо етичності, стріляють собі в ногу. Тому, зокрема, я ніколи не даю хабарів — мені важливо не спричинити ситуацію, коли інша людина втрачає свою кар’єру, бо мій продукт байдуже ставиться до етики.
Про оборонні ініціативи
Одна з речей, якою мені важливо займатись, — оборонні ініціативи. Одна з таких — проєкт Zvook. Команда Respeecher допомагає в Machine Learning, Business Development і фандрейзингу.
Проєкт полягає в оперуванні звуковими сенсорами, що відстежують прольоти крилатих ракет ворога. Наша основна експертиза — все, що пов’язано з акустикою, відповідно — виявленням ворожих об’єктів за звуком. Цим і допомагаємо.
Найбільший недолік звукового розпізнавання ракет порівняно з радарами — дальність. Радари «бачать» далі. А звукові сенсори — це
Це не фундаментальна проблема, але вона обмежує можливості роботи. Якщо ти на 30 секунд пізніше дізнався, що ракета пролетіла в конкретному квадраті, це, звісно, гірше, ніж якби ти дізнався про це одразу. Але це все одно непогано, враховуючи те, що ракети літають на тисячі кілометрів, таке розпізнавання може серйозно допомогти в їх перехопленні.
Також я започаткував контрбатарейний проєкт, який розпізнає, звідки був випущений той чи інший артилерійський снаряд. Це комплекс з
Нині цим проєктом займається окрема команда з постійним СЕО. Мого залучення там поменшало.
Воєнні виклики та плани
Про справи в контексті війни говорити складно. Нині наш перший пріоритет — за допомогою Respeecher підтримувати економіку, давати фахівцям робочі місця і наближати перемогу сторонніми оборонними проєктами.
Respeecher — крокує до лідерства в кіно- та ігровій індустрії у галузі Speech-to-Speech, і нам доведеться утримувати це лідерство, розвивати і B2B, і B2C-напряки.
Наразі в команди плани масштабувати компанію. Звісно, є можливість продажу часток Respeecher певному інвестору, і ми її не відкидаємо, якщо це буде класна людина і приємна пропозиція. Але це не відбудеться цього року.
1 коментар
Підписатись на коментаріВідписатись від коментарів Коментарі можуть залишати тільки користувачі з підтвердженими акаунтами.