Що таке Synthetic Humans і як вони змінять наше майбутнє

Усі статті, обговорення, новини про AI — в одному місці. Підписуйтеся на DOU | AI!

Привіт, моє ім’я Семен Фріш, я Interactive Practice Leader в SoftServe. Моя робота полягає у тому, щоб знаходити футуристичні напрямки, пов’язані з інтерактивом, і допомагати їм ставати реальністю та згодом — мейнстримом.

Останні два роки ми з командою активно розвиваємо напрямок Synthetic Human (у цій статті я також називатиму їх цифровими людьми або Digital Humans), створюючи реалістичні кастомні 3D-моделі людей для machine learning, симуляцій, медіа продакшну та медицини. Ця технологія дозволить не лише спростити різні процеси, пов’язані з навчанням алгоритмів, тестуванням, а й може кардинально змінити галузь охорони здоров’я, обслуговування, геймінгу. Крім того, замість мультяшних і віддалено схожих аватарів ми зможемо створювати свої цифрові копії для майбутнього метавсесвіту.

Тож у цій статті я хочу розповісти про те, що таке цифрові люди, як вони створюються і чому це — справжній game-changer, що вже почав змінювати нашу реальність.

Від кубиків Lego до синтетичних людей

Назва «Synthetic Human» пішла від синтетичних даних. Кілька років тому керівник нашого R&D Микола Максименко прийшов до мене з дисертацією на 160 сторінок від одного професора, який займався стартапами у Сан-Франциско. Ця праця стосувалася ще досить маловідомої на той час концепції синтетичних даних, яка почала активно розвиватись у 2019 році.

Простими словами, синтетичні дані — це дані, згенеровані за допомогою комп’ютерного алгоритму. Це такий підхід у сфері штучного інтелекту та машинного навчання, коли синтезуються додаткові дані, які є нереальними, але мають властивості реальних даних і створені для того, щоб алгоритми могли навчатися чи перевіряти себе.

Синтетичні дані чимось подібні до VR-технологій: якщо тобі потрібне щось небезпечне, недосяжне або дуже дороге, то найкращий варіант — замінити це у VR та синтетичними даними. Скажімо, якщо ви працюєте з дорогоцінним камінням і вам потрібно проводити якісь експерименти чи маніпуляції на ньому, що призводять до його руйнації, то це може коштувати величезних грошей. Проте навіщо псувати каміння, якщо експерименти можливо робити на комп’ютері з допомогою VR та синтетичних даних?

Ми почали з простого — кубиків Lego. Замість того, аби моделювати та виготовляти реальні кубики, ми згенерували кілька тисяч таких цифрових моделей та навчили алгоритми розрізняти їх. Від кубиків ми плавно перейшли до баночок з колою, пляшечок для ліків, і врешті-решт почали працювати з синтетичними людьми.

Уявіть, що вам потрібно навчити алгоритми розрізняти людські обличчя для технології FaceID. У вас є 100 фотографій реальних людей, однак це все одно, що обмежити вивчення мови алфавітом. Хороший дата сет містить десятки й сотні тисяч фотографій. Знімки такої кількості людей — це великі гроші, час та ресурси. Замість цього можна запустити алгоритм, який міксує фото 100 людей між собою і створює ще 50 000 різних фотографій людей. Це все є синтетичні дані.

Synthetic Human — це вже складніша річ, адже це не просто зображення, а цифрова модель людини, створена комбінацією двох технологій: генеруванням зображень та штучного інтелекту. Деякі цифрові персонажі здатні взаємодіяти з людьми в реальному часі, наприклад, як фінансові консультанти чи віртуальні блогери.

Для чого потрібні синтетичні люди

Machine Learning — це лише один з прикладів того, де синтетичні люди можуть використовуватися. Галузей для їх застосування набагато більше.

Ігри та продакшн — це традиційна і, мабуть, поки найзвичніша сфера застосування цифрових людей. Сучасні ігри використовують не просто вигаданих персонажів, сьогодні ми можемо грати за наших улюблених акторів — Кіану Рівз у Cyberpunk 2077 (CD Projekt), Нормана Рідуса та Мадса Міккельсена у Death Stranding (Kojima Productions), Елліот Пейдж у Beyond:Two Souls (Quantic Dream) та багатьох інших.

Віртуальні блогери збирають мільйонну аудиторію в соцмережах, знімаються в рекламах і фільмах, співпрацюють з брендами, випускають музику. Можливо, вам траплялася в Instagram перша віртуальна блогерка Miquella, в якої понад 3 мільйони підписників. А кілька років тому студія FFFACE.ME створила українську цифрову інфлюенсерку Astra Starr, яка тепер зокрема висвітлює війну в Україні.

Ще одна важлива галузь, де можуть знадобитися цифрові люди — медицина. Якось до нас звернувся пластичний хірург, чиє обладнання коштує мільйони доларів, а одна операція обійдеться щонайменше в 30 000 євро. Зробити пластику можна значно дешевше в Азії, однак якісний результат ніхто гарантувати не може.

Тож він хотів створити навчальну аплікацію, щоб моделювати результати операції у віртуальній реальності та уникати помилок. Тільки уявіть, що ви зможете побачити результат (як виглядатимуть шрами, ніс, шкіра чи навіть ваші кістки) до хірургічного втручання, та зможете ухвалювати більш поінформоване рішення.

Виробництво також потребує цифрових людей, щоб тестувати різноманітні механізми та їхню взаємодію з людиною. Відтестувати це в реальності — дорого, довго, а інколи ще й небезпечно. Набагато легше та ефективніше зробити це у віртуальній реальності з допомогою синтетичних даних. Сучасні технології дозволяють створити такі дані, що нічим не відрізняються від реальних, а часом можуть бути навіть кращими.

Три стовпи Synth Humans

Створення синтетичних людей — це процес нелегкий і тривалий, і він складається з трьох основних компонентів: генерація, анімація та навчання (generation, animation, and intelligence). Можна сказати, що синтетичні люди пішли з комп’ютерних ігор. Один з перших Packman-ів працював на DVK-4, діалоговому обчислювальному комплексі, і був по суті першим найпростішим аватаром. Вже у 1991 році ми побачили цифрового персонажа у «Термінатор 2», який став новою сходинкою в еволюції спецефектів.

Проте, якщо раніше для цього потрібен був цілий стадіон комп’ютерів і техніки, то зараз це можливо робити у реальному часі. Digital Human — це людина у цифровому світі (хоча поки що з деякими спрощеннями). Вони вже можуть розмовляти, рухатися, взаємодіяти з людьми, щоправда, ще не вміють дихати, не мають нервової системи і так далі.

Створення моделей

  • Традиційний спосіб комп’ютерної графіки. Тобто, за допомогою CGI (computer-generated imegary) стеку цифрові скульптори створюють моделі, накладають текстури зроблені з фотографій і таким чином генерують цифрову людину. Тут використовуються такі програми як Blender, Maya, 3ds Max, ZBrush.
  • Реконструкція з однієї камери/ пристрою (побутовий варіант). Береться велика кількість фотографій та «склеюється» за допомогою простіших алгоритмів, що можуть працювати навіть на телефоні і для однієї людини (Polycam, OpenMVS).
  • Реконструкція з багатьох камер та сканування. Можна також взяти 40, 80 чи 160 фотоапаратів кращого класу від Canon чи Sony, які робитимуть знімки, і потім ці неймовірні об’єми даних реконструювати в моделі. Це переважно роблять спеціалізовані студії, такі як Ten24, використовуючи спеціальну техніку, алгоритми, програмне забезпечення, і залучаючи велику кількість людей.

Останні два підходи є кардинально різними, однак зараз вони потрохи поєднуються між собою, тому що кожен з них починає використовувати ML. Його застосовують на всіх етапах створення Digital Humans — при скануванні, покращенні, спрощенні, а потім — в роботі з голосом, синхронізацією звуку, ліпсинком, рухами й так далі.

Проте, якщо вам потрібні цифрові люди, необов’язково їх створювати. Провайдерів Digital Humans на сьогодні є достатньо багато: MetaHuman Creator від Epic Games, Soul Machines, Hologress, Human Generator V3 та інші (про них детальніше можна прочитати у цій статті).

Створення анотацій для Synthetic Human

Анімування та навчання

До створення анімації для цифрових людей існують різні підходи. Можна робити її з subject-matter експертами — ті ж фахівці, що моделюють персонажів з допомогою софту для роботи з 3D-графікою, подекуди вміють гарно анімувати. Однак економічно це дорого, і якщо говорити про великий набір даних, то це буде ще й недоцільно.

Тому існують більш технічні варіанти, зокрема бібліотеки анімації, такі як Mixamo або ActorCore від Reallusion. У них можна брати набори анімацій та накладати їх на ваших синтетичних людей.

Але, скажімо, вам треба, щоб персонажі закривали банку з огірками. Скоріш за все, такої pre-defined анімації в бібліотеках нема. Тому її можна вже допрацювати з допомогою методів захоплення руху (MoCap), спеціальних костюмів та сенсорів, таких як у Perception Neuron Suit. Ви надягаєте такий костюм на актора, він відтворює потрібний рух, а ви записуєте дані. Або ж є варіант перенесення руху з відео, тобто рухи на відео треба розпізнати і перенести на персонажа.

Найкращий варіант, як завжди, посередині. Анімації з MoCap в переважній більшості випадків аніматорам необхідно «підчищати руками», алгоритми розпізнавання і перенесення руху з відео на разі мають суттєві обмеження щодо освітлення чи точності.

Для навчання цифрових людей використовують штучний інтелект. Ботів спочатку навчають розмовляти по заданому тексту, використовуючи моделі, наприклад від Nvidia. Далі звук синхронізують з мімікою, аби бот розмовляв природно.

Однак просто розмовляти — мало. При взаємодії з людиною важливий eye-контакт, мікрорухи, жести, тож ШІ допомагає з eye-tracking. Далі додаються емоції та решта деталей.

Майбутнє: метавсесвіт, гіперреалізм та психологічні виклики

Мабуть, ви бачили відеопрезентацію Metaverse, де все виглядає гіперреалістично, однак до такого метавсесвіту нам ще далеко. Meta намагається прив’язати його до VR-хедсетів, і виходить поки що так собі. Для цієї гіперреалістичності потрібне досить потужне «залізо», а поки що телефон, ноутбук середнього класу чи автономний хедсет не можуть відпрацювати реалістичний аватар. Наразі на це частково здатні 5-10% пристроїв чи обчислювальні потужності у хмарі і стримінг з них.

За три-чотири покоління зміни «заліза» це буде працювати на пристроях середнього класу, і тоді фотореалістичні аватари будуть більш розповсюджені.

Підсумовуючи, зазначу, що концепція Digital Human або Synthetic Human принесе суттєві зміни не лише в очевидні сфери, як-от соціальні медіа, ентертейнмент, продакшн, ігри та VR, а й в медицину і виробництво. Аватари будуть краще виглядати, а з часом, — і за функціональністю стануть крутішими, ніж люди. Концепція, скоріше за все, вийде за межі віртуального світу і роботи-андроїди будуть теж перевершувати людей у багатьох сферах. А синтетичні люди, як синтетичні дані для навчання штучного інтелекту, в більшості випадків замінять реальні.

Однак, є й низка викликів, на які потрібно зважати.

По-перше, про масове розповсюдження Synthetic Human поки що не йдеться. Щоб можна було відтворювати цифрові аватари у себе вдома чи навіть на роботі, потрібно мати «залізо» наступного покоління. Навіть наша команда, що працює з цим професійно, кожен раз купуючи відеокарти чи процесори думає, що їх уже вистачить, — але щоразу потужності бракує.

Поки що вони працюють або в Cloud і стримляться на пристрій, або для цього потрібен пристрій з дуже високими технічними специфікаціями (щонайменше, GeForce RTX 2080), і тоді він може працювати плюс-мінус нормально локально. Однак пристроїв масового класу поки немає.

По-друге, гіперреалізм має зворотний бік медалі. Синтетична людина, що зроблена як ідентична копія чи скан, сприймається неприродно. Щоб аватар або персонаж був комфортним для взаємодії, його треба доробляти та довчати вручну, бо наразі зробити це автоматично не можна.

Так само швидко зробити свою копію не вийде. До Web Summit, що відбудеться у Лісабоні в листопаді, ми власне готуємо демку з технологією Synthetic Human. Відвідувачі зможуть «поспілкуватися» зі створеним нами персонажем — провидцем, синтетичною людиною, що нібито пророкує майбутнє у метавсесвіті. Окрім передбачення, провидець «показуватиме» учасникам, як вони виглядатимуть у метавсесвіті.

Перекладу на практичний рівень: алгоритми реконструюватимуть фото обличчя учасника і накладатимуть його на одну з заздалегідь підготовлених моделей за допомогою технології deep fake. Це займатиме менше ніж хвилину, однак тут мови про ідентичну копію немає — це буде просто схожа цифрова версія вас, накладена на певний макет (а трапитися може будь-хто, представник протилежної статі чи жінка з бородою). Щоб створити ідентичну копію вас у цифровому світі, знадобиться декілька годин роботи 3D-художника чи професійне обладнання для сканування.

Наостанок, нас можуть чекати схожі психологічні виклики, як з Instagram, де всі й так красиві та успішні, а ще й зверху з фільтром. Тільки через такі фотографії багато людей по-справжньому журяться і впадають у депресію, адже порівнюють себе з іншими, красивішими, успішнішими тощо.

З появою цифрових копій, ми будемо порівнювати себе справжніх і себе цифрових (а ми цифрові будемо виглядати як покращена версія себе). Однак це те, з чим доведеться впоратися, адже технологія рухається вперед — так само як змінюється наше самосприйняття. І це гарно, ми еволюціонуємо, і ми впораємось :)

👍ПодобаєтьсяСподобалось11
До обраногоВ обраному4
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

А над этими людьми можно издеваться, доминировать и всячески их унижать?

Нет я серьезно, на этом целые индустрии построены. Например модель всех F2P игр, особенно китайских, в том что Великие Донателло унижают всяких школотронов без денег и доминируют над ними. Это позволяет компенсировать обратное отношение к ним в реальной жизни, где все эти Донателло в реале униженные отбросы.

Не думали сделать платную игру, построенную на унижении и реакции на унижения Synthetic Humans? Причем механизм такой: ты покупаешь не игру, а одну (несколько) жизнь в игре, если тебя убили — то оживление платное.

Багато ігри використовує слабкі сторони людей. Саме цей прокт виріс з синтетичних даних, а не з ігрових механік, відповідно такий розвиток не розглядали. Ігри це майже завжди добре, проте краще позитивні, негативу і так навколо предостатньо.

Ігри про війну не позитивні, але всі популярні — саме про неї. При чому абсолютна більшість гравців — проти будь якої війни.

Хоча те що пропонують вище — все одно занадто

Підписатись на коментарі