UX у сфері генеративного AI: нові виклики і як ми з ними працюємо

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Привіт, спільното! Мене звати Анна, я UX/UI-дизайнерка в Tavus — компанії, яка робить можливим спілкування зі штучним інтелектом у відеоформаті. Ми не створюємо чатботи, а даємо машинам обличчя, голос і здатність вести діалог майже як реальна людина.

Ми також досліджуємо способи покращення взаємодії з AI — з більшою довірою та відчуттям присутності. У цій статті я розповім, як проєктую UX для таких сценаріїв, коли інтерфейс перетворюється з інструмента на співрозмовника.

Матеріал буде цікавим для всіх, хто працює з AI-продуктами, створює нові формати взаємодії або просто хоче краще зрозуміти, як виглядає UX там, де технологія починає «говорити».

Що таке UX у генеративному AI

Генеративний AI — це системи, які створюють новий вміст на основі запитів користувача. Вони іноді дивують своєю можливістю опанувати широкий спектр завдань, проте для UX-дизайнера це означає зовсім інші виклики. Вони стосуються не тільки юзабіліті чи навігації, але в основному полягають у формуванні довіри, поясненні меж можливостей системи та управлінні очікуваннями користувача.

Для кращого розуміння природи генеративного AI можемо звернутися до конкретних інструментів. Наприклад, у ChatGPT від OpenAI одна й та сама команда може спрацювати по-різному залежно від контексту розмови. Для моделі це є типовою поведінкою, та для людини це може створювати плутанину. А якщо йдеться про ще складніший продукт, як-от Tavus CVI, де розмова з AI відбувається у відеоформаті, то кількість змінних і точок контакту стрімко зростає: інтонація, міміка, затримка у відповіді, положення камери, вираз обличчя, розпізнавання голосу, емоційний стан — усе впливає на якість результату.

У порівнянні з класичними інтерфейсами, де кожна кнопка викликає передбачувану дію, генеративні системи завжди залишають простір для варіацій. Те, що створюється у відповідь на запит, не є гарантованим, а формується динамічно. Це перетворює саму сутність дизайну: потрібно враховувати не лише інтерфейс, а й психологію користувача з його очікуваннями, рівнем цифрової впевненості, емоційними тригерами та культурними особливостями у сприйнятті відповідей.

На практиці ми стикаємось із кількома проблемами:

  • Непередбачуваність результатів. Користувач може очікувати одне, а отримати зовсім інше, що особливо критично у складних запитах або при генерації відео чи зображень.
  • Відсутність чітких інструкцій. Інтерфейси виглядали чисто й мінімалістично, але багато хто не розуміє, як саме формулювати запит. Ми регулярно отримували запитання: «Писати повним реченням чи просто ключові слова?», «Це має бути команда, питання чи просто фраза?» — такі сумніви виникали ще до початку взаємодії.
  • Страх зробити помилку, що особливо розповсюджено серед нових користувачів. Під час юзабіліті-тестів люди часто зізнавалися, що бояться натискати кнопку «Старт», думаючи, що «щось запишеться без дозволу» або «потрібно буде щось встановлювати». Це не технічна, а емоційна перепона — страх втрати контролю.
  • Відсутність зворотного зв’язку. Коли результат не збігається з очікуванням, користувач не розуміє, що пішло не так. У таких випадках ми застосовували простий, але дієвий прийом: додали текстові індикатори наміру, наприклад: «Чарлі (ім’я агента) зараз шукає відповідь в Інтернеті». Це знижувало тривожність і повертало користувача в контекст взаємодії.
  • Неточність відповідей. Ми чесно пояснюємо, що наша платформа використовує великі мовні моделі (LLMs), які можуть припускатися помилок. Тому критично важливо показати користувачеві, що відповідь не завжди є надійним фактом, і дати змогу це перевірити або поставити уточнення.

Мій підхід у роботі як UX-дизайнера полягає в постійних спостереженнях, мікротестуваннях та сценарному прототипуванні. Я ніколи не запускаю весь новий потік одразу: окремо перевіряю онбординг, окремо — CTA, окремо — фідбек після сесії. Це дозволяє вчасно помітити місце потенційної розгубленості ще до релізу й не витрачати ресурси на перебудову вже після запуску.

У цьому матеріалі я покажу, як саме працює такий підхід — на прикладах реальних кейсів із практики.

Як пояснювати магію AI

У багатьох AI-продуктах перший виклик — незрозумілість самої природи взаємодії. Користувачі звикли до звичних інтерфейсів, де кнопка викликає дію, а форма — результат. Але генеративний AI працює інакше: він не просто відповідає, а створює, і як ми знаємо, іноді непередбачувано. Ще складніше, коли цей процес відбувається у форматі живої розмови чи відео, де аватар бачить тебе, чує і реагує. Іноді можуть зʼявлятися сумніви: чи це запис? хтось мене чує? чи це справжній діалог? І, на жаль, замість захоплення виникає тривога й бажання закрити сторінку взагалі.

Улітку 2024 ми запустили CVI — Conversational Video Interface, один із перших інтерфейсів, де користувач міг у режимі реального часу спілкуватися з AI-аватаром (реплікою), який виглядав реалістично, змінював інтонації, реагував паузами, і навіть мімікою. Ми об’єднали генеративну мовну модель із «живим» відеоаватаром і зробили демо доступним просто на головній сторінці сайту як перший дотик до продукту.

Початкова версія демо була технічно коректною, але UX-експериментом: яскравий фон, мінімум елементів, кнопка запуску й базовий заклик до дії з мінімальними поясненнями. І хоч усе працювало, дуже швидко стало зрозуміло: користувачі не розуміють, що перед ними. Повторювалися запитання: «Це запис?», «Мене бачить хтось?», «Чому він відповідає?».

Ми додали вступний екран з коротким поясненням формату, відеоінструкцію й повідомлення про конфіденційність: «Ваше відео не зберігається», «Ви можете вимкнути камеру». Це дало перше полегшення, зняло напругу й задало рамки очікування. Саме після цього демо стало продуктом дня на Product Hunt і зібрало багато схвальних відгуків, а ми своєю чергою побачили, наскільки важливо пояснити магію, перш ніж нею вражати.

Перше демо

Після цього ми захотіли перевірити, наскільки емоційним може бути перший контакт із технологією. Напередодні новорічних свят створили окрему версію демо — цифрового Санту. Але цього разу ми додали рольову динаміку та елемент гри. Санта ставив дружні запитання: «Чи допомагав ти друзям?», «Що запамʼяталося цього року?», і на основі відповідей формував «вирок» — чемний ти чи не дуже цього року.

Також додали прогрес-бар, який змінювався залежно від тону розмови, список підказок для тем, щоб навіть користувач без досвіду міг легко включитися. А коли хвилини закінчувались, зʼявлявся кастомний екран із текстом: «Санта зараз готує подарунки, повернеться завтра», яке звучало не як технічне повідомлення, а як частина історії. Усе це зменшувало барʼєр і формувало теплий контекст. Діти махали в камеру, дорослі усміхалися, хтось робив скріншоти на згадку. Це був важливий інсайт: емоційна безпека важливіша за технологічну новизну.

Демо з Сантою

Наступним кроком стало оновлення основного демо, оскільки з новими мовними моделями розмови стали глибшими, а отже зросла потреба в поясненні й передбачуваності. Ми додали вступний екран з простими порадами: як краще сісти, перевірити мікрофон, освітлення. Основні елементи: кнопка старту, таймер, статус «Чарлі слухає...», а також індикатори завантаження.

Коли агент шукав відповідь або щось створював — це відображалось в блоці з артефактами. Також переписали tone of voice: замість формального «відеодзвінок завершено» — тепле «було чудово поспілкуватися!». При підключенні аватар вітав людину, міг сказати: «О, гарний светр!» чи «Прикольна картина пейзажу в тебе на фоні!» — і це ламало кригу краще за будь-яку анімацію.

Результат? Зросла кількість завершених сесій, суттєво зменшилась кількість звернень до сапорту, а найважливіше — зникли типові питання «що робити далі». Користувачі не тільки розуміли інтерфейс, а й відчували, що система з ними на одній хвилі. Демо стало не просто технічною демонстрацією, а емоційною першою зустріччю з продуктом.

Оновлене демо

Найчутливіший сценарій: AI-репліка

Створення власного AI-аватара — одна з найсильніших точок контакту між людиною і технологією. У цей момент користувач бачить себе буквально в цифровій формі. І саме тому тут з’являється не лише захоплення, а й напруга. Адже це вже не просто про тестування функції, а запис себе і дозвіл системі зчитати свій образ, голос, інтонацію. Питання довіри, контролю й впевненості стають тут ключовими.

Тут також постає важлива етична складова. Користувачі справедливо запитують: чи збережеться моє відео? Хто його побачить? Чи можна буде видалити запис? Ми зробили ці моменти максимально прозорими: відео не зберігається без згоди, перед генерацією користувач бачить і підтверджує результат, а також має можливість видалити свою репліку.

В результаті користувач отримує дійсно магічний досвід: аватар (репліка), який виглядає і звучить як він. Але будь-яка дрібна помилка в процесі, така як погане освітлення, фоновий шум, невдала поза чи тон голосу, може зруйнувати очікування й залишити негативне враження.

Процес генерації AI-репліки ми спочатку сприймали як суто технічний сценарій. Користувач записує відео зі згодою, далі читає скрипт і чекає на генерацію. Але на практиці виявилось, що саме цей шлях є найбільш емоційно напруженим, особливо для нових користувачів, які не знають, що очікувати. Ми почали з досліджень: конкурентний аналіз, глибинні інтерв’ю, проходження флоу з різними типами користувачів від розробників до продакт-менеджерів. І всі вони попри відмінності хотіли одного — пройти процес швидко, спокійно й без помилок.

Наш фокус змістився з технічної точності до зниження тривожності та підвищення впевненості. Ми повністю перебудували структуру сценарію, зробивши її більш послідовною й передбачуваною. У новій версії:

  • Спочатку користувач погоджується на запис (екран із поясненням, навіщо це потрібно).
  • Далі — записує відео з читанням скрипту з чіткими покроковими інструкціями.
  • Потім — генерація, яка активується тільки після підтвердження якості запису.

На кожному етапі ми додали превʼю відео, перевірку звуку, рекомендації щодо освітлення, пози й фону. Поради з’являються у формі легких, ненав’язливих підказок. Візуально інтерфейс став максимально чистим: спокійні кольори, відсутність зайвої інформації на екрані, щоб нічого не відволікало в критичний момент.

Процес створення свого аватара (репліки)

Після запуску прототипу ми провели серію інтерв’ю з незалежними користувачами. Більшість зізнавалась, що спочатку відчували себе незручно, але вже через кілька хвилин процес ставав зрозумілим і контрольованим. Замість фрустрації виникало передчуття, що «зараз вийде щось класне». І це саме той прогрес, якого ми прагнули досягти.

Цей кейс навчив одній простій речі: людина не готова дивитися на свою AI-копію, поки не відчує себе в безпеці. Завдання UX у такому сценарії не лише провести користувача крок за кроком, а дати йому емоційний фундамент, на якому технологія зможе справді здивувати.

Від хаосу до ясності

У UX-дизайні іноді є спокуса вважати лінійні процеси простими. Один файл, другий файл, результат. Але коли мова йде про складну AI-функцію, навіть такий сценарій може містити неочевидні пастки. Користувач очікує, що все пройде за інтуїтивною логікою, але стикається з нюансами: які формати підходять, з чого починати, чи вже завантажилось відео, як перевірити, що все готово. І замість швидкого потоку виникає розгубленість.

Сторінка генерації ліпсінк-відео в нашому продукті — саме такий випадок. На перший погляд, усе просто: потрібно завантажити відео, додати аудіо й отримати результат, де голос синхронізований із рухами губ. У першій версії інтерфейсу ми спробували побудувати процес на принципі відкритості й гнучкості, де одразу показували приклади, і активували всі дії запису, завантаження, вибору шаблонів. Здавалось, це має зробити флоу інтуїтивним. Але під час тестування стало ясно: інтуїція працює лише там, де зрозуміло, що відбувається.

Люди плутались і не бачили, де вони знаходяться в процесі, що вже зробили, що ще потрібно. Надлишок опцій створював не свободу, а перевантаження. Особливо це впливало на нових користувачів, які вперше стикались із функцією генерації.

Ми провели серію юзабіліті-тестів, інтерв’ю з користувачами, проаналізували поведінкові патерни й чітко побачили: ключова проблема — когнітивне навантаження сторінки. Тому ми перейшли до зовсім іншого рішення і у фінальній структурі кожна дія винесена в окремий крок: спочатку «Video to lipsync», далі — «Audio». Кожен блок має окремі інструменти для завантаження, запису чи вибору з прикладів. Це дозволяє фокусуватися лише на поточному етапі, не перемикаючись між різними файлами чи джерелами. Ми додали візуальні підтвердження дій, такі як статус «файл додано», превʼю відео, повідомлення про успішне завантаження.

Редизайн сторінки ліпсінку

Хоча оновлений флоу ще не запущений у продакшн, результати попереднього тестування були дуже показовими. Кількість помилкових надсилань зменшилася вдвічі. Понад 80% користувачів завершували весь сценарій до кінця. Але найважливіше — з’явилась нова поведінка: користувачі почали експериментувати, змінювати аудіо, тестувати різні комбінації. Інтерфейс перестав бути процедурою й став простором для гри та дослідження.

Цей досвід ще раз довів, що проста на вигляд функція — це не завжди простий UX. Щоб користувач не розгубився, не вийшов із процесу й не зневірився у результаті, потрібна структура, яка знижує навантаження, підказує іі залишає місце для впевнених дій.

Замість висновку

UX у генеративному AI — це не про трендові інструкції, анімації чи «ефектний» інтерфейс. Це про послідовність і довіру. Про те, щоб на кожному кроці користувач відчував: я знаю, що робити, я не зроблю помилку, за яку мене засудять, я можу дослідити це без страху. У такому UX немає магії, але є рішення, які відкривають простір для експерименту.

Кожен проєкт навчив мене одному: коли ми проєктуємо досвід для взаємодії з AI, ми фактично створюємо першу розмову між людиною й тим, що вона ще не до кінця розуміє. І наше завдання зробити так, щоб ця розмова пройшла м’яко, без сумнівів чи бар’єрів. Бо якщо перший контакт залишає відчуття легкості й контролю — є шанс, що користувач захоче повернутися.

Дякую, що дочитали! Якщо ви працюєте з AI-продуктами або проходили подібний шлях — буду рада поспілкуватися в коментарях та обговорити досвід.

👍ПодобаєтьсяСподобалось4
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Нам потрібно створити чат-бота на базі штучного інтелекту. Якщо є команда, яка бажає приймати замовлення, будь ласка, зв’яжіться зі мною.

Класна стаття, Анно! Ви чітко окреслили три головні гальма впровадження AI-інструментів: непередбачуваний результат, страх помилитися й відсутність прозорості «під капотом». У своїй книжці зіштовхнувся з тим самим. Що допомогло:

— Додаємо прев’ю й ручне підтвердження — користувач бачить топ-варіанти й обирає, перш ніж агент щось міняє.
— Робимо покроковий wizard — онбординг із прикладами промптів, щоб зняти паніку.
— Виводимо живий лог дій агента, аби зрозуміти, що він робить і чому.

Такі дрібні страховки різко підвищують довіру й залишають контроль за людиною. Кому цікаво подивитися детальні пайплайни й скрипти — ось лінк на книгу: [topuser.pro/...​r.pro/seo-ai-automation/. Дякую за ваш матеріал!

Чи можна за допомогою вашого софта створити якісний аватар привабливої жінки, щоб потім робити контент для онліфанс?

Моя команда та компанія не займаються створенням або підтримкою рішень для подібного типу контенту.
Ми зосереджені на етичному застосуванні генеративного AI у професійних, освітніх та комунікаційних сценаріях.

А шо тут не етичного? Це і є професійний комунікаційний сценарій.

Так, можна. Але ви повинні підтвердити під час тренування аватара, що це саме ви

Підписатись на коментарі