Голосовий AI-агент — де межа, через яку перехід заборонений?
Минулий рік для людей, які займаються впровадженням та розробкою AI-технологій в реальні бізнес-процеси, став роком AI-агентів та цілих агентських систем, які впроваджувались на різних рівнях у бізнес та повсякденне життя. Напевно, я не буду поглиблюватись у цю тему, бо сил вже нема про це говорити — як ті агенти покращили життя всіх.
Тема, яка ще не розкрита — і це не те, про що ви могли подумати — це тема голосових агентів.
І що там може бути цікавого, скажете ви? З одного боку, я з вами погоджуюсь, а з іншого — зовсім ні. Але для того, щоб розкрити свою думку з приводу цієї теми, мені треба зануритись трохи у підкапотний простір.
Як працюють 99% голосових агентів сьогодні
Як зараз працюють 99% голосових агентів, яких ми зустрічаємо у повсякденні — коли спілкуємось із ChatGPT у голосовому режимі, або якщо нам телефонує банківський агент з приводу боргу, або якщо ми виграли джекпот у якомусь новому казино?
Спочатку ми кажемо щось — і починає спрацьовувати STT (speech-to-text) нейронка на кшталт Whisper або Deepgram, яка перетворює звук на текст. Далі цей текст агент відправляє до LLM типу GPT-4o або Llama із запитом, що саме відповісти користувачу. Як тільки ми отримали відповідь, агент переходить до іншої нейронки — TTS (text-to-speech) — щоб згенерувати голосову відповідь для користувача.
Насправді сучасні фреймворки вже навчились робити цей процес достатньо безшовним та швидким, що інколи затримка та контекст розмови може бути прийнятним, щоб задовольнити виклики для багатьох бізнес-задач. Ці агенти без проблем користуються базами даних, інтеграціями в CRM, пошуком в інтернеті — умовно кажучи, вміють все, що вміють звичайні агенти.
Єдине, що не вміють ці агенти — це відчувати емоційність.
При конвертації голосу в текст агент втрачає емоційний контекст розмови, що призводить до значного розриву між користувачем та відповідями агента, які він буде отримувати. Тому по-справжньому глибинних розмов людини з машиною на емоційному рівні не відбувається.
Speech-to-speech: нова ера
Але талановиті люди не гають часу дарма та представляють нові технології частіше, ніж ми готові перетравлювати. І ось уже настає час моделей speech-to-speech, які працюють зовсім по-іншому.
Головною відмінністю цих моделей є те, що вони одночасно слухають і говорять. Нікого не нагадує?
А ще вони навчені, звісно, на реальних розмовах, і тому передають окрім контексту слів ще контекст емоційної рефлексії. Наприклад, якщо користувач емоційно негативно сказав: «Я маю жінку» — то модель його буде заспокоювати та підтримувати. Але якщо користувач ті ж самі слова скаже емоційно позитивно — реакція агента буде відповідною.
Думаю, казати про переваги такого підходу нема сенсу, бо коли я тестував модель від NVIDIA — Persona Plex — я реально піймав себе на відчутті, що це розмовляє не агент, а людина. І це при тому, що я маю дуже великий досвід із розмовами з агентами, їх створенням та тестуванням.
Ця модель побудована на базі Moshi Kyutai, яка керує трьома потоками обробки: один для користувача, один для свого аудіовиводу, і третій — внутрішній діалог («Inner Monologue»).
Інша сторона історії
І тут ми починаємо підходити до основної ідеї цієї статті, але перед тим мені необхідно познайомити вас з іншою стороною цієї історії.
Kintsugi Health — API-first платформа, яка використовує голосові біомаркери для виявлення депресії та тривожності в реальному часі. Аналізує не зміст мовлення, а акустичні характеристики — pitch, інтонацію, тон, паузи. Мовно-агностична, працює з 20 секундами вільної мови.
Sonde Health — клінічно валідована платформа вокальних біомаркерів для моніторингу ментального, когнітивного та респіраторного здоров’я через повсякденне мовлення.
WinterLight Labs — AI-технологія для кількісної оцінки мовленнєвих патернів для виявлення когнітивних та ментальних захворювань (деменція, Альцгеймер).
Ключова технологія: vocal biomarkers — дослідження показують, що ментальні розлади можна розрізняти через маркери в голосі: швидкість мовлення, тривалість пауз, варіація тону. В лабораторних умовах ці параметри дозволяють відрізняти депресію від шизофренії та біполярного розладу.
І ось головне питання
Розумієте, до чого я веду?
Якщо нейронки можуть за 20 секунд визначити, які в людини є розлади, то ви тільки уявіть, що вони можуть зробити з емоційно нестабільною людиною в моменті?
4 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарів