Подолати «зловісну долину»: Як роблять модель, яка б розмовляла як людина
Розробники із Sesame намагаються створити голосового асистента, який зможе розмовляти у темпі та інтонації, подібної до людини. Основний фокус іде не на розв’язання олімпіадних задач із математики, або подолання бенчмарків, а на... емоційний інтелект моделі.
«Сучасні цифрові голосові асистенти не мають ключових якостей, щоб стати по-справжньому корисними [...] Асистент, який говорить лише нейтральним тоном, втрачає актуальність після того, як новизна зникає. З часом ця емоційна площина стає не просто розчаруванням — вона виснажує», — кажуть розробники.
За їх словами, модель повинна вміти цілу низку речей, щоб почати розмовляти «як людина»:
- Емоційний інтелект: реагування на емоційний контекст.
- Динаміка розмови: природні паузи, перебивання, акценти.
- Контекстна обізнаність: адаптація тону й стилю.
- Послідовність особистості: збереження узгодженості та доречності.
Голос робить «магію», але контекст «страждає»
Станом на зараз модель ще не досягла своєї «фінальної форми». Про це кажуть самі розробники, і це можна відчути, спробувавши демку.
«Створення цифрового компаньйона з голосовою присутністю — це непросте завдання, але ми поступово досягаємо прогресу у таких сферах, як особистість, пам’ять, виразність і доречність», — пишуть у Sesame.
У моделі нині дійсно страждає наповнення, сам текст. Але щось у ній є: автор поспілкувався із моделлю півгодини, та не помітив. Оцінки тестувальників підтверджують цю думку. Коли у діалозі немає контексту, людям все одно — розмовляти з людиною, чи ШІ:
Коли діалог стає більш насиченим, ШІ пасе задніх — дві третини тестувальників обрали б людину для розмови. Важливий плюс, який витягує першу групу — це голос. Він дійсно відчувається насиченим, живим. Знову ж таки, можна спробувати самим.
Трохи «на технічному»
Є декілька проблем із якими стикаються подібні проєкти:
Перша — навіть найсучасніші моделі генерують мовлення безпосередньо з тексту, але їм бракує контекстної обізнаності, вони не можуть підібрати правильну інтонацію, бо існує безліч можливих варіантів.
Друга проблема — це динаміка мовлення. Зазвичай моделі спочатку генерують семантичні токени, а після цього — «озвучують» їх за допомогою RVQ. Але цей підхід погано масштабується:
«Методи, засновані на RVQ, мають проблему затримки. У токенізаторі з N кодбуками потрібно N кроків, щоб декодувати перший аудіофрагмент, що погано підходить для реального часу», — йдеться у повідомленні.
Щоб розв’язати ці конфлікти, розробники використовують CSM(Conversational Speech Model), яка паралельно працює із текстом та аудіо:
- Модель перетворює «сиру» людську мову в дискретні токени;
- Після обробляє ці токени як дві незалежні групи:
- семантичні — незалежне від диктора представлення семантичних і фонетичних характеристик. Вони добре передають зміст, але не зберігають деталей природного звучання.
- акустичні — точніше відображають природні характеристики мовлення (наприклад, тембр і манеру мовлення). Їх зазвичай створюють через Residual Vector Quantization (RVQ).
(«Т» та «А» — текст та аудіо відповідно)
Фактично, CSM розв’язує ці проблеми через архітектуру з двома паралельними трансформерами:
- Основний трансформер (Backbone): обробляє текст та аудіо, прогнозуючи нульовий кодбук.
- Декодер: працює з рештою кодбуків, реконструюючи мовлення на основі представлень з Backbone.
В цілому це працює, хоч не так добре, як хотілося б. У Sesame кажуть, що будуть із цим боротися:
«Ми також плануємо дослідити способи використання попередньо навчених мовних моделей, працюючи над створенням великих мультимодальних моделей, які мають глибокі знання як про мову, так і про текст», — кажуть розробники.
Також обіцяють збільшити розмір моделі, збільшити обсяг набору даних і розширити мовну підтримку до більш ніж 20 мов.
Читайте: Чому нейромережі прекрасно справляються на складних задачах і «ламаються» на простих
Немає коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів