Подолати «зловісну долину»: Як роблять модель, яка б розмовляла як людина

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Розробники із Sesame намагаються створити голосового асистента, який зможе розмовляти у темпі та інтонації, подібної до людини. Основний фокус іде не на розв’язання олімпіадних задач із математики, або подолання бенчмарків, а на... емоційний інтелект моделі.

«Сучасні цифрові голосові асистенти не мають ключових якостей, щоб стати по-справжньому корисними [...] Асистент, який говорить лише нейтральним тоном, втрачає актуальність після того, як новизна зникає. З часом ця емоційна площина стає не просто розчаруванням — вона виснажує», — кажуть розробники.

За їх словами, модель повинна вміти цілу низку речей, щоб почати розмовляти «як людина»:

  • Емоційний інтелект: реагування на емоційний контекст.
  • Динаміка розмови: природні паузи, перебивання, акценти.
  • Контекстна обізнаність: адаптація тону й стилю.
  • Послідовність особистості: збереження узгодженості та доречності.

Голос робить «магію», але контекст «страждає»

Станом на зараз модель ще не досягла своєї «фінальної форми». Про це кажуть самі розробники, і це можна відчути, спробувавши демку.

«Створення цифрового компаньйона з голосовою присутністю — це непросте завдання, але ми поступово досягаємо прогресу у таких сферах, як особистість, пам’ять, виразність і доречність», — пишуть у Sesame.

У моделі нині дійсно страждає наповнення, сам текст. Але щось у ній є: автор поспілкувався із моделлю півгодини, та не помітив. Оцінки тестувальників підтверджують цю думку. Коли у діалозі немає контексту, людям все одно — розмовляти з людиною, чи ШІ:

Коли діалог стає більш насиченим, ШІ пасе задніх — дві третини тестувальників обрали б людину для розмови. Важливий плюс, який витягує першу групу — це голос. Він дійсно відчувається насиченим, живим. Знову ж таки, можна спробувати самим.

Трохи «на технічному»

Є декілька проблем із якими стикаються подібні проєкти:

Перша — навіть найсучасніші моделі генерують мовлення безпосередньо з тексту, але їм бракує контекстної обізнаності, вони не можуть підібрати правильну інтонацію, бо існує безліч можливих варіантів.

Друга проблема — це динаміка мовлення. Зазвичай моделі спочатку генерують семантичні токени, а після цього — «озвучують» їх за допомогою RVQ. Але цей підхід погано масштабується:

«Методи, засновані на RVQ, мають проблему затримки. У токенізаторі з N кодбуками потрібно N кроків, щоб декодувати перший аудіофрагмент, що погано підходить для реального часу», — йдеться у повідомленні.

Щоб розв’язати ці конфлікти, розробники використовують CSM(Conversational Speech Model), яка паралельно працює із текстом та аудіо:

  • Модель перетворює «сиру» людську мову в дискретні токени;
  • Після обробляє ці токени як дві незалежні групи:
    • семантичні — незалежне від диктора представлення семантичних і фонетичних характеристик. Вони добре передають зміст, але не зберігають деталей природного звучання.
    • акустичні — точніше відображають природні характеристики мовлення (наприклад, тембр і манеру мовлення). Їх зазвичай створюють через Residual Vector Quantization (RVQ).

(«Т» та «А» — текст та аудіо відповідно)

Фактично, CSM розв’язує ці проблеми через архітектуру з двома паралельними трансформерами:

  • Основний трансформер (Backbone): обробляє текст та аудіо, прогнозуючи нульовий кодбук.
  • Декодер: працює з рештою кодбуків, реконструюючи мовлення на основі представлень з Backbone.

В цілому це працює, хоч не так добре, як хотілося б. У Sesame кажуть, що будуть із цим боротися:

«Ми також плануємо дослідити способи використання попередньо навчених мовних моделей, працюючи над створенням великих мультимодальних моделей, які мають глибокі знання як про мову, так і про текст», — кажуть розробники.

Також обіцяють збільшити розмір моделі, збільшити обсяг набору даних і розширити мовну підтримку до більш ніж 20 мов.

Читайте: Чому нейромережі прекрасно справляються на складних задачах і «ламаються» на простих

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Підписатись на коментарі