OpenAI опублікували нові моделі «природного мовлення»
Динамічне мовлення
У OpenAI оголосили про випуск нових голосових моделей. Основною особливістю є здібність до динамічного мовлення.
По-перше, це означає, що модель працює точно у складних умовах — із шумами, акцентами та різною швидкістю мовлення. Це основа для створення агентів-операторів, які повинні працювати швидко та розуміти не «вичищене» мовлення.
По друге, розробники можуть задавати тональність мовлення моделі. Тобто можуть попрохати розмовляти «як оператор підтримки», наприклад. Це дає можливість підлаштовувати агентів.
Технічна складова
На бенчмарках моделі показали себе краще за конкурентів (нижче = краще). Причин для цього три:
- Гарні датасети: усі моделі пройшли попереднє навчання на спеціалізованих аудіоорієнтованих наборах даних.
- Дистиляція: нові моделі побудовані на основі GPT‑4o та GPT‑4o-mini. Техніки дистиляції, дозволяють передавати знання від найбільших аудіомоделей до менших, більш ефективних версій — що розробники і зробили.
- Reinforcement learning: підкріплене навчання суттєво покращило точність розпізнавання саме у складних умовах.
Скористуватись новими моделями можна через API. Також є інтеграція із SDK-агентами.
Читайте: Подолати «зловісну долину»: Як роблять модель, яка б розмовляла як людина
Немає коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів