Перетворення механізму в СhatGPT «голос в голос» на «голос в текст»

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Одного разу, користуючись ChatGPT, я зрозумів, що мені набридло постійно вводити багато тексту для отримання відповідей. Тут я подумав: а що, якщо можна було б автоматично обробляти голос в текстову відповідь?

У текстовому режимі можна було б додати можливість надсилати голосові команди у відповідь на текст. Це значно покращило б зручність використання.

Ось як це буде працювати

  1. Користувач натискає кнопку запису, а потім конвертований текст надсилається одразу після завершення дзвінка.
  2. Користувач натискає кнопку запису, після завершення запису натискає кнопку паузи, натискає кнопку продовжити і продовжує з того ж місця, також коли натискається кнопка завершення і повідомлення відправляється.

Це значно економить час на введенні тексту.

Що думаєте про такий механізм роботи? І як воно б працювало на практиці?

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Можна використовувати цю схему на ютюбе, коли без навушників, вимикаєш звук щоб було тихо і дивишся автогенеровані субтитри ( якість яких досі не найкраща у світі)

Пошукай хром экстеншени, вже було багато саме таких — жмеш кнопку и говориш, говориш...

А ви спробуйте цей свій проект голосом закодити — стане ясно що легше: говорити чи друкувати

Я розробляю щось наближено схоже — голосовий асистент
github.com/...​nt/blob/main/code/main.py
Правда він використовує не ChatGPT а локально встановлену на моєму комп’ютері велику мовну модель.

а в чому прікол мать ллм у себе на компі ? та сама джеміні буде постійно оновлюватись і не так дорого стойть за кожний виклик?

Це pet-проєкт, не бачу змісту в нього вкладати якісь гроші.

Я писав такий скрипт, але на практиці не зручно
1. Не завжди коректно розпізнає голос
2. Не зручно якщо не сам

Саме тому було б круто якщо OpenAI реалізували б це на рівні системи.

Можна надиктовувати текст у Google Translate, а потім копіпастити ChatGPT

Я натискаю гугло мікрофон на новій вкладці — диктую промт, тоді копіюю у копілот
P.S.
(wink) Або треба просто розпізнати голосове повідомлення.
Я думаю, найшвидше взяти десять слів і розпізнати їх. А тоді ще 10 і так дійти до певного словника.
Для цього треба створити модель звуку. Для початку. Що там далі? Порівняти слово — звук від моделі із вхідним від користувача — як співпадіння є то — на вихід слово текст.
А тоді від цього всього якось перейти до розпінання слогів.

Що думаєте про такий механізм роботи? І як воно б працювало на практиці?

Він давно є і працює на практиці (в мобільному додатку) 🙂

Знаю що він є в мобільному додатку, але він відповідає голосом а не текстом. Маю на увазі змінити трохи пиринцип роботи бо в веб версії цього не має.

Та ні, там є режим, де відповідає текстом (іконка навушників — голосовий режим, іконка мікрофону всередині текстового поля — speech 2 text)

Так він відповідає, потрібно трохи доопрацювати, бо це не автоматизовано як в голосовому режимі. В веб версії взагалі відсутній.

1. зовсім не факт, що говорити легше, чим вводити текст...

2. щоб він сприймав, треба говорити чітко і зрозуміло...
це перетвориться на постійну звичку...
ти і з людьми так будеш говорити................

Та нормально буде якщо покращать розпізнавання мовлення. По суті це є взаємодоповнення до текстового введення.

Підписатись на коментарі