У Meta намагаються декодувати мову з неінвазивних записів активності мозку
Meta ділиться результатами дослідження — розробкою моделі ШІ, яка зможе декодувати мову з неінвазивних записів активності мозку.
«Щорічно понад 69 мільйонів людей у всьому світі страждають через черепно-мозкові травми, і багато з них не можуть спілкуватися за допомогою мови, друкування чи жестів. Життя цих людей могло б значно покращитися, якби дослідники розробили технологію декодування мови безпосередньо з неінвазивних записів мозку. Сьогодні ми ділимося дослідженнями, які роблять крок до цієї мети», — йдеться у блозі компанії.
Повідомляється, що за результатами трьох секунд активності мозку, розроблена модель може декодувати відповідні сегменти мовлення з точністю до 73% зі словникового запасу з 793 слів, тобто значної частини слів, які ми зазвичай використовуємо протягом дня.
«Декодування мовлення за допомогою неінвазивних підходів забезпечить безпечніше, більш масштабоване рішення, яке зрештою може принести користь набагато більшій кількості людей. Однак це дуже складно, оскільки неінвазивні записи, як відомо, викликають шум і можуть сильно відрізнятися залежно від сеансів запису та окремих людей з різних причин, включаючи відмінності в мозку кожної людини та місце розташування датчиків», — повідомляють в Meta.
Ці проблеми збираються вирішити, створюючи модель Deep Learning, навчену contrastive learning, а потім використають її для максимального узгодження неінвазивних записів мозку та звуків мови. Для цього використовують wave2vec 2.0 — опернсорсну модель самоконтрольованого навчання, розроблену командою FAIR у 2020 році. Потім цю модель використають для ідентифікації складних репрезентацій мовлення в мозку волонтерів, які слухають аудіокниги.
«Ми зосередилися на двох неінвазивних технологіях: електроенцефалографія і магнітоенцефалографія (ЕЕГ і МЕГ), які вимірюють коливання електричних і магнітних полів, викликаних активністю нейронів відповідно. На практиці обидві системи можуть робити приблизно 1000 знімків макроскопічної активності мозку щосекунди, використовуючи сотні датчиків.
Ми використали чотири набори даних ЕЕГ і МЕГ з відкритим кодом з академічних установ, використавши понад 150 годин записів 169 здорових добровольців, які слухали аудіокниги та окремі речення англійською та голландською мовами.
Потім ми вводимо ці записи ЕЕГ і МЕГ в модель „мозку“. Відомо, що записи ЕЕГ і МЕГ сильно відрізняються в різних індивідів через індивідуальну анатомію мозку, відмінності в розташуванні нейронних функцій у різних областях мозку, а також положення датчиків під час сеансу запису. На практиці це означає, що для аналізу даних мозку зазвичай потрібен складний інженерний конвеєр, створений для перенастроювання сигналів мозку на „мозок-шаблон“. У попередніх дослідженнях декодери мозку навчалися на невеликій кількості записів, щоб передбачати обмежений набір мовних особливостей, таких як категорії частин мови або слова з невеликого словникового запасу. Для нашого дослідження ми розробили новий рівень вбудовування об’єкта, який навчений наскрізно, щоб вирівнювати всі записи мозку в спільному просторі», — йдеться у повідомленні.
Результати дослідження є обнадійливими, кажуть в Meta, оскільки вони показують, що навчений штучний інтелект може успішно декодувати мову з неінвазивних записів активності мозку, незважаючи на шум і мінливість, властиві цим даним. Однак ці результати є лише першим кроком.
Як гадаєте, перспективний напрямок?
1 коментар
Додати коментар Підписатись на коментаріВідписатись від коментарів