У Meta намагаються декодувати мову з неінвазивних записів активності мозку

Meta ділиться результатами дослідження — розробкою моделі ШІ, яка зможе декодувати мову з неінвазивних записів активності мозку.

«Щорічно понад 69 мільйонів людей у ​​всьому світі страждають через черепно-мозкові травми, і багато з них не можуть спілкуватися за допомогою мови, друкування чи жестів. Життя цих людей могло б значно покращитися, якби дослідники розробили технологію декодування мови безпосередньо з неінвазивних записів мозку. Сьогодні ми ділимося дослідженнями, які роблять крок до цієї мети», — йдеться у блозі компанії.

Повідомляється, що за результатами трьох секунд активності мозку, розроблена модель може декодувати відповідні сегменти мовлення з точністю до 73% зі словникового запасу з 793 слів, тобто значної частини слів, які ми зазвичай використовуємо протягом дня.

«Декодування мовлення за допомогою неінвазивних підходів забезпечить безпечніше, більш масштабоване рішення, яке зрештою може принести користь набагато більшій кількості людей. Однак це дуже складно, оскільки неінвазивні записи, як відомо, викликають шум і можуть сильно відрізнятися залежно від сеансів запису та окремих людей з різних причин, включаючи відмінності в мозку кожної людини та місце розташування датчиків», — повідомляють в Meta.

Ці проблеми збираються вирішити, створюючи модель Deep Learning, навчену contrastive learning, а потім використають її для максимального узгодження неінвазивних записів мозку та звуків мови. Для цього використовують wave2vec 2.0 — опернсорсну модель самоконтрольованого навчання, розроблену командою FAIR у 2020 році. Потім цю модель використають для ідентифікації складних репрезентацій мовлення в мозку волонтерів, які слухають аудіокниги.

«Ми зосередилися на двох неінвазивних технологіях: електроенцефалографія і магнітоенцефалографія (ЕЕГ і МЕГ), які вимірюють коливання електричних і магнітних полів, викликаних активністю нейронів відповідно. На практиці обидві системи можуть робити приблизно 1000 знімків макроскопічної активності мозку щосекунди, використовуючи сотні датчиків.

Ми використали чотири набори даних ЕЕГ і МЕГ з відкритим кодом з академічних установ, використавши понад 150 годин записів 169 здорових добровольців, які слухали аудіокниги та окремі речення англійською та голландською мовами.

Потім ми вводимо ці записи ЕЕГ і МЕГ в модель „мозку“. Відомо, що записи ЕЕГ і МЕГ сильно відрізняються в різних індивідів через індивідуальну анатомію мозку, відмінності в розташуванні нейронних функцій у різних областях мозку, а також положення датчиків під час сеансу запису. На практиці це означає, що для аналізу даних мозку зазвичай потрібен складний інженерний конвеєр, створений для перенастроювання сигналів мозку на „мозок-шаблон“. У попередніх дослідженнях декодери мозку навчалися на невеликій кількості записів, щоб передбачати обмежений набір мовних особливостей, таких як категорії частин мови або слова з невеликого словникового запасу. Для нашого дослідження ми розробили новий рівень вбудовування об’єкта, який навчений наскрізно, щоб вирівнювати всі записи мозку в спільному просторі», — йдеться у повідомленні.

Результати дослідження є обнадійливими, кажуть в Meta, оскільки вони показують, що навчений штучний інтелект може успішно декодувати мову з неінвазивних записів активності мозку, незважаючи на шум і мінливість, властиві цим даним. Однак ці результати є лише першим кроком.

Як гадаєте, перспективний напрямок?

👍ПодобаєтьсяСподобалось1
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Напрямок завідомо безперспективний. Це все одно, що намагатися декодувати відео, закодоване невідомим кодеком, якого ще нема в публічному доступі, поклавши флешку під рентген.

Перспективні напрямки саме інвазивні. Але не безпосередньо в мозок, а вже у канальні нерви. Це по-перше вирішило б проблему руху для людей із переломом хребта, такі інваліди значно більше потребують допомоги, аніж люди з дефектами чи дисфункцією мовлення. До того ж сигнали, спрямовані на керування рухом, значно більш підсилені, аніж сигнали для мовлення. Тобто, мають більшу амплітуду, нижче частоти. А ще — мають внутрішні механізми переналаштування мозку, тобто сам мозок може адоптуватися саме до тих сигналів, на які вдається поставити датчик. До речі, біонічні протези приблизно саме так і працюють.

Чому не варто намагатися перестрибнути еволюцію техніки та одразу взятися за мозок? Бо перемога на кожному етапі дає гроші, необхідні для наступного. Якщо ж одразу братися за неможливе (але хайпове) — то матимемо мало того що бульбашку, але й купу сміттєвих патентів, які і самі нічого не дають, але дуже сильно заважають майбутнім розробкам — бо якщо хтось щось розробить, то на нього одразу накинуться патентні тролі (Мета має надзвичайно зубасту юридичну команду), та по суті вкраде майбутні розробки.

Я вважаю, що Мета хоче досягти саме цієї мети: заробити на хайпі та застовбити місце патентного троля, щоб майбутні розробники мали віддати все монополісту. Додам лише, що Мета — це монстр всесвітньої цензури, тому вони можуть забезпечити собі «авторитетну думку» з приводу того, що це саме вони є жертвами крадіжки інтелектуальної власності, а зовсім не хижаком, що віджав чуже. Якщо вони здатні кришувати крадіжку виборів президента США (і нічого їм за це не було, самі балачки), то чого б їм не спробувати захопити взагалі все, до чого лапки загребущі дотягнуться? Тим більше що Мета давно вже самі лежать під мафією CIA.

Підписатись на коментарі