Нейронауки в Science и Nature. Выпуск 269: инсульт, ИМК и говорящий аватар

Исследователи разработали интерфейс мозг-компьютер, который позволил женщине с тяжелым параличом в результате инсульта ствола головного мозга говорить через цифровой аватар. Ученые имплантировали в мозг женщины электроды, которые регистрируют ее мозговые сигналы, и разработали алгоритмы машинного обучения, которые преобразуют эти сигналы в речь и эмоции аватара. Результаты исследования опубликованы в журнале Nature.


Ученые из США и Великобритании работали с 47-летней пациенткой, 18 лет назад перенесшей инсульт ствола мозга и потерявшей способность говорить и произносить звуки из-за чрезвычайной слабости мышц лица, языка и голосовых связок (так называемая анартрия). Кроме этого, женщина не могла и писать и печатать на компьютере из-за паралича рук и ног (квадриплегия). 

В ходе эксперимента имплантировали тонкий как бумага массив из 253 электродов на поверхность мозга в область сенсомоторной коры (то есть выполнялась электрокортикография, ECoG, считывая активность этого участка головного мозга. 

В течение нескольких недель участница вместе с командой обучала алгоритмы искусственного интеллекта распознавать уникальные сигналы ее мозга для генерации речи. Работа пациентки включала в себя попытки повторения различных фраз из разговорного словаря, состоящего из 1024 слов, снова и снова, пока компьютер не распознавал модели активности мозга, связанные со звуками и не преобразовывал их в текст.

Менее двух лет назад мы уже писали о другой статье в Nature, где парализованный пациент набирал текст силой мысли с рекордной скоростью (90 знаков в минуту), представляя, что он пишет текст от руки. Здесь же исследователи пошли дальше: они создали цифровой аватар пациентки и научили его говорить.

Чтобы создать голос аватара, команда разработала алгоритм синтеза речи. Его ученые настроили так, чтобы он звучал как голос женщины до травмы. Для этого исследователи использовали запись ее выступления на свадьбе. Команда также создала анимированный аватар с помощью программного обеспечения, которое имитирует и анимирует движения мышц лица, разработанного Speech Graphics, компанией, которая занимается анимацией лица на основе искусственного интеллекта.

Ученым удалось создать систему, которая может декодировать мозговые сигналы в текст  и далее в речь со средней скоростью 78 слов слов в минуту с числом ошибок в 25 процентов. Это значительный прорыв по сравнению с предыдущими достижениями подобной технологии.

Команда исследователей достигла этого результата благодаря тому, что их алгоритмы позволяли декодировать слова из фонем, минимальных «кирпичиков» устной речи. Используя этот подход, компьютеру нужно было выучить всего 39 фонем, чтобы расшифровать любое слово на английском языке. Это одновременно повысило точность системы и сделало ее в три раза быстрее. Помимо этого, исследователи создали индивидуальные процессы машинного обучения, которые позволили обрабатывать сигналы, посылаемые из мозга женщины, когда она пыталась говорить, и преобразовывать их в движения на лице созданного аватара. Это позволило цифровым челюстям открываться и закрываться, а губам выдвигаться, а также повторять движения лица при счастье, печали и удивлении. В результате женщина с тяжелым параличом из-за инсульта ствола головного мозга смогла общаться через аудио-сигналы компьютера, а также управлять мимикой цифрового аватара.

Этот прорыв в исследовании ИМК может повлиять на жизнь людей, страдающих от потери способности говорить. Важным следующим шагом для команды является создание беспроводной версии устройства, которая не потребует от пользователя физического подключения к компьютеру. 

«Предоставление людям возможности свободно управлять своими аватарами и общаться, с помощью собственных компьютеров и телефонов, окажет глубокое влияние на их независимость и социальное взаимодействие», — пишут авторы исследования.


Текст: Дария Пляченко, Алексей Паевский

Metzger, S.L., Littlejohn, K.T., Silva, A.B. et al. A high-performance neuroprosthesis for speech decoding and avatar control. Nature (2023). https://doi.org/10.1038/s41586-023-06443-4