Тестовую версию нового речевого интерфейса мозг-компьютер, который помогает людям, утратившим возможность общаться с окружающими, представили исследователи из Калифорнийского университета в Лос-Анджелесе (США). Главная особенность этого ИМК – декодирование слов происходит с участков коры головного мозга, управляющих мышцами языка и нижней челюсти, а синтезированный текст озвучивает виртуальный аватар. Работа важная, у нас уже выходила небольшая заметка, а сегодня мы расскажем о ней подробнее.
Credit: Sean L. Metzger et al., Department of Neurological Surgery, University of California, San Francisco, San Francisco, CA, USA
Отсутствие способности говорить лишает человека нормальной коммуникации и зачастую приводит к выпадению из жизни общества. Это – весьма значительная социальная проблема, которая преодолевается с большим трудом. Имеющиеся сейчас решения далеки от совершенства и обладают довольно ограниченным функционалом.
Разработка речевых интерфейсов мозг-компьютер (ИМК), призванных давать людям возможность снова общаться с окружающими – очень важная отрасль исследования и инженерии, имеющая высокую социальную значимость. К сожалению, недостатки, которыми обладают современные разговорные ИМК, пока что не дают возможности сделать общение полноценным. Речь декодируются довольно медленно и требует от пользователя ИМК немалых усилий, доступный к извлечению словарный запас не отличается богатством, речь обеднена эмоциями. Совершенствование речевых ИМК направлено как раз на решение этих проблем.
Новый вариант речевого ИМК представили исследователи из Калифорнийского университета (США), которые в течение 10 лет занимались проблемой возвращения речи через нейропротезы. Результатом их нелегкого труда стал разработанный ими мультимодальный речевой ИМК, который способен декодировать текстовые и аудиовизуальные речевые сигналы из головного мозга с помощью электрокортикографии (ЭКоГ). Описание своей разработки исследователи опубликовали в журнале Nature.
Метод ЭКоГ – это инвазивный метод регистрации электрических сигналов с мозга, с помощью вживленных в ткани головного мозга мультиэлектродных матриц. Этот метод считается более эффективным, чем неинвазивные, но, к сожалению, он далеко не такой доступный для широкой аудитории. Такую матрицу, состоящую из 253 электродов, вживили 47-летней женщине, которая вследствие инсульта уже более 18 лет не способна ни говорить (из-за дистонии ее лицевых и голосовых мышц), ни писать (из-за слабости рук и кистей).
ЭКоГ-матрицу поместили в речевой области сенсомоторной коры и височной извилины – зонами, которые управляют орофациальными мышцами (мышцы языка и нижней части лица, критически важны для извлечения речи). Женщине дали задание: увидев текст на экране, она должна была постараться представить, как она физически произносит предложение, то есть вообразить движения этими мышцами. Исследователи же из регистрируемых сигналов выделяли высокочастотную гамма-активность (70-150 Гц) и низкочастотные сигналы (0,3-17 Гц) и обучали ими модели глубокого обучения. Эта модель сопоставляла активность мозга с определенными тонами, чертами звуков речи и артикуляционными жестами. Обработанная информация передавалась виртуальному анимированному аватару, который выводился на экран и проговаривал предложения за женщину. Как это происходит в реальности, можно посмотреть в предоставленном исследователями видео.
Пока что речевой набор ограничили только фразами, с помощью которых человек может выражать основные концепции и потребности в уходе, что является первой необходимостью для инвалида. В целом исходный набор состоял из 50 предложений, состоящих из 119 уникальных слов. Из них исследователи составили набор из 50 фраз первой необходимости. Кроме того, модель обучали на наборе из 1024 простых общеупотребительных уникальных слов, взятых из Твиттера и субтитров к фильмам.
Изучение статистических сопоставлений между сигналами с ЭКоГ и последовательностями звуков в предложении и речевых характеристик, по словам исследователей, осложнялось отсутствием четкой информации о времени произношения слов и звуков про себя. То есть не очень понятно, какое слово пытается произнести пациентка в конкретный момент времени. Для преодоления этой проблемы во время обучения моделей исследователи прибегли к функции потерь коннекционистской временной классификации (connectionist temporal classification, CTC), которая обычно используется для распознавания речи и вывода последовательностей подслов (фонем или букв) из речевых сигналов, когда точное выравнивание по времени между единицами и формами сигналов неизвестно.
Производительность декодирования оценивалась при помощи нескольких специальных коэффициентов, которые измеряли процент неверных декодированных слов, звуков и символов соответственно. Таким образом получилось снизить вероятность ошибочного декодирования до 23%.
В итоге разработанная исследователями модель смогла обеспечить довольно быструю речь – 78 слов в минуту (в норме человек способен выдавать в среднем 120-150 слов в минуту). Что не менее важно и интересно, виртуальный аватар мог также передавать узкий диапазон эмоциональной окраски речи: радость, грусть, удивление.
По сравнению с предыдущими разработками, здесь исследователям удалось повысить скорость связи ИМК в 4 раза и сильно увеличить словарный запас. Несомненно, огромное достижение состоит и в том, что авторы продемонстрировали возможность синтезирования понятной речи из электрических сигналов, читаемых с головного мозга парализованного человека. И, наконец, исследователи предоставили новый вариант управления ИМК в виде цифрового аватара, способного выражать динамичную, реалистичную и интерпретируемую речь и невербальные мимические жесты.
Достигнутые успехи, как отмечают авторы – это результат большого многолетнего труда не только их группы, но и всего научного сообщества, занимающегося данной проблемой. Конечно, и эта модель тоже несовершенна, и исследователи указывают, на что стоит обратить усилия для создания лучшего ИМК. Во-первых, обеспечение мгновенной обратной связи во время декодирования может улучшить взаимодействие с пользователем, производительность модели и вовлечение нейронов. Во-вторых, для клинического применения дальнейшие достижения в области электродных интерфейсов, обеспечивающих более плотное и широкое покрытие коры головного мозга, должны продолжать повышать точность и возможности обобщения сигналов.
Текст: Анна Удоратина
A high-performance neuroprosthesis for speech decoding and avatar control by Sean L. Metzger et al., Nature. Published August 2023.