Ученые НИУ ВШЭ и МГМСУ им. Евдокимова разработали модель машинного обучения, которая предсказывает произнесенное слово на основе активности мозга, записанной небольшим количеством инвазивных электродов. Статья “Speech decoding from a small set of spatially segregated minimally invasive intracranial EEG electrodes with a compact and interpretable neural network” опубликована в Journal of Neural Engineering. Работа выполнена при поддержке мегагранта правительства РФ в рамках нацпроекта «Наука и университеты».
Во всем мире миллионы людей имеют речевые нарушения, которые ограничивают их способность к повседневному общению. Причины потери речи могут быть разными — от перенесенного инсульта до врожденных заболеваний.
Современные технологии позволяют вернуть возможность к коммуникации: например, интерфейсы безмолвного доступа считывают и восстанавливают текст на основе артикуляционных мышц, когда пользователь произносит его беззвучно, одними губами. Однако такие устройства помогают не во всех случаях. В частности, люди с параличом мускулатуры лица не могут их использовать.
Доступное и точное восстановление речевых функций могут обеспечить речевые нейропротезы — нейрокомпьютерные интерфейсы, которые декодируют речь на основе активности мозга.
В отличие от привычного нам интерфейса персонального компьютера, в нейрокомпьютерных интерфейсах (НКИ) устройство получает команды напрямую от мозга человека, не требуя ввода через клавиатуру или микрофон.
Одно из препятствий к широкому использованию НКИ в протезировании речи — это их инвазивность, то есть необходимость установки электродов непосредственно на мозговой ткани, что требует хирургического вмешательства.
Наиболее точное воспроизведение речи достигается нейропротезами, электроды которых считывают активность мозга с большой поверхности его коры. Однако такие устройства не обеспечивают долговременный электрический контакт с мозговой тканью, а их имплантация связана с высокими рисками для пациента.
Ученые Центра биоэлектрических интерфейсов ВШЭ и МГМСУ им. Евдокимова изучили возможность создать рабочий нейропротез, который сможет обеспечивать приемлемую точность, считывая сигналы активности мозга с небольшого участка коры головного мозга при помощи малого числа электродов. В будущем имплантация такого нейропротеза может быть выполнена даже под местной анестезией. А в проведенном исследовании использовались данные об активности мозга во время выполнения речевой задачи двумя пациентами с эпилепсией, которым были установлены внутричерепные электроды с целью локализации очага эпилепсии.
У первого пациента были имплантированы 5 стереотаксических ЭЭГ-стержней по 6 контактов в каждом, у второго — набор из 9 электрокортикографических (ЭКоГ) полосок по 8 контактов каждая. В отличие от ЭКоГ, сЭЭГ не требует удаления части черепа при установке, а имплантируется через просверленные отверстия. Для декодирования речи из активности мозга использовались только 6 контактов с одного стереотаксического стержня или 8 контактов с одной ЭКоГ-полоски.
В эксперименте испытуемый вслух читал 6 предложений, каждое предъявлялось от 30 до 60 раз вперемежку с остальными. Предложения имели разную лингвистическую конструкцию и содержали созвучные слова (например, «Шура широко шагает в широких штанах»). Всего во всех предложениях встречалось 26 слов. Во время чтения предложений электроды регистрировали электрическую активность мозга испытуемого.
Записанные аудиосигналы и соответствующую им активность мозга разметили в соответствии с произносимыми словами. Вышло 27 классов, включая 26 слов и состояние покоя. Затем данные из сформированной обучающей выборки (содержащей сигналы, записанные в первые 40 минут эксперимента) передали в модель машинного обучения — нейросеть со специально разработанной учеными архитектурой. Задачей нейросети было предсказание слова (класса) на основе электрической активности мозга, предшествующей произнесению этого слова.
При разработке архитектуры нейронной сети ученые сосредоточились на простоте, компактности и нейрофизиологической интерпретируемости ее параметров. Архитектура выполняла задачу в два этапа: сначала она извлекала из записанной электродами мозговой активности внутренние речевые представления, решая задачу предсказания мел-спектральных коэффициентов, затем на основе этих представлений предсказывался конкретный класс — слово или состояние покоя.
В итоге обученная нейросеть смогла предсказывать слова с точностью 55% для первого пациента на основе сигналов активности мозга, регистрируемых только одним сЭЭГ-стержнем с 6 контактами, и с точностью 70% для второго пациента на основе данных от одной ЭКоГ-полоски с 8 контактами. Эта точность сравнима с результатами, которые в других исследованиях демонстрируют устройства, требующие расположения электродов по всей поверхности мозга.
Полученная интерпретируемая модель позволила в нейрофизиологических терминах объяснить, какая информация вносит наибольший вклад в предсказание слова. Исследователи проанализировали, сигналы от каких нейронных популяций оказались важнее всего для нейросети. Эти результаты совпали с зонами, обнаруженными в результате проведенного врачами ранее картирования областей мозга, ответственных за речевые функции. Это говорит о том, что модель использует действительно значимые мозговые сигналы и потенциально может быть использована и для декодирования воображаемой речи.
Другое преимущество разработанной нейросети в том, что она не потребовала ручного конструирования признаков. Модель сама научилась извлекать из мозговой активности речевые представления. Интерпретируемость найденных признаков позволила сделать вывод о том, что архитектура выполняет декодирование мозговых сигналов, а не сопутствующей активности, как, например, электрические сигналы от артикуляционных мышц.
Ученые подчеркивают важность того, что для предсказания использовалась активность мозга, непосредственно предшествующая произнесению слова. По их мнению, это гарантировало неиспользование решающим правилом ответа слуховой коры на прослушивание произнесенной самим испытуемым речи.
«Использование таких интерфейсов сопровождается минимальными рисками для пациента. Если все получится, то воображаемую пользователем речь можно будет декодировать, считывая активность мозга при помощи небольшого числа минимально инвазивных электродов. Они будут имплантироваться в амбулаторном режиме под местной анестезией», — рассказывает руководитель исследования Алексей Осадчий, директор Центра биоэлектрических интерфейсов Института когнитивных нейронаук ВШЭ.
Материал подготовлен в рамках совместного проекта с инфраструктурным центром «Нейронет». В нем мы освещаем мировые достижения в области нейротехнологий, нейроразвлечений и спорта, а также нейрообразования.