Физиологи научились видеть фонемы внутренней речи на электроэнцефалограмме

21 мая 2021

Ученые МГУ в рамках деятельности научно-образовательной школы «Мозг, когнитивные системы и Искусственный интеллект» рассказали о результатах эксперимента по решению задачи распознавания слов и предложений внутренней речи. Работа опубликована в журнале Biologically Inspired Cognitive Architectures Meeting.

Credit: Unsplash

Распознавание внутренней речи – это перспективная технология, которая может найти применение в разработке интерфейсов мозг-компьютер и существенно помочь тем, кто страдает от нейродегенеративных заболеваний. Исследования в этой области находятся на ранних стадиях и связаны с практической ценностью, что делает их актуальными. Известно, что внутреннее произношение может быть восстановлено по данным электроэнцефалограммы, поскольку она позволяет регистрировать специфическую активность, связанную с этим процессом.

Целью данной работы является построение и реализация алгоритма извлечения признаков и классификации русских фонем по электроэнцефалограмме, записанной во время внутреннего произношения фонем. Подобные исследования активно ведутся за рубежом, однако в открытых источниках на данный момент нет информации о подобных работах для фонем русского языка. В ходе работы был построен и протестирован алгоритм извлечения признаков и классификации внутреннего произношения фонем русского языка, точность которого показала результаты, сопоставимые с другими исследованиями.

«В данной работе мы провели эксперименты по классификации фонем русского языка при внутреннем проговаривании на основе данных электроэнцефалограммы (ЭЭГ) и получили результаты, сравнимые с результатами в зарубежных исследованиях. Был сделан ряд выводов о том, как лучше собирать, обрабатывать и анализировать данные такого рода. Главным результатом является продемонстрированная возможность распознавания фонем русского языка по данным ЭЭГ. Это шаг к решению задачи распознавания слов и предложений, что фактически позволит «читать мысли» человека. Однако этого можно будет достичь при улучшении алгоритмов очистки данных от лишних артефактов и при использовании дополнительных источников информации, таких как электромиография», – рассказал Евгений Ильюшин, специалист кафедры информационной безопасности ВМК МГУ.

В работе использовались методы теории вероятностей̆, математической статистики, вейвлет-анализа и теории машинного обучения. Работа имеет значительную практическую ценность, так как задача классификации русских фонем ранее не решалась и сведений по этой теме не так много. Ученые МГУ в своей работе описали дизайн эксперимента и все шаги, которые были сделаны для достижения результата, что будет полезно другим исследователям в этой области. Также был обозначили вектор дальнейшего развития проекта и основные проблемы в текущем подходе.

«На данный момент результаты работы не могут быть использованы на практике, но конечно же конечной целью является создание полноценного устройства, которое могло бы помочь людям с нарушениями речи. В случае создания такого устройства люди смогли бы взаимодействовать с компьютерами при помощи мыслей, что особенно важно при некоторых заболеваниях. Для создания такого устройства нужно улучшить сам способ сбора данных, то есть разместить большее количество электродов в области интереса, а также улучшить алгоритмы обработки. Другой проблемой при создании такого устройства являются артефакты записи. Например, если человек двигается или даже моргает, то это сильно сказывается на записи и классификация фонем становится невозможной. Решением этой проблемы может стать одновременный сбор данных с нескольких различных устройств», – добавил Евгений Ильюшин.

Текст: МГУ

Gavrilenko Y., Saada D., Ilyushin E., Vartanov A.V., Shevchenko A. (2021) The Electroencephalogram Based Classification of Internally Pronounced Phonemes. In: Samsonovich A.V., Gudwin R.R., Simões A..S. (eds) Brain-Inspired Cognitive Architectures for Artificial Intelligence: BICA*AI 2020. BICA 2020. Advances in Intelligent Systems and Computing, vol 1310. Springer, Cham. https://doi.org/10.1007/978-3-030-65596-9_13