Сотрудники Массачусетского технологического института создали нейросеть для диагностики депрессивных расстройств по речи пациента. Точность компьютерного диагноза составила 77 процентов, причём программа искусственного интеллекта (ИИ) позволяет диагностировать заболевание на любом относительно полном фрагменте речи и не зависит от темы разговора. Подробности своей разработки авторы описали в статье, опубликованной на сайте института.
Credit: Stockvault
По Международной классификации болезней депрессивный эпизод сопровождается сниженным настроением и работоспособностью, усталостью, снижением интереса в отношении привычных видов деятельности, а также изменениями аппетита и сна, приводящими к перееданию и пересыпанию или наоборот, к потере аппетита и бессоннице. Диагностику таких состояний проводит психиатр, который задаёт пациенту стандартные вопросы о наличие подобных проблем в семье и изменениям самочувствия за определённое время. Иногда пациенты скрывают свои чувства и отрицают проблему, что существенно затрудняет диагностику. В таком случае специалисту нужно имеет очень большой опыт, чтобы уловить признаки и выявить депрессию.
Наряду со стандартными методами диагностики депрессивного состояния — шкалы депрессии Бека, шкалы Занга и до сих пор совершенствующегося американского Опросника здоровья пациента (Patient Health Questionnaire — PHS), появляются широкие возможности технологий искусственного интеллекта. В недавней работе исследователи из Массачусетского технологического института создали нейронную сеть для распознавания депрессии с помощью устной речи пациента.
Они обучили нейросеть с долгой краткосрочной памятью, позволяющей классифицировать задачи на основе некоторого количества исходных параметров. Для обучения разработчики использовали данные корпуса интервью с пациентами с депрессивными симптомами (Distress Analysis Interview Corpus) и здоровыми людьми. В итоге получилось 142 беседы с добровольцами с известным диагнозом, из которых у 28 участников стоял диагноз клинической депрессии.
Для обучения искусственного интеллекта авторы использовали два вида речи – устную в виде аудио и письменную расшифровку записи. В первом случае алгоритм учитывал паузы, высоту голоса и время, потраченное на произнесение одного слова, во втором выстраивал векторные модели фраз, по которым затем вычислялись самые частые слова и словосочетания людей у с разными диагнозами. После анализа названных параметров нейросеть присваивала балл от 0 до 27. Так, промежуток от 20 и выше означал тяжелую форму расстройства, а оценка от 0 до 4 хорошее психическое состояние.
В экспериментальном тестировании задействовали 47 интервью участников с разным диагнозом. Эффективность правильного результата, как выяснилось, зависела от входных данных: для того чтобы определить диагноз по тексту потребовалось около семи реплик, а в случае в аудио не менее тридцати. В результате ИИ правильно распознал объекты из числа положительных результатов на 83% с точностью определения из всех тестируемых в 71%. В среднем точность диагностической оценки составила 77%.
Несмотря на то, что подобные системы диагностики уже существуют, у новой нейросети есть своя особенность, а именно свобода от контекста – отсутствие закрепления результата за определёнными вопросами или репликами. Такой подход позволяет проводить диагностику аффективных расстройств в ходе любого диалога, даже без присутствия врача.
Текст: Екатерина Заикина
Detecting Depression with Audio/Text Sequence Modeling of Interviews
By Tuka Alhanai, Mohammad Ghassemi , and James Glass
Читайте материалы нашего сайта в Facebook, ВКонтакте, Яндекс-Дзен и канале в Telegram, а также следите за новыми картинками дня в Instagram.