Ой, что-то мне за это будет… – как мозг корректирует свои ожидания

Дофаминергические нейроны среднего мозга корректируют надлежащую реакцию на происходящее, улавливая разницу между ожидаемым и полученным вознаграждением и подавая сигнал «ошибок предсказания награды» (ОПН). Для изучения этого процесса его моделируют алгоритмом машинного обучения под названием «Метод временной разницы» (Temporal Difference Learning, TD), представляя сигналы ОПН как сигналы ошибки при прохождении обучения алгоритмом TD. Изучая реакцию дофаминергических нейронов мышей на наличие или отсутствие ожидаемой награды, авторы статьи в Nature Neuroscience показали, как можно улучшить эту модель.

© Agnieszka Pastuszak — Maksim | Dreamstime Stock Photos


Классический алгоритм временной разницы предполагает, что исход зависит от состояния среды, однозначно определяемого наблюдаемыми факторами. В реальной жизни всё не так просто: за одними и теми же сенсорными стимулами могут скрываться совершенно разные вещи: высокая трава в саванне может быть просто травой, а может скрывать опасного хищника, и последствия для антилопы в двух случаях будут различными. Теоретически, модель будет точнее описывать реальность, если совокупность стимулов будет иметь определённую вероятность отражать то или иное состояние среды. Тогда последствия могут быть предсказаны на основании самой вероятной интерпретации имеющейся сенсорной информации. Авторы статьи проверили такую модель на практике.

Две группы мышей учились выполнять одинаковое задание в ответ на появление определенного запаха. За это рано или поздно они получали вознаграждение. Первая группа получала награду всегда, а вторая – только в 90% случаев. В процессе эксперимента исследователи записывали реакцию дофаминергических нейронов мышей на изменение времени ожидания награды в зависимости от вероятности её получения. Оказалось, что сигнал ошибок предсказания награды по-разному зависит от времени её ожидания у мышей, получающих поощрение всегда или только иногда: когда мышь точно знает, что получит награду, с каждой секундой вероятность её получения растёт. Если же награда достаётся мыши не всегда, с каждой секундой растёт вероятность того, что ожидание напрасно. При этом классическая модель TD плохо описывала зависимость величины сигналов ОПН от времени ожидания награды для второй группы мышей, а модель TD с вероятностными состояниями делала это довольно точно.

Вряд ли когда-нибудь учёным удастся создать модель, идеально описывающую работу мозга. Но, возможно, алгоритмы машинного обучения помогут лучше понять её, а понимание происходящих в мозге процессов, в свою очередь, поможет создавать более эффективные алгоритмы.


Текст: Галина Клинк

Dopamine reward prediction errors reflect hidden-state inference across time by Starkweather, C. K., Babayan, B. M., Uchida, N., & Gershman, S. J. in Nature Neuroscience. Published online March 2017.

Читайте материалы нашего сайта в Facebook, ВКонтакте и канале в Telegram, а также следите за новыми картинками дня в Instagram.

Еда: двойное удовольствие и переедание

Во время приема пищи выработка дофамина в головном мозге запускается дважды: один раз непосредственно во время еды, а второй раз – когда наступило насыщение. Попытка…

Еще раз о пользе чая для мозга пожилых

Ученые из Национального университета Сингапура (NUS) показали, что мозг пожилых людей, употребляющих чай как минимум 4 раза в неделю, имеет несколько иную структурную организацию и…

Желудочки головного мозга увеличиваются после длительного пребывания в космосе

Группа ученых из России, Бельгии и Германии обнаружила у космонавтов Роскосмоса увеличение объема боковых  и третьего желудочков мозга. Статья об исследовании была опубликована в журнале…

Интересный пациент: девушка без мозжечка

О том, насколько пластичным может быть наш мозг, мы уже писали,рассказывая о клиническом случае, опубликованном в 2007 году в журнале Lancet. Там в поле зрения…

Как быстро мысли о действиях меняют мозг?

Нейрокомпьютерные интерфейсы позволяют людям управлять устройствами, используя сигналы мозга. Их работа основана на считывании электрической активности мозга в тот момент, когда обладатель нейроинтерфейса думает о…

Как улучшить мозг. Выпуск 17: дети и стимуляция мозга

В последние десятилетия постоянно растет интерес к неинвазивной стимуляции мозга как способу улучшить работу нервной системы. Однако в педиатрии такие методы используют довольно редко, в…

Как улучшить мозг. Выпуск 28: как нейроинтерфейсы помогают контролировать себя

Австрийские ученые из Университета Граца разработали методику, которая помогает людям лучше управлять биопотенциалами головного мозга при использовании нейрокомпьютерных интерфейсов. Ученые описывают самоконтроль активности мозга, как…

Как улучшить мозг. Выпуск 7: почему IQ-тесты не всегда корректно работают?

С одной стороны, тестирование интеллекта – одно из важнейших достижений психологии. Результаты предсказывают некоторые явления реального мира, многие из них хороши для практического использования. Тесты…

Найден быстрый способ диагностики аутизма

Исследователям из медицинской школы Уэйк-Форест удалось продвинуться в разработке быстрого и объективного теста для диагностики расстройств аутистического спектра (РАС). С помощью фМРТ ученые измерили активность…

Мозг попугая оказался похож на обезьяний

Исследование канадских нейробиологов из Университетов Альберты и Летбриджа, опубликованное в Scientific Reports, показало, что нейральный тракт, проводящий основные сигналы от коры (переднего мозга) к мозжечку через средний…