Об искусственном интеллекте в здравоохранении в нашей стране говорят уже несколько лет. Но насколько алгоритмы машинного обучения окрепли, готовы ли они бросить вызов живым врачам или стать их надежными помощниками? Специалисты Центра диагностики и телемедицины решили проверить это в реальном соревновании между машиной и экспертами, которое прошло 13-14 декабря в рамках традиционной Итоговой конференции МРО РОРР, посвященной в этом году лучевой диагностике в онкологии.
Нужно сказать, что первый опыт проведения битвы, но больше в формате дискуссии, состоялся в июне этого года на VI Международном саммите MIR «Менеджмент в диагностике». За полгода команда Центра диагностики и телемедицины под руководством его директора – профессора Сергея Морозова, главного внештатного специалиста по лучевой и инструментальной диагностике – формат значительно доработала и объявила поиск компаний, которые готовы проверить свои алгоритмы по обработке радиологических изображений в реальных условиях.
«Сейчас стоит принципиальный вопрос: как практически оценивать алгоритм? В нашей стране еще не было ни одного кейса по реальному внедрению алгоритмов в практику. Мы много собирались, обсуждали, обдумывали, как сделать все соревнование максимально нейтральным. Сегодня мы не будем показывать цифры, а только назовем победителей», — рассказал Сергей Морозов.
В соревновании приняли участие четыре компании: Третье мнение, IRYM, Цельс (ООО «Медицинские скрининг-системы») из России и HY Medical из Китая. Каждый участник выбрал, в какой из трех модальностей он будет соревноваться: в рентгенографии (РГ), компьютерной томографии (КТ) или маммографии (ММГ).
Искусственному интеллекту предстояло проанализировать по пять рентгенограмм легких, компьютерных томограмм органов грудной клетки или маммограмм. В каждом из случаев от него требовался простой бинарный ответ. На рентгенограммах ИИ-сервису нужно было понять: здесь представлена норма, или есть какая-то патология (если есть – указать ее локализацию). На маммограммах предстояло решить, есть ли в молочной железе очаги с подозрением на злокачественное образование, при которых нужно отправлять на дообследование, или все хорошо. А на компьютерных томограммах сервис должен был указать, норма ли перед ним или подозрение на рак легкого (с определением того, где находятся очаги), также требующий дообследования.
С искусственным интеллектом соревновались пять врачей-экспертов, которые определяли норму или патологию на снимках и отмечали патологически измененные участки. Кроме того, открыли голосование для аудитории из врачей-рентгенологов, кто собрался в месте проведения ИИ-баттла. По условиям конкурса, за сутки до старта ИИ-баттла разработчики получили доступ к полному набору данных, содержащих 100 исследований в соответствии с той модальностью, которую выбрала компания (КТ, РГ или ММГ). Все эти данные им следовало обработать и выслать организаторам результаты на следующий день. Непосредственно в день битвы утром им сообщили, какие именно пять исследований из этой сотни они должны подготовить в формате изображений и, тем самым, продемонстрировать диагностические возможности своего алгоритма в ходе баттла.
Баттл «Рентгенологи против ИИ» открыла рентгенография легких. Здесь участвовала одна компания. Мнения искусственного интеллекта и эксперта совпали в 4 из 5 случаев, но последний, по словам ведущего битвы Антона Владзимирского, заместителя директора по научной работе Центра диагностики и телемедицины, был самым сложным. Машина заметила патологию в легких, хотя по факту никакой патологии не оказалось, но присутствовал перелом ребер, который даже не попал в зону интереса, выделенную алгоритмом. Аудитория в большинстве своем также соглашалась с экспертом и перелом заметила.
Второй раунд продолжила маммография, и в нем рискнули поучаствовать две компании. Тут ИИ и подвел. В первых двух случаях мнения первого алгоритма и эксперта сошлись частично, второй алгоритм полностью попал в цель. А вот в трех следующих оказались неправы оба алгоритма, подозревая злокачественное образование там, где эксперт видел норму или доброкачественные изменения. Для аудитории этот раунд тоже стал самым сложным (частота расхождений составила 50/50).
Зато с КТ грудной клетки особых проблем не возникло. Здесь представила свой алгоритм одна компания, и мнения эксперта с мнением машины не совпали лишь в одном из четырех случаев. Аудитория колебалась также в одном случае и по большей части «отправляла больного на дообследование» только в действительно необходимых ситуациях.
«В случае с рентгенографией, если мы говорим о скрининге, диагностическая точность ИИ лучше, и здесь машина вполне может помогать врачу. Результаты по анализу КТ машиной и человеком примерно одинаковы – его точность, в целом, эквивалентна работе человека. С маммографией же гораздо хуже, и это как раз говорит о том, что без клинического сценария ИИ бесполезен. Если ИИ не встроен в клинический процесс, то он превращается в бесполезную игрушку», — подвел итог Антон Владзимирский.
После завершения баттла жюри подсчитало результаты по специально разработанной системе критериев и подвело итоги.
«Победителя мы определяли по нескольким критериям, в первую очередь критериям точности: чувствительности, специфичности, площади под характеристической кривой, прогностической ценности согласно методике клинико-технических испытаний, разработанной в нашем Центре. Также имели значение количество ложно-положительных и ложно-отрицательных результатов, качество предоставления информации о компании и сервисе на баттле, совпадение диагноза, поставленного сервисом, с мнением зрителей», – рассказала Анна Андрейченко, одна из членов жюри, медицинский физик и старший научный сотрудник Центра диагностики и телемедицины.
«Наша задача – показать разработчикам, какие слабые стороны еще нужно дорабатывать, чтобы дело дошло до внедрения в практическое здравоохранение, а врачам – что ИИ уже действительно может работать и реально помогать на практике», – отметил Сергей Морозов.
Текст: Анна Хоружая