Машинное обучение поможет найти генетические маркеры заболеваний

Исследователи из Принстонского университета разработали новый алгоритм машинного обучения для лучшего понимания причин развития заболеваний. Команда ученых, опубликовавших свою работу в журнале Cell Systems, уже обнаружила и экспериментально подтвердила ранее неизвестный вклад четырех генов в редкую форму рака, которая часто поражает маленьких детей.

Большинство исследований сегодня сосредоточено на определенных генах, ответственных за развитие того или иного заболевания. Новый метод использует машинное обучение, чтобы находить уникальные комбинации генов, рассматривая одновременно более 300 различных заболеваний, включая онкологические заболевания, болезни сердца, нарушения обмена веществ и многие другие. При этом выявляются различия между родственными заболеваниями, которые невозможно отличить друг от друга с помощью других методов.

На изображении слева показана клетка с нормальным геномом, а справа – клетка с одним из обнаруженных мутанты генов при нейробластоме. Credit: Chandra L. Theesfeld et al.


Система под названием Unveiling RNA Sample Annotation for Human Diseases или URSA(HD) включает информацию об активности генов, полученных на основании 8000 биопсий, взятых у здоровых людей и больных пациентов. В дальнейшем исследователи могут отправлять новые образцы в алгоритм через веб-интерфейс и получать результат.

«Наш метод основан на комплексной информации о пациентах, поэтому алгоритм не делает акцент на генах заболевания, которые всегда изучаются, – говорит Чандра Тизфельд (Chandra L. Theesfeld), один из ведущих авторов исследования. – Мы можем отслеживать закономерности изменений в данных, не зная точно, что означает каждое изменение».

Тизфельд также отмечает, что 90 процентов исследований генов посвящены изучению только 10 процентов человеческих генов. URSA(HD) рассматривает весь геном человека и создает модель для каждого заболевания.

Этот алгоритм может стать особенно эффективным для редких заболеваний, для которых теперь возможно создать модель, получив всего несколько образцов ткани. Например, нейробластома – злокачественное новообразование мозга, поражающее детей. Исследователи обнаружили четыре гена, активность которых способствовала развитию заболевания и о которых ранее не было никакой информации в современной литературе.

Вместо того, чтобы «смотреть» на саму ДНК, URSA(HD) «смотрит» на РНК – продукт, который появляется после считывая информации с ДНК в процессе синтеза рабочих молекул (транскрипция). Таким образом, система смотрит за пределы мутаций и вместо этого сосредотачивается на продуктах транскрипции (транскриптоме).

Исследователи полагают, что в дальнейшем этот метод будет полезен для клиницистов в диагностике заболеваний, оценке эффективности лечения, а также в поисках новых подходов к лечению.

 


Текст: Анастасия Тихомирова

A Computational Framework for Genome-wide Characterization of the Human Disease Landscape by Young-suk Lee, Arjun Krishnan, Rose Oughtred, Jennifer Rust, Christie S. Chang, Joseph Ryu, Vessela N. Kristensen, Kara Dolinski, Chandra L. Theesfeld, Olga G. Troyanskaya in Cell Systems, 2019; 8 (2): 152

DOI: 10.1016/j.cels.2018.12.010