Исследователи из Европейского института биоинформатики EMBL разработалиновый подход к изучению влияния генетических вариаций на различные черты изучаемых организмов. Новый алгоритм под названием MSET даёт возможность выполнить генетический анализ на множество черт у 500 тысяч особей одновременно.
Связь между генами и специфическими чертами – на деле гораздо более сложная, чем кажется. Каждая черта или болезнь обусловлена далеко не одним геном, а целой группой вариаций. Специалисты Ассоциации исследований генома (GWAS) утверждают, что любой признак или черта обусловлены сочетанием множества генетических факторов, однако учёные только начинают исследовать то, как генетические вариации влияют, например, на здоровье.
В этом отношении генетикам и медикам очень нужна оптимальная система или алгоритм, которые бы выискивали нужную информацию в данных сразу о сотнях тысяч людей. Только так можно будет достоверно изучить взаимосвязь между различными генетическими вариациями и соответствующими чертами.
"Выявить генетические вариации, лежащие в основе черты или фенотипа – весьма сложная задача. Как правило, мы выполняем работу, анализируя каждый фенотип и каждую вариацию, – рассказывает руководитель исследования Оливер Стэгл (Oliver Stegle). – Сейчас мы используем простые модели, чтобы раскрыть сложные зависимости между наборами генетических вариаций и фенотипом болезни".
Сложные модели, которые позволяют взглянуть на совместное действие множества различных вариаций, существуют, однако для обработки одного сложного запроса потребуется примерно год непростых компьютерных вычислений.
"Наш прорыв заключается в том, что мы нашли возможность выполнять интегрирующий анализ множества вариаций и фенотипов за то же время, которое тратится на один простой анализ", – говорит Стэгл.
Исследователи проверили свои алгоритмы на данных двух исследований, результаты которых были помещены в открытом доступе, и сравнили их с полученной с помощью самых современных инструментов информацией. Их изучение четырёх липидных черт показало, что новый метод работает значительно быстрее и может найти "основу" большей части этих черт в управляющих ими генах.
"Нашей целью было получить возможность изучить эти вопросы с обеих сторон, – продолжает Стэгл. – С одной стороны, мы хотели узнать все вариации одного гена, которые могут быть вовлечены в регулировку одного конкретного липидного признака. С другой стороны, мы стремились посмотреть на совокупный эффект, получить информации о липидном регулировании в общем".
С помощью нового алгоритма учёные получили возможность рассмотреть несколько вариаций гена сразу, сравнивая их с несколькими связанными фенотипами. Это помогает определить, какие гены (или участки генов) задействованы в конкретных функциях (например, в липидном регулировании).
Данная работа улучшила статистическую мощность (а значит, уверенность учёных в правильности своих выводов) и предоставила инструменты, которые могут анализировать несколько признаков в очень большой выборке.
Алгоритм может быть использован для изучения до полумиллиона физических лиц – ранее такие масштабные комплексные анализы потребовали бы огромных временных затрат. Метод поможет исследователям определить, какие конкретные аспекты биологии человека являются наследуемыми, а также раскрыть некоторые тайны генетической "ответственности" за многочисленные биологические процессы.