Исследователи Санкт-Петербургского университета – alma mater президента России Владимира Путина – продолжают научную битву с коронавирусом, разрабатывают новые инструменты, которые помогут обезоружить не только Covid-19, но и его собратьев. Так, биоинформатики Центра алгоритмической биотехнологии СПбГУ совместно с коллегами из Калифорнийского университета в Сан-Диего представили ассемблер metaviralSPAdes — новый сборщик, позволяющий найти и собрать геном вируса среди множества других последовательностей. Разработка поможет быстрее и удобнее расшифровывать геномы патогенов, а значит, даст возможность быстрее приступить к разработкам тест-систем и вакцин от опасных инфекций.
Научная статья опубликована в журнале Bioinformatics.
Когда человечество сталкивается с новым вирусом, биологи первым делом принимаются за расшифровку его генома — это необходимое условие для дальнейшей диагностики заболевания и разработки вакцины. Однако, если секвенирование нужно провести во время вспышки нового патогена, возникает проблема. Например, в слюне пациента с COVID-19, которая использовалась для самой первой расшифровки коронавируса SARS-CoV-2, содержались геномы многих других, в большинстве случаев безвредных вирусов. Не говоря уже о сотнях бактерий, которые живут во рту человека и затрудняют поиск вирусных последовательностей.
Этот пример показывает, как важно уметь решать гораздо более сложную вычислительную задачу, чем расшифровка одного генома, — собирать метагеномы, наборы из сотен различных геномов микроорганизмов, живущих в одной среде. Сложность заключается в том, что в результате такой работы можно получить тысячи последовательностей, среди которых будут фрагменты генетического кода как вирусов, так и бактерий, и какие именно данные относятся к нужному патогену, понять совсем непросто.
К тому же перед учеными неизбежно встанет другая задача — секвенирование метавирома — суть которой заключается в том, чтобы идентифицировать именно вирусные последовательности, скрытые среди гораздо более длинных бактериальных фрагментов. Затем биоинформатикам предстоит буквально по кусочкам собрать полный геном вируса, ставшего виновником вспышки заболевания.
Еще недавно у исследователей не было специального инструмента, который позволил бы собирать вирусные метагеномы. Однако группа российских и американских ученых из Санкт-Петербургского государственного университета и Калифорнийского университета в Сан-Диего разработала ассемблер metaviralSPAdes, который превращает анализ результатов секвенирования метавирома в простую задачу.
Биологи до сих пор не могут прочитать весь геном так же, как мы читаем книгу: от начала и до конца. Вместо этого они прочитывают небольшие фрагменты, поэтому сборка генома мало чем отличается от сборки пазла из миллиона фрагментов. Часто эту задачу рассматривают как одну из самых сложных алгоритмических проблем в биоинформатике. Решить ее все-таки можно: так, самый широко используемый геномный сборщик SPAdes (Saint Petersburg Assembler), также созданный российско-американской командой ученых, был применен на сегодня почти в 9000 исследований. С его помощью ученые анализировали патогены, вызвавшие вспышку Ближневосточного респираторного синдрома (MERS) в Саудовской Аравии, Эболы в Конго, гонореи в Англии, менингита в Гане, лихорадки денге на Суматре и десятки других вспышек, которые произошли за последние восемь лет с момента создания SPAdes.
Не стоит забывать, что сборка метагенома из 1000 геномов намного сложнее, чем сборка последовательности одного генома. В этом случае приходится разбираться с 1000 отдельных пазлов вместо одного: требуется собрать «картинку», фрагменты которой перемешались с миллиардами кусочков от других пазлов. Для решения этой проблемы три года назад российско-американская команда ученых, создавших SPAdes, разработала ассемблер metaSPAdes, который, в свою очередь, стал ведущим метагеномным сборщиком. С его помощью извлекать вирусные последовательности из огромного количества данных стало легче, однако сборщик нового поколения metaviralSPAdes способен не только находить фрагменты вирусных геномов, но еще и собирать из них готовый «пазл» — геном патогена.
Пандемия COVID-19 стала тревожным звонком для биологов, изучающих передачу вирусов от животных к человеку, и напомнила, насколько важно исследовать различных хозяев вирусов, например летучих мышей, обладателей беспрецедентной иммунной системы, которая позволяет им сосуществовать со множеством патогенов, способных убивать людей. Нам необходимо знать, чем болеют летучие мыши, до, а не после пандемических ударов.
Безусловно, проведение переписи вирусных геномов самых разных животных является сложной вычислительной проблемой. Однако, имея под рукой metaviralSPAdes, биологи теперь могут куда проще реконструировать вирусные геномы летучих мышей или любых других потенциальных источников будущих пандемий.
В создании нового геномного сборщика приняли участие научные сотрудники Центра алгоритмической биотехнологии Института трансляционной биомедицины СПбГУ Дмитрий Антипов и Михаил Райко, заместитель директора Центра профессор СПбГУ Алла Лапидус, а также руководитель лаборатории, профессор Калифорнийского университета в Сан-Диего, всемирно известный специалист в области биоинформатики Павел Певзнер.
Напомним, что ранее учёные Центра алгоритмической биотехнологии СПбГУ помогли коллегам из петербургского Института гриппа имени Смородинцева впервые расшифровать геном «российского» варианта вируса SARS-CoV-2, который привёл к пандемии COVID-19. РНК этого вируса выделили из мазка заболевшей петербурженки 15 марта 2020 года. Кроме того, недавно международная группа учёных под руководством Павла Певзнера создала новый вычислительный метод для поиска циклопептидов — класса веществ, в который входят многие известные антибиотики. С помощью подхода, названного CycloNovo, ученые нашли 79 новых возможных кандидатов на роль убийц бактерий.