Посещений:
Highly accurate protein structure prediction for the human proteome | |
---|---|
|
Белковые структуры могут предоставить бесценную информацию как для рассуждений о биологических процессах, так и для проведения таких вмешательств, как разработка лекарств на основе структуры или целенаправленный мутагенез. После десятилетий усилий 17% от общего количества остатков в последовательностях белков человека увязаны экспериментально с определенной структурой1. Здесь мы заметно расширяем структурный охват протеома, применяя современный метод машинного обучения AlphaFold2 в масштабе, охватывающем почти весь протеом человека (98,5% человеческих белков). Полученный набор данных охватывает 58% остатков с достоверным прогнозом, из которых подмножество (36% всех остатков) имеет очень высокую достоверность. Мы представляем несколько показателей, разработанных на основе модели AlphaFold, и используем их для интерпретации набора данных, определения надежных многодоменных прогнозов, а также регионов, которые, вероятно, будут неупорядоченными. Наконец, мы приводим некоторые тематические исследования, чтобы проиллюстрировать, как высококачественные прогнозы могут быть использованы для создания биологических гипотез. Мы делаем наши прогнозы общедоступными для сообщества и ожидаем, что обычное крупномасштабное и высокоточное структурное прогнозирование станет важным инструментом, который позволит решать новые вопросы с точки зрения структуры.
Итак, в этом исследовании мы создали всеобъемлющие, современные прогнозы структуры человеческого протеома. Полученный набор данных вносит большой вклад в структурный охват протеома, особенно для задач, в которых высокая точность является предпочтительной, таких как молекулярная замена или характеристика мест связывания. Мы также применили несколько показателей, полученных на основе архитектуры AlphaFold - PLDDT, pTM и экспериментально resolved head, - чтобы продемонстрировать, как их можно использовать для интерпретации наших прогнозов.
Хотя мы представляем несколько тематических исследований, чтобы проиллюстрировать, какие выводы можно сделать из этих данных, мы признаем, что еще многое предстоит раскрыть. Сделав наши прогнозы доступными для сообщества через cfqn https://alphafold.ebi.ac.uk /, мы надеемся дать возможность исследовать новые направления в структурной биоинформатике.
Части человеческого протеома, которые все еще не имеют достоверного прогноза, представляют собой направления для будущих исследований. Некоторая доля из них будет представлять собой подлинные отклонения, в которых существует фиксированная структура, но текущая версия AlphaFold этого не предсказывает. Во многих других случаях, когда последовательность неструктурирована в отдельности, проблема, возможно, выходит за рамки прогнозирования одноцепочечной структуры. Будет крайне важно разработать новые методы, которые могут учитывать биологию этих регионов - например, путем прогнозирования структуры в комплексе или путем прогнозирования распределения возможных состояний в клеточной среде.
Наконец, мы отмечаем, что важность человеческого протеома для здоровья и медицины привела к его интенсивному изучению со структурной точки зрения. Другие организмы гораздо менее широко представлены в PDB, включая биологически важные, имеющие отношение к медицине или экономически важные виды. Предсказание структуры может оказать более глубокое влияние на изучение этих организмов, для которых доступно меньше экспериментальных структур. Выходя за рамки масштаба протеома, база данных UniProt содержит сотни миллионов белков, которые до сих пор рассматривались в основном методами, основанными на последовательности, и для которых легкая доступность структур может открыть совершенно новые направления исследований. Обеспечивая масштабируемое предсказание структуры с очень высокой точностью, Alpha Fold может обеспечить захватывающий сдвиг в сторону структурной биоинформатики, еще больше осветив пространство белка.
|