Последнее обновление: 01/26/2025 21:23:01  Меню и поиск на этом сайте   ЗДЕСЬ  Дополнительная информация   ЗДЕСЬ!!
WMZ: Z191701361450
WMR: R209318204033


Без рекламы только Браузер Uran (скачать )
   Посещений:
В ПОИСКАХ МОЛЕКУЛЯРНЫХ СОКРОВИЩ



Гэри Стикс
В мире науки №8, С. 76-79б 2005


В 1996 г. Андрей Ржетский приехал в Колумбийский университет и углубился в изучение специальной литературы, пытаясь выяснить, почему белые кровяные тельца (лимфоциты) не погибают при хронической лимфоцитарной лейкемии. Математик-биолог нашел несколько сотен статей, посвященных раку и апоптозу (запрограммированной гибели клеток). Даже если бы он только просматривал собранный материал, то просто физически не смог бы сделать его всесторонний обзор.
Ученый решил создать автоматизированный поисковый инструмент, который выполнял бы едва ли не самую скучную работу по анализу многочисленных публикаций. Оказалось, что с его помощью можно проводить «машинные» исследования, когда компьютерный комплекс сам находит закономерности в таком объеме информации, который не под силу переработать человеку.
Разработать новый подход к проведению исследований Ржетскому помог его научный консультант Масатоши Неи (Masatoshi Nei), известный филогенетик из Пенсильванского университета, пользующийся большим авторитетом среди ученых, занимающихся популяционной генетикой. В 1991 г. Неи пригласил Андрея, работавшего тогда в Новосибирском институте цитологии и генетики, в Пенсильванский университет. В те годы СССР уже начал распадаться, и иностранные институты получили доступ к советским академическим центрам. Восхождение Ржетского на научный олимп началось, когда он был еще школьником и занимал первые места на математических олимпиадах в своем родном Казахстане.
Неи был наслышан о высокой квалификации российских математиков и сразу настроил Андрея на то, что решение любой задачи прежде всего должно быть вкладом в биологию, а не демонстрацией математического таланта. «Чтобы придумать изящную математическую игрушку, совершенно бесполезную для биологии, много ума не надо», – говорил он.
Уезжая из Новосибирска, Ржетский планировал вернуться через год, но с развалом Советского Союза в Ново сибирском институте воцарился хаос. Неи помог Андрею получить вид на жительство, и в 1996 г. российский ученый переехал в округ Колумбия. Окунувшись с головой в трудоемкий поиск литературы, посвященной исследованиям лейкемии, он понял, что тема молекулярных сетей (так называют узор, получающийся при взаимодействии отдельных генов и белков) чрезвычайно важна, и это тот самый случай, когда математика может послужить биологии.
В 1997 г. Ржетский получил от Центра передовых технологий при Пенсильванском университете грант в $100 тыс. на разработку автоматизированного инструмента поиска. Некоторые ученые, занимавшиеся исследованием естественных языков (часть проблемы искусственного интеллекта, посвященная языкам, на которых говорят люди, а не компьютеры), уже разрабатывали инструменты для биологических исследований и извлечения данных, но главным образом из резюме, а не из полных публикаций. Ржетский приступил к проектированию системы GeneWays, которая не только ищет полные публикации, но и определяет взаимосвязанные цепочки с известными из литературы соотношениями генов и белков, в сущности, выявляя новые данные и гипотезы в огромном массиве уже известной информации. Технология текстовой проходки настолько мощна, что позволяет делать открытия, кото- рые затем можно проверить в лабораториях.
Чтобы стать чем-то большим, чем прославленная поисковая система Google, GeneWays должна была включить в себя самые разнообразные программные модули. Один из них ищет и загружает публикации из Сети, другой определяет, как они связаны между собой, третий выявляет и выводит данные по генам и белкам. После загрузки статьи и ее преобразования из формата HTML в простой текст программа должна распознать используемые учеными термины. Так, название «p53» в зависимости от контекста может обозначать ген, белок или информационную РНК. Работа осложняется еще и тем, что исследователи иногда причудливо замаскировывают различные поня- тия, например, функции и названия генов.
К решению непростой задачи были привлечены лучшие инструменты статистики и ИИ (искусственного интеллекта). Наиболее доступная пониманию часть аналитической системы используется для идентификации и устранения неоднозначности методом маркировки фраз, чтобы последующие модули могли оперировать с именными группами, такими как «супрессор опухоли р53». Вся остальная информационная мясорубка представляет собой чудовищную смесь опорных векторов, скрытых моделей Маркова, простых байесовых классификаторов и ветвящихся алгоритмов принятия решений.
Как только объект идентифицирован как ген, протеин, РНК или легкая молекула органического соединения, GeneWays продолжает структурировать информацию, используя модуль GENIES, который проводит синтаксический разбор, чтобы компьютер мог «прочитать» каждое предложение статьи.





В 1995 г. Кэрол Фридман (Carol Fr iedman) из Колумбийского университета руководил командой исследователей, создавшей систему анализа естественного языка MedLEE. Она позволяла считывать текстовую информацию с медицинских отчетов о рентгенологическом исследовании грудной клетки и была внедрена в автоматизированной информационной системе Нью-Йоркского пресвитерианского госпиталя. Взяв за основу некоторые элементы MedLEE, Фридман и Ржетский разработали специализированную грамматику, которая определяет соотношение между различными молекулярно-биологическими объектами.
Допустим, GENIES анализирует такое предложение из статьи по молекулярной биологии:

Согласно результатам последних исследований, mdm2 способствует быстрой деградации p53 при действии протеолитического убихитина. Система выдает описание некоего белка mdm2, спо- собствующего быстрому разрушению другого протеи- на p53 при действии энзима (фермента) убихитина.

На машинном языке это выглядит так:

[активирующее действие,
[ген/протеин mdm2],
[процесс деградации,
[посредничество протеолитического убихитина],
[ген/протеин, p53]

В базе данных о реакциях хранится так называемое семантическое дерево для нахождения соотношений между молекулами и составными частями новых сложных соединений. При поиске могут использоваться более 2 млн. уникальных утверждений, таких как «mdm2 вызывает деградацию p53», которые система собирает из 250 тыс. статей, опубликованных в 80 журналах по молекулярной биологии. Другие модули системы GeneWays определяют достоверность того или иного утверждения, ищут дополнительные соотношения и представляют обнаруженные связи графически.
Идея моделирования молекулярных взаимодействий из уже существующей литературы с большим трудом получила признание научной общественности. Годами Национальный институт здоровья и Национальный научный фонд отклоняли заявку Ржетского на грант. Рецензенты из Национального института здоровья и многие ученые с мировым именем неоднократно заявляли, что проект GeneWays либо слишком сложен для практического применения, либо способен открыть лишь очевидные взаимосвязи, которые ученый с многолетним стажем должен помнить с колледжа. Поступления средств по гранту начались только пять лет назад, хотя к тому времени биоинформатика уже давно превратилась в самостоятельную научную дисциплину.
В 2001 г. Ржетский начал сотрудничать с Кевином Уайтом (Kevin White), генетиком из Йельского университета. Уайт расширил базу данных о реакциях, включив в нее исходные генетические и протеомические сведения о фруктовых мушках Drosophila melanogaster. Графические описания, полученные на основе текстовой и экспериментальной информации, выявили новые разнообразные возможности генов, отвечающих за раннее развитие плодовых мушек, которые можно было бы исследовать в лаборатории. «Наша система позволяет одновременно анализировать несколько больших наборов данных и систематизировать их так же, как это делает PubMed», – говорит Уайт, ссылаясь на широко распространенную биомедицинскую базу данных. В другом проекте, о котором сообщалось 19 октября 2004 г. в материалах Национальной академии наук США, Ржетский совместно с исследователями из Колумбийского университета попытался найти гены, вызывающие болезнь Альцгеймера. GeneWays начала с изучения четырех генов, роль которых в развитии этого заболевания уже известна, а затем на основании анализа публикаций создала модель взаимодействующих с ними генов и протеинов. Предполагалось, что ключевую роль в развитии болезни Альцгеймера будут играть гены с минимальным количеством посредниче- ских связей. GeneWays выявила те же гены, что и независимый эксперт-биолог.
По точности системы автоматического контекстного поиска, похоже, никогда не сравнятся с людьми, которые, просматривая документ за документом, по крупицам собирают информацию и анализируют ее. «GeneWays полезна потому, что у нас недостаточно людей, чтобы просматривать всю литературу, – говорит Питер Карп (Peter Karp), специалист в области биоинформации из Международного центра искусственного интеллекта (SRI). – Но система и не предназначена для того, чтобы заменить людей». Вместе с тем программное обеспечение уже настолько проработано, что Колумбийский университет создает лицензионные продукты для небольшой нью-йоркской компании ExerGen Biosciences.
Профессор Ржетский может и далее развивать GeneWays в Колумбийском университете на некоммерческой основе. Если он останется верен себе, то его система контекстного поиска в конце концов охватит всю биологию и химию, что технически вполне реально. А пока он вместе с Уайтом работает над расширением возможностей программного комплекса, используя опубликованные данные, чтобы показать, как достигнуть согласия среди биологов.
Ученые показали, что научное сообщество пока не избавилось от стадного инстинкта. Простое утверждение «протеин А активизирует ген B», трактуемое как заповедь, не допускает противоречий с накопленными знаниями даже перед лицом новых данных. Система GeneWays не только помогает полнее изучить уже изданную научную литературу, но и позволяет находить в ней ответы на многие актуальные вопросы. Потенциал контекстного поиска очень велик, и в будущем эта методика будет способствовать расширению библиографического анализа и объединению всего спектра человеческих знаний.

→ | K титульной странице | K оригиналам в pdf- и html-формате
Посещений:

Сайт создан в системе uCoz