Посещений:
Nature 420, 716 - 717 (12 December 2002); doi:10.1038/nature01307

The Molecule Pages database

JOSHUA LI*, YUHONG NING*, WARREN HEDLEY*, BRIAN SAUNDERS*, YONGSHENG CHEN*, NICOLE TINDILL†, TIMO HANNAY† & SHANKAR SUBRAMANIAM*‡

* San Diego Supercomputer Center, University of California at San Diego, 9500 Gilman Drive, La Jolla, California 92093, USA
‡ Departments of Bioengineering and Chemistry and Biochemistry, University of California at San Diego, 9500 Gilman Drive, La Jolla, California 92093, USA
† Nature Publishing Group, The Macmillan Building, 4 Crinan Street, London N1 9XW, UK

Correspondence and requests for materials should be addressed to S.S.
(e-mail: shankar@ucsd.edu)


The Alliance for Cellular Signaling (AfCS)–Nature Molecule Pages will be a comprehensive database of key facts about more than 3,000 proteins involved in cell signalling. Each entry will be created by invited experts and be peer-reviewed. Alongside the large-scale experiments being conducted by the AfCS scientists, the wealth of information contained in this database offers the potential of accelerating the pace of discovery in signal transduction research.

Понимание клеточной функции и физиологии нуждается в знании всей сложности протеомного содержания клеток. Полные последовательности генома млекопитающих - перваый шаг в этом направлении, но знание генома не позволяет избежать многих важных аспектов, связанных с большим разнообразием содержимого и функции белков. Сплайс-варианты и малые вариации геномных последовательностей транслируются в полиморфизм последовательностей в протеоме, которые м. менять функцию белков и вносить вклад в патофизиологические признаки. Более важно, что белки обладают большими репертуарами 'состояний', которые вносят вклад в чрезвычайное разнообразие в биохимические сети.

Состояние сигнальных молекул характеризуется ковалентными модификациями нативных полипептидов, субстратов или лигандов, связанных с белком, их состоянием ассоциации с др. белками и их локализацией в клетке. Сигнальные молекулы м.б. рецепторами, каналами или энзимами или др. функционально определенным классом и их состояния модулируют их функции. Во время сигнальной трансдукции молекулц м. подвергаться переходу из одного функционального состояния в др.
В отличие от от списка генов ('gene' parts-list) в клетке, которы м.б. получен с помощью высоко-производительных измерений массивов генов, состояния белков м. в настоящее время определяться только с помощью дорогостоящих биохимических и клеточных экспериментов. Наше знание о состояниях внутриклеточных сигнальных белков формируется в результате детальныъх экспреиментов и сравнительного анализа клеточных путей у разных видов. Но как м. это огромное количество данных, имеющихся в научной литаратуре, м. сделать легко доступным научному сообществу в целом, а не только узким исследователям молекулярных аспектов?
The Alliance for Cellular Signaling (AfCS)–Nature 'Molecule Pages' является всеобемлющей базой данных, которая буде собирать количественную и качественную информацию о большом числе сигнальных молекул и о взаимодействиях между ними. Она будет доступной свободно на AfCS–Nature Signaling Gateway web сайте (http://www.signaling-gateway.org/). The Molecule Pages будут содержать содержать данные из многих доступных repositories помимо информации из опубликованной литературы, предоставляемой авторами-экспертами. Авт. будут конструировать страницы введением информации в web-based формы, призванные для стандартизованного введения данных.
Одним из принципиальных препятствий в конструировании базы данных, такой как эта, является сложные и варьирующие обозначения, используемые биологами для определния аттрибутов молекул. База данных м. оказаться пригодной только, если информация будет описываться структуированным словарем (vocabulary) вместе с хорошо определяемыми взаимотношениями между данными по 'объектам' (напр., белковыми последовательностями и данной модификацией). Построение такой 'схемы' или структуры базы данных послужит первым шагом в направлении структуированного описания имеющихся данных о бюиохимических сетях.

Database design considerations

Наилучшим путем к структуре необъятного количества знаний, связанных с состояниями белков, является создание ее в виде relational базы данных (так, чтобы записи данных производились в серии таблиц таким образом, чтобы избежать перекрывания). Она будет содержать точно определенные поля базы данных и точно определенные взаимоотношения между ними, обеспечиваемыми ссылками между таблицами.
The Molecule Pages база данных содержит свыше 200 таких реляционных таблиц. Они определяют myriad параметров от последовательностей до кинетических и термодинамических параметров, ассоциированных с молекулярными состоянииями и состояниями трансформаций. Полная схема базы данных (известная также как entity relationship diagram) доступна в ответ на запрос к AfCS биоинформационной группе.
The Molecule Pages свободно доступны с использованием любого web browser. Лежащая в основе система имеет типичную древообразную (three-tier) архитектуру. Помимо уровня browser (или 'клиента') имеется второй уровень ('приложения'), состоящий из коллекции Java и Perl программ, разработанных группаой биоинформатиков AfCS и помещенных на нашем сервере; они обеспечивают функциональность системы. Третий уровень ('данные') так же поддерживается (hosted) AfCS, с использованием Oracle 9i relational database management системы для храниения сырых данных.

Description of the Molecule Pages database

Схема базы данных Molecule Pages подразделена на автоматизированные и вводимые авторами данные. Центральная часть базы данных - это таблицы молекул, которые описывают каждый из более 3,000 AfCS белков и формируют 'якорь' как для автоматизированных, так и вводимых авторами данных о каждой молекуле. Первичным элементом в таблице молекулы являются канонические последовательности белка мыши, которые определены однозначно в соответствующем GenBank последовательностей.

Automated data Компонент "automated data" каждой Molecule Page интегрирует информацию о белке, полученную из записей внешних баз данных. Сюда включается информация о последовательностях ДНК и белка, структурная информация, сравнение последовательностей и родственные последовательности, а также основные биофизические и биохимические свойства. Эти данные получены из SwissProt, GenBank, LocusLink, MGDB (Mouse Genome Database from Jackson Laboratories), Pfam, PIR, PRINTS, TrEMBL, TrEMBLnew, RefSeq, и Interpro баз данных. Эти automated данные хранятся в виде релационных таблиц, используя белковый GI номер (the GenInfo Identifier from GenBank) в качестве первичного ключа. Ссылки даются на родственную базу данных National Center for Biotechnology Information (NCBI). Каждая последовательность м.б. импортирована в Biology Workbench (http://workbench.sdsc.edu/) для дальнейшего анализа. (The Biology Workbench это базирующаяся на web инфраструктура, которая позволяет биологам искать и анализировать многие популярные белки и последовательности нуклеиновых кислот.) The automated data периодически обновляется.

Author-entered data Одной из главных задач Molecule Pages является обеспечение общества информацией о функции кахдого белка, ассоциированного с клеточными сигнальными сетями, включая качественные и количественные характеристики каждого состояния белка. the community with information about the function of every protein associated with cellular signalling networks, including qualitative and quantitative properties of each protein state. Такая исчерпывающая структуированная информация о состояниях сигнальных молекул белков имеет целью реконструировать — а , следовательно, глубже понять — сигнальные сети, в которых они участвуют. Кроме того,, эта информация поможет получить необходимые данные и параметры для количественного моделирования сигнальных сетей.

Первичная роль авторов-экспертов заключается во введении и курировании этих данных в базе Molecule Pages. Вводимые авторами данные о данном состоянии молекулы разделяются концептцально на две части: состояние молекулы и характеристика функции этого состояния. При описании состояния авт. м. вводить любое количество возможных модификаций нативного полипептида. Эти модификации включают: взаимодействие белка с др. белком, ковалентные модификации, связывание с субстратом или лигандом и локализация в определенном субклеточном компартменте. В большинстве случаев функциональное состояние белка будет вовлекать комбинации указанных выше модификаций.
Сигнальный белок Gα, напр., находится в определенном функциональном состоянии, когда связывается с Gβγ, G-белок-связанным рецептолром и GDP (Рис. 1). Агонист связывания активирует рецептор, который вызывает замену субстрата GDP на GTP и ведет к активации G белка. Авт. м. определить связанное состояние Gα путем определения ассоциации с нуклеотидом GDP, Gβγ и рецептором. Молекулы, с которыми Gα взаимодействует , в свою очередь характеризуются различными функциональными состояниями. Напр., Gβ постоянно связан с Gγ. Даже если нет детальной информации о Gβγ, уже введенной ранее в базу данных, то авт. вводящий описание Gα способен сделать это в предварительной форме. Позднее, в будущем авторы, вводя информацию о Gβ и Gγ окажутся способными охарактеризовать конституитивное состояние Gβγ более полно. В описании функции Gα в этом случае авт. сможет охарактеризовать активированное состояние, при котором агонист соединяется с рецептором вследствие диссоциации Gα из complexed состояния.

Figure 1 Example of molecule state changes.   Full legend
 
High resolution image and legend (40k)

На каждой из этих ступеней авт. м. внести любые имеющиеся количественные данные, такие как константы связывания или кинетические константы вместе с условиями, при которых были сделаны измерения. Детализированные форматы для таких введений количественных данных будут охарактеризованы в базе данных Molecule Pages. Приведенный выше пример показывает, как осложненное функциональное состояние молекулы, так и ассоциированые с этим характеристики, м.б. собраны в хорошо охарактеризованную и хорошо структуированную базу данных. Таким способм информация м.б. представлена к использованию для компьютерного анализа и моделирования клеточных сигнальных сетей.
Важной частью базы данных Molecule Pages database является информация об функциональных изменениях, которые возникают в результате мутаций компонетов.Для каждой AfCS молекулы мы обеспечиваем формат для характеристики всех известных мутаций последовательностей, включая натуральные варианты, точковые мутации и делеции или инсерции. В характеристике состояния молекулы авт. м. указ, имеются ли мутации, меняющие функциональное состояние и ее свойства. Эти данные обеспечат ценными указаниями при моделировании изменений в клеточной сигнальной сети, возникающих в результате мутаций в компоненте молекулы и поможет понять молекулярные основы болезней. База данных Molecule Pages позволяет также авторам цитировать список, соответствующий каждому введению и м. давать ссылки на базу данных PubMed, поддерживаемую NCBI при National Institutes of Health. Каждая Molecule Page будет включать абстракт, описывающий сжато основные характеристики и функции белка. После каждой страницы будет дано обзорение обзоров и публикаций, они будут обновляться ежегодно.

Relationship to AfCS experiments

Реконструкция биохимических путей является трудной задачей. В метаболических путях задача несколько упрощена, благодаря преимущественно линейной природе подлежащих процессов, в которых каждая ступень представляет собой ферментативное превращение субстрата в продукт. Этого нет в случае клеточной передачи сигналов, где эффекты, такие как ветвление и каскады, банальны.
Роль каждого белка в сигнальной сети заключается в передаче сигнала от одного узла к другому и чтобы достигнуть этого белок д.б. в определенном 'состоянии'. Мы ожидаем, что Molecule Pages будет содержать каталог состояний для каждого важного сигнального белка, так что kl.,jq сможет начать реконструировать сигнальные пути с молекулами с хорошо охарактеризованными состояниями, функционирующими как узлы сети. Взаимодействия внутри и между функциональными состояниями молекул, а также переходы между функциональными состояниями, обеспечат построение блоков для реконструкции сигнальной сети. Как показано в сопровождающей работе (pages 703–706) и в работе по сигнальной сети в В лимфоцитах и кардиальных миоцитах (pages 708–710 и 712–714, соотв.) — эксперименты, проводимые сотрудниками AfCS будут участвовать в тестировании и оценке таких взаимодействий и переходов в специфических клетках. Together with the new large-scale experimental data sets being generated by AfCS laboratories, the highly structured review data provided by the Molecule Pages will, we hope, provide a new foundation for further accelerating the pace of discovery in cellular signalling, thus greatly enhancing our understanding of cellular processes in health and disease.
Сайт создан в системе uCoz