The compilation of multiple metazoan genome sequences and the deluge of large-scale expression data have combined to motivate the maturation of bioinformatics methods for the analysis of sequences that regulate gene transcription. Historically, these bioinformatics methods have been plagued by poor predictive specificity, but new bioinformatics algorithms that accelerate the identification of regulatory regions are drawing disgruntled users back to their keyboards. However, these new approaches and software are not without problems. Here, we introduce the purpose and mechanisms of the leading algorithms, with a particular emphasis on metazoan sequence analysis. We identify key issues that users should take into consideration in interpreting the results and provide an online training example to help researchers who wish to test online tools before taking an independent foray into the bioinformatics of transcription regulation.
Создание разнообразных типов клеток из инвариантного набора генов управляется с помощью биохимических процессов, которые регулируют активность генов. Т.к. инициальная ступень экспрессии генов, транскрипция - один из наиболее изученных процессов клеточной и мол. биологии - является центральной в регуляторных механизмах. Транскрипция обеспечивается взаимодействиями между transcription factors (TFs), которые связывают cis-регуляторные элементы в ДНК, добавочные ко-факторы и влияние структуры хроматина (Рис. 1). Trans-действующие белки, которые контролируют скорость транскрипции на уровене индивидуальных генов соединяются с критическими cis-регуляторными последовательностями1. Полное понимание взаимодействий между trans-факторами и cis-последовательностями д. трансформировать биологический поиск, создавать способ интерпретации и моделирования реакций клеток на разнообразные стимулы. Компьютерные методы для идентификации cis-регуляторных последовательностей, которые ассоциированы с генами, довольно трудны.
Расшифровка механизмов регуляторного контроля, которые управляют экспрессией генов, м. упростить интерпретацию сложных данных, которые пропускаются через компьютеры Безусловным успехом станет исчерпывающее картирование регуляторных сетей каждого организма2. В реальности, по всей вероятности, сложная смесь регуляторных механизмов, которые контролируют клеточные концентрации РНК, приведет такие попытки не к созданию одиночной карты, а скорее к созданию дополнительных слоёв большого и сложного набора данных, расшифровка которых потребует компьютерных методов. Овладение в совершенстве всей сетью генных регуляций останется недостижимой надеждой и стремлением. Для фокусирования усилий исследователей имеются мощные и улучшенные методы для идентификации регуляторных последовательностей, которые контролируют скорость инициации транскрипции интересующих специфических генов. Для таких исследователей, пытающихся выяснить регуляцию генов целенаправленным способом, методы биоинформатики м. существенно ускорить их исследования.
Хотя почти все зрелые методы биоинформатики для анализа регуляторных последовательностей нацелены на инициацию транскрипции, не должны пренебрегать др. механизмы, контролирующие экспрессию генов. Регуляция любого специфического гена м. происходить в люьой точке превращения транскриптов в функциональные белки (напр., splicing или модификация белков)1. Характеристика механизмов, которые управляют инициацией транскрипции, не даёт полной картины. Существует лишь частичная корреляция между концентрациями транскриптов и белков3. Несмотря на это избирательная транскрипция генов с помощью RNA polymerase-II в специфических условиях очень важна в регуляции многих, если не большинства, генов, а методы биоинформатики, которые нацелены на инициацию транскрипции достаточно зрелые, чтобы влиять на структуру лаб. исследований.
Ниже будут предложены зрелые алгоритмы и online рессурсы, которые используются для идентификации регионов, которые регулируют транскрипцию. Лежащие в основе методы создают основу для понимания корректного использования и ограничений каждого подхода. Мы сконцентрировались на cis-регуляторных последовательностях генов metazoan, с учетом методов, которые используют модели, описывающие специфичность соедирнения транскрипционных факторов. Методы анализа регуляторных последовательностей в наборах ко-регулируемых генов будут описаны в др. месте. Мы использовали случай изучения гена скелетно-мышечного тропонина у человека TNNC1 , чтобы продемонстрировать специфичность исполнения описываемых методов. Ряд accompanying online упражнений позволяет освоить исследователями независимо некоторые методы, описываемые в обзоре (see online links box). Т.к. эта область быстро меняется, появляются новые классы software, то необходимо описать ожидаемое создание новых доступных инструментов online анализа.
Identification of regions that control transcription
Phylogenetic footprinting
...Табл.1
Modelling sequence-specific binding
...Box 1,
Box 2 | Formulae linked to methods for the analysis of regulatory sequences
Corrected probabilities of observing a given nucleotide can be calculated using equation 1.
Corrected probability calculation:
fb,i = counts of base b in position i; N = number of sites; p(b,i) = corrected probability of base b in position i; s(b) = pseudocount function
A position weight matrix (PWM) is constructed by dividing the nucleotide probabilities in (1) by expected background probabilities and converting the values to a log-scale (see equation 2).
PWM conversion:
p(b) = background probability of base b; p(b,i) = corrected probability of base b in position i; Wb,i = PWM vaue of base b in position i
The quantitative PWM score for a putative site is the sum of the PWM values for each nucleotide in the site (see equation 3).
Evaluation of sequences:
li = the nucleotide in position i in an input sequence; S = PWM score of a sequence; w = width of the PWM
Probability values (1) can be used to determine the total information content (in bits) in each position (see equation 4).
Information content calculation:
Di = information content in position i; p(b,i) = corrected probability of base b in position i