Посещений:
АЛЬТЕРНАТИВНЫЕ ТРАНСКРИПЦИЯ, ПРОЦЕССИНГ И ТРАНСЛЯЦИЯ
Альтернативные сплайсинг, полиаденилирование
|
Alternative mRNA transcription, processing, and translation: insights
from RNA sequencing
Eleonora de Klerk and Peter A.C. ‘t Hoen Trends in Genetics March 2015, Vol. 31, No. 3. P. 128
|
The human transcriptome comprises >80 000 protein-
coding transcripts and the estimated number of proteins
synthesized from these transcripts is in the range of
25' 000 to 1 million. These transcripts and proteins are
encoded by less than 20 000 genes, suggesting extensive
regulation at the transcriptional, post-transcriptional,
and translational level. Here we review how RNA se-
quencing (RNA-seq) technologies have increased our
understanding of the mechanisms that give rise to alter-
native transcripts and their alternative translation. We
highlight four different regulatory processes: alternative
transcription initiation, alternative splicing, alternative
polyadenylation, and alternative translation initiation.
We discuss their transcriptome-wide distribution, their
impact on protein expression, their biological relevance,
and the possible molecular mechanisms leading to their
alternative regulation. We conclude with a discussion
of the coordination and the interdependence of these
four regulatory layers.
|
Regulatory layers defining gene expression
Диверсификация клеточных и организменных функций, наблюдаемая высших эукариот, не может быть объяснена действительным числом генов, и в основном обусловлена экспрессией различных транскриптов и белков с одних и тех же генов. Вариабельность в экспрессии кодирующих генов контролируется на многих уровнях, от транскрипции до процессинга РНК и трансляции. Альтернативные транскрипты и белки могут возникать в результате альтернативной инициации транскрипции, альтернативного сплайсинга, альтернативного полиаденилирования (APA) и альтернативной инициации трансляции. Эти ко- и пост-транскрипционные регуляторные механизмы расширяют способность геномного кодирования модифицировать функцию, стабильность, локализацию и уровень экспрессии белка. Мы обсудим, как высокопроизводительное RNA-seq помогает нам понять эти 4 регуляторных процесса.
Initiation of transcription: alternative promoters
Во время биогенеза мРНК регуляция инициации транскрипции представляет собой первый слой контроля генной экспрессии [1-4]. Альтернативная инициация транскрипции приводит к формированию транскриптов, отличающихся их первым экзоном или длиной 5' не транслируемого региона (5'-UTR). Использование альтернативного первого экзона приводит к транскриптам с разными открытыми рамками считывания (ORFs) и разнообразит репертуар кодируемых белков, давая белковые изоформы с альтернативными N концами [5] (Figure 1A). Напротив, транскрипты обладающие одной и той же кодирующей областью, но отличающиеся по 5'-UTR могут стать предметом дифференциальной регуляции трансляции (Figure 1B) [6], давая короткую вышестоящую ORFs (uORFs), участвующую в трансляционном контроле [7-9] или в продукции биологически важных пептидов [10-12].
Использование альтернативных промоторов и точек старта транскрипции (TSSs) в белок кодирующих транскриптах было установлено ещё до разработки транскриптомных подходов, благодаря исследованиям, базирующимся на методе cap (шапочки) анализа генной экспрессии (CAGE) [13]. CAGE всё ещё проставляет базовую технологию для детекции TSSs. Недавно были разработаны несколько высокопроизводительных CAGE метода, такие как DeepCAGE [14]. Эти транскриптомные исследования подтвердили, что используемые TSS высоко тканеспецифичны [4,15-18] и что количество альтернативных TSSs отличается в зависимости от типа ткани, при этом гиппокамп насчитывает наибольшее количество TSSs, чем любая др. ткань [18,19]. До какой степени альтернативные TSSs приводят к альтернативным 5' не кодирующим регионам или транслируются в новые белковые изоформы в действительности невозможно определить с помощью DeepCAGE считываний, которые содержат 25 или 26 нуклеотидов. Чтобы оценить потенциал возникновения новых ORFs за счет использования альтернативных TSSs, важно интегрировать данные DeepCAGE с RNA-seq, профилированием рибосом и протеомикой.
Консорциум FANTOM является ведущим в большинстве поисков в области промоторов и TSSs. В их наиболее недавней сводке TSS [4], которая включает приблизительно 200 первичных типов клеток человека, 15' тканей человека и 25' линий раковых клеток человека, было показано, что в среднем имеется 4 TSSs на ген, но количество описанных TSSs строго зависит от использованного метода фильтрации.
Подсчеты распределения в транскриптоме альтернативных TSSs может быть осложнено присутствием CAGE пиков, маркирующих энхансерные регионы [4], 3'-UTRs
Figure 1. Alternative transcription initiation. (A) Data from a deep cap analysis of gene expression (DeepCAGE) experiment showing alternative transcription start sites (TSSs) used during muscle differentiation in proliferating myoblasts and differentiated myotubes [16]. In the Tpm3 gene, different promoters lead to the formation of transcripts with different first exons. One alternative TSS (TSS3) is specifically used in differentiated cells. (B) In the Cryab gene, proliferating cells make use of an alternative TSS to extend their 5' untranslated region (5'-UTR). The sequence of the 5'-UTR is shown below the reference track. The extension on the 5'-UTR leads to the transcription of a potential upstream open reading frame (uORF) starting at a canonical AUG codon and ending before the start codon of the primary ORF (pORF). (C) An illustrative example of cell- and tissue-specific alternative TSSs regulated by the binding of transcription factors (TFs) to promoters and enhancer regions. While TF1 and TF2 bind to promoters (P1, P2) surrounding the TSS, TF3 binds to a distal upstream sequence corresponding to an enhancer region (E), which enhances transcription from a third TSS (TSS3). Some TFs are present in multiple tissues (TF1) whereas others are tissue specific (TF2, TF3), and their transcription can also be regulated during cell differentiation (TF1 regulates transcription in undifferentiated cells and TF2 in differentiated cells). (D) Long-range transcriptional control mediated by enhancers. Transcriptional regulation of the Shh gene is tightly controlled during development by enhancer regions located up to 85' kb from the gene. Whereas some enhancers are located within the coding region of Shh, others are located in intergenic regions or within intronic regions of the Lmbr1 and Rnf32 genes. Genes are depicted as gray boxes. Known enhancer regions in the mouse are marked in different colors according to their tissue specificity.
[4,20,21], кодирующих регионов (феномен, наз. exon painting [16,22,23]), и ассоциированных с промотором коротких РНК (PASRs) [20]. В то время как роспись экзонов (exon painting) может возникать как следствие восстановления продуктов деградации, многие др. CAGE пики представляют собой короткие отловленные (capped) транскрипты, чья функция остается неизвестной. Недавняя поразительная находка из этого большого набора TSS [4] заключается в то, что большинство генов регулируется тканеспецифическим образом и только небольшой процент может рассматриваться как настоящие гены домашнего хозяйства. Использование альтернативных тканеспецифических TSSs, по-видимому, регулируется за счет присутствия энхансерных регионов скорее, чем альтернативных стержневых промоторов. Половина из всех обнаруженных CpG островков промоторов и более 90% от всех промоторов лишены как CpG островков, так и TATA бокса обнаруживает при этом ограниченную типом клеток экспрессию благодаря присутствию проксимальных энхансеров [4].
Молекулярные механизмы, ответственные за выбор альтернативных промоторов и TSSs, могут быть подразделены на две категории: альтерации состояния и регуляции хроматина, обусловленные клеточно- и тканеспецифическими транскрипционными факторами (Figure 1C). Понимание биологической важности альтернативных и тканеспецифических TSSs требует изучения того, как происходит выбор специфических TSS и какие транскрипционные факторы и регуляторные сети используются. Это может быть достигнуто за счет создания логических выводов о транскрипционных сетях. При DeepCAGE time-course исследовании дифференцировки клеток моноцитарной лейкемии человека [17], авт. предсказали сайт связывания транскрипционного фактора около TSSs, идентифицируемых при каждом условии и в дальнейшем построили модель сети экспрессии генов, используя анализ реакции активности мотива. Это предоставляет важную информацию о ключевых регуляторах активных в контроле транскрипции в разных фазах дифференцировки. Сходным образом др. исследование [24] выявило транскрипционные регуляторные сети после пертурбаций специфических транскрипционных факторов (PU.1, IRF8, MYB and SP1) в одной и той же клетке. Это привело к открытию генов мишеней для каждого транскрипционного фактора и привело к идентификации de novo мотивов сайтов связывания.
Многие исследования, сконцентрированные на одиночных генах показали, что выбор специфических TSS играет критическую роль во время развития [25-27] и клеточной дифференцировки [28] а аберрации в альтернативных промоторах и TSS приводят к разным болезням, включая рак [29,30], нервно-психиатрические болезни [31] и аномалии развития [32]. В то время как некоторые нарушения вызываются эпигенетическими изменениями или генетическими аберрациями в промоторном регионе, др. вызываются генетическими изменениями в дистальных элементах, затрагивающих дальнодействующую транскрипционную регуляцию. Проект ENCODE показал присутствие более 1000 дальнодействующих взаимодействий между TSSs и дистальными элементами в пределах 120 kb [3]. Примером такого дальнодействующего взаимодействия является Shh [32] (Figure 1D), ген, который в пространстве и во времени регулируется во время развития. Кстати, идентифицировано 10 Shh энхансеров, расположенных внутри региона в 1 Mb у человека и 85' kb у мыши (Figure 1D). Эти энхансеры играют ключевую роль во время развития, как показывают мутации в специфичных для конечностей энхансерах, которые приводят к различным скелетным аномалиям конечностей.
Splicing: alternative exons
Во время и после транскрипции почти все мРНК подвергаются сплайсингу. Транскрипты после альтернативного сплайсинга приводят к к включению разных субнаборов экзонов (Figure 1A and Box 1). Из регуляторных механизмов, обсуждаемых в этом обзоре, альтернативный сплайсинг является наиболее частым событием, затрагивающим приблизительно 95% генов млекопитающих [33]. RNA-seq обладает потенциалом вычленения ряда структур, а обилия альтернативных транскриптов и молекулярных механизмов, ответственных за их формирование
| |
Box 1. Alternative splicing events
Five major alternative splicing events are distinguished: exon
skipping (also called cassette exon), use of alternative acceptor
and/or donor sites, intron retention, and mutually exclusive exons.
Exon skipping appears to be the most common, occurring in 38%
of mouse and human genes, whereas intron retention is less
common ( 3%) [135]. How the spliceosome recognizes alternative
exons and decides which exons to include remains not fully
understood. Before the advent of RNA-seq, studies revealed some
general characteristics in conserved alternative cassette exons: they
tend to be smaller in size compared with constitutive exons [136]
and their length is divisible by three, thus maintaining the same
reading frame when the alternative exon is skipped or included
[137]. Non-conserved cassette exons do not show these character-
istics. In addition, alternative exons seem to contain weaker splice
sites (the exon-intron junctions at the 5' and 30 ends of introns; i.e.,
donor and acceptor sites), although the other primary cis-acting
elements used to define the intron (the branch site and the
polypyrimidine tract located upstream of the acceptor site) are
generally similar to those found in constitutive exons [138]. | |
Из анализа транскриптомов 15 клеточных линий человека [1], стало очевидным, что 25 разных транскриптов могут быть продуцированы с одиночного гена и что свыше 12 альтернативных транскриптов может экспрессироваться в определенной клетке. Альтернативные транскрипты экспрессируются не на одном и том же уровне, но обычно один транскрипт доминирует [34]. Согласно последнему релизу GENCODE [version 20 (http://www.gencodegenes.org/stats.html)], имеется почти 80 000 вариантов транскриптов, кодируемых приблизительно 20 000 белок-кодирующими генами у человека - в среднем 4 типа транскриптов на ген. Предыдущий релиз GENCODE (version 7) сообщал в среднем о 6 транскриптах на ген, тогда как RefSeq, the University of California, Santa Cruz (UCSC), и Collaborative Consensus Coding Sequence (CCDS) проект [35] сообщили о значительно белее низком среднем уровне. Эти расхождения указывают на то, что вариации числа транскриптов на ген обусловлены использованием отличающихся методов для описания последовательностей РНК, подчеркивая современные ограничения по полной характеристике транскриптомов.
Остаётся затруднительным предсказание, какие транскрипты, присутствуют в специфическом типе клеток. Выбор места сплайсинга зависит от многих параметров, включая присутствие регуляторов сплайсинга, крепость сайтов сплайсинга, структуру соединений экзон-интрон и процесс транскрипции. Пока было установлено, что разные молекулярные механизмы регулируют альтернативный сплайсинг.
Затем, чтобы цис элементы, такие как доноры сплайсинга и акцепторные сайты, сайты разветвления, полипиримидиновые треки и ряд др. мотивов распознавались бы различными дополнительными сплайс факторами. Эти дополнительные РНК-связывающие белки (RBPs) не являются частью аппарата сплайсесом, но могут усиливать или супрессировать альтернативный сплайсинг, взаимодействуя с ним [36-39]. Различные техники поперечного связывания и РНК иммунопреципитации сопровождаемые секвенированием следующего поколения были разработаны, чтобы картировать взаимодействия РНК-белок
in vivo [14]. Ранее целью таких исследования была идентификация мест связывания РНК. Многие из этих исследований показали, что RBPs распознают короткие ( 3-7 nt) дегенеративные мотивы, имеют множественные РНК-связывающие домены и обнаруживают разную эффективность, когда множественные мотивы собираются в кластеры [40,41]. Более того, многие RBPs регулируют экспрессию др. вспомогательных факторов. Различающиеся клеточные и временные локализации RBPs [42,43] могут объяснить различную динамику регуляции альтернативного и постоянного сплайсинга: в то время как конституитивный сплайсинг в основном возникает одновременно с транскрипцией, альтернативный сплайсинг возникает в основном после транскрипции [44]. О недавней механистической модели регуляции сплайсинга посредством FRBPs, см. [45]. Альтернативный сплайсинг может также регулироваться способом совершенно независимым от вспомогательных сплайс-факторов [46]. Сплайсинг silencer последовательности регулируют альтернативный сплайсинг, когда конкурируют за 5' слайс сайты, они присутствуют в той же самой молекуле РНК (Figure 2B). Конкурирующие 5' сплайс сайты распознаются одинаково хорошо c помощью U1 small nuclear ribonucleoprotein (snRNP), но последовательности, вызывающие молчание, изменяют конфигурацию, в которой U1 соединяется с 5' сплайс сайтом, приводя замалчиванию 5' сплайс сайта. Это может менять эффективность сплайс сайта: слабый 5' сплайс сайт может быть распознан и использоваться вместо более сильного 5' сплайс сайта. Данные RNA-seq может быть использованы для компьютерной идентификации общих и тканеспецифичных
Figure 2. Alternative splicing. (A) Data from an RNA sequencing (RNA-seq)
experiment showing tissue-specific alternative splicing [139]. The SLC25A3 gene
is differentially spliced in brain and muscle tissues through exon skipping. (B)
Alternative splicing regulated by silencer sequences. In (I) the U1 small nuclear
ribonucleoprotein (snRNP) splicing factor recognizes both strong and weak 5'
splice sites (5'ss) but splicing occurs only at the strong 5'ss. In (II) a splicing
silencer sequence (sss) is located downstream of the strong 5'ss. U1 binds both
the weak and the strong 5'ss, but the conformation in which it binds the strong
5'ss is suboptimal for splicing; therefore, only the weak 5'ss is used for splicing. In
(III) the sss is located downstream of both the weak and the strong 5'ss. U1 binds
both with suboptimal conformation, but only the strong 5'ss is used for splicing.
(C) Alternative splicing regulated by RNA secondary structures. Example of short-
and long-range RNA secondary structures. (I) The short-range RNA secondary
structure masks a strong 5'ss, leading to the recognition of a weaker 5'ss located
upstream. (II) The long-range RNA secondary structure brings together a strong
5'ss and a weak 30ss, causing the loss of a complete exon (in green) and a region
of the last exon (in purple).
сплайсинг регулирующих последовательностей. Эти исследования показали, что одна и та же последовательность может действовать как энхансер или сайленсер в разных тканях, но экспериментальная аттестация этих предполагаемых регуляторных последовательностей необходима, чтобы подтвердить эти наблюдения [47].
Альтернативный сплайсинг может также регулироваться c помощью вторичных структур РНК (Figure 2C). Коротко действующие вторичные структуры РНК могут маскировать первичные цис-элементы, такие как акцепторный или донорский сайты или полипиримидиновые треки [48,49]. Они были ассоциированы с альтернативным сплайсингом в альтернативных 5' сплайс сайтах. Напр., RBP MBNL1 формирует вторичную структуру выше экзона 5 в TNNT2 человека и выше фетального экзона мышиного Tnnt3, блокируя связывание U2AF65 с полипиримидиновым трактом [5',51]. Дальнодействующие вторичные структуры приближают удаленные сплайс сайты в тесную близость, облегчая тем самым альтернативный сплайсинг и ассоциируя его со слабым альтернативным 3' сплайс сайтом [49]. Вычислительные исследования, базирующиеся на данных RNA-seq, подтвердили, что сплайсинг тысяч генов млекопитающих зависит от структур РНК, как короткого, так и дальнего действия [49]. Недавно разработанная высокопроизводительная техника, комбинирующая нуклеазное переваривание [52] или химические зонды [53] с секвенированием следующего поколения, чтобы получить структурную информацию РНК по всему геному. Два исследования недавно показали взаимосвязь между транскриптомом и вторичными структурами и альтернативным сплайсингом [54,55], благодаря обнаружению строгих вторичных структур на 5' сплайс сайтах, которые коррелируют с экзонами, не подвергшимися сплайсингу. Остается нерешенным вопрос при исследовании RNA-seq, затрагивает ли это огромное количество продуцируемых вариантов транскриптов экспрессию белков. Этот вопрос был недавно рассмотрен с использованием профилирования рибосом. Общим наблюдением транскриптомных исследований стало то, что альтернативный сплайсинг является важным для развития [56,57], спецификации клеток, тканей [58] и видов [59]. Возможным объяснением того, как альтернативные экзоны могут обеспечивать подобную специфичность является включение или исключение связывающих мотивов и сайтов пост-трансляционных модификаций, как было установлено, в исследованиях, где изучали структурные и функциональные свойства альтернативных экзонов [60].
Благодаря широко распространенной роли альтернативного сплайсинга, неудивительно, что ошибки этого процесса приводят к различным болезням, от нейродегенеративных нарушений до мышечных дистрофий и рака [61,62].
3' End maturation: APA
Др. ступень в процессинге мРНК это процесс полиаденилирования [63]. Использование APA сайтов представляет собой дополнительный регуляторный слой во время экспрессии генов, который приводит к формированию транскриптов, отличающихся по-своему 3' концу. Транскрипты, возникающие в результате APA, могут отличаться по своему кодирующему региону (если APA сайты расположены в отличающемся экзоне или интроне) (Figure 3A) или по длине своих 3'-UTRs [tandem polyadenylation sites (PASs)] (Figure 3B). Влияние APA на регуляцию экспрессии генов может быть расширено
Figure 3. Alternative polyadenylation (APA). (A) Data from a poly(A)-sequencing experiment showing APA in the intron of the Luc7l2 gene [71], leading to an intronic proximal polyadenylation site (PAS) located in a different terminal exon giving rise to transcript variants with different open reading frames (ORFs). (B) Two examples of tandem APA in muscle tissue from a mouse model for oculopharyngeal muscle dystrophy (OPMD) [71]. In the Arih2 gene (I), both the distal and the proximal PASs can be used in the disease state. Recognition of a proximal PAS leads to shortening of the 30 untranslated region (30-UTR) and loss of a miRNA binding site, causing an increase in transcript levels. In the Ccnd1 gene (II), shortening of the 30-UTR leads to the loss of many recognition sites for RNA-binding proteins (RBPs) that stabilize the transcript. Loss of stability leads to a decrease in transcript level. (C) Model mechanisms regulating tandem APA. Common sequences in the 30-UTR that regulate polyadenylation are the upstream sequence element (USE), the UGUU sequence recognized by cleavage factor I (CFIm), the polyadenylation (PA) signal recognized by cleavage and polyadenylation specific factor (CPSF), and the downstream sequence element (DSE) recognized by cleavage stimulation factor (CstF). CPSF and CstF are brought to the RNA by RNA polymerase II (Pol II), together with poly(A)-binding protein nuclear 1 (PABPN1), through its C-terminal domain (CTD). Generally, CPSF recognizes the canonical PA signal and cuts at a distal PAS, at a CA dinucleotide (I). If PABPN1 or CFIm is present at a lower concentration, the CPSF recognizes noncanonical (weaker) PA signals (II) and cuts at proximal PASs, leading to the formation of transcripts with truncated 3'-UTRs.
благодаря эффектам на локализацию [64], стабильность и эффективность трансляции транскриптов [65] и на природу кодируемого белка. Многочисленные RNA-seq методы внесли свой вклад в наше понимание APA, в пределах от RNA-seq исследований, способных выявлять общие изменения в полиаденилировании, до методов, базирующихся на serial analysis of gene expression (SAGE), способных специфически определять количества и характеризовать 3' концы транскриптов, до серий надежных протоколов для аккуратной детекции и количественного определения PASs [14]. Эти транскрипционные исследования углубили наше понимание APA, предоставив информацию о вновь открытых PASs, выявляя влияние APA на экспрессию генов и открывая новые APA регуляторные механизмы.
Хотя ряд альтернативных PASs обнаруживает существенные отличия между разными исследованиями [66-68], эти работы вносят существенный вклад в мнение о повсеместности событий APA, которые возникают приблизительно в 70% генах человека. Согласно исследованию, проведенному на 15 клеточных линиях человека, имеется в среднем два PASs на ген [1]. APA внутри одного и того же последнего экзона (tandem 3'-UTRs) является наиболее многочисленным типом APA [68]. Интронные APA события описываются менее часто и тысячи интронных PASs обычно супрессированы [69]. APA обычно сцеплено с изменениями в уровнях экспрессии генов и в конечном итоге с обилием белка. Исследования показали обратную корреляцию между длиной 3'-UTR и уровнями экспрессии белка [70,71]. Некоторые человеческие ткани (такие как головного мозг, семенники, легкие и молочные железы) обогащены очень многочисленными транскриптами с короткими 3'-UTRs, тогда как др. (такие как сердце и скелетные мышцы) содержат множество транскриптов с низкими концентрациями и с длинными 3'-UTRs [72]. Повышенная экспрессия транскриптов с короткими 3'-UTRs может быть объяснена потерей последовательностей мишеней для miRNA, потерей сайтов связывания UPF1, это приводит к распаду РНК [73] или потере AU-rich elements (AREs), что приводит к ARE-направляемой деградации мРНК [71]. Однако, имеется множество исключений из общего правила, т.к. белки, которые соединяются с 3'-UTR, могут также стабилизировать мРНК [74-76].
Транскриптомные исследования были предприняты, чтобы выяснить динамику регуляции APA. В целом нарушение аппарата полиаденилирования приводит к потере точности выбора PAS и укорочению 3'-UTRs. Имеются многочисленные факторы 3' процессинга, участвующие в полиаденилировании; несмотря на это изменения в уровнях экспрессии одиночного специфического фактора достаточны, чтобы повлиять на выбор PAS. Напр., снижение уровней cleavage factor I (CFIm) 68 или poly(A)-binding protein nuclear 1 (PABPN1) приводит к укорочению 3'-UTRs по всему транскриптому, чему соответствует повышенное предпочтение к неканоническим сигналам полиаденилирования (Figure 3C) [70,77,78].
Многие недавние транскриптомные исследования подтвердили, что дистальные PASs обычно имеют сильные канонический сигнальный мотив [A(A/U) UAAA], де проксимальная часть PASs отличается от канонической последовательности [68,79-81]. Интересно, что тканеспецифические регулируемые PASs могут быть истощены в каноническом мотиве. Напр., APA в головном мозге, по-видимому, регулируется с помощью A-богатого мотива, начинающегося непосредственно ниже PAS [82]. A-богатые последовательности, как было установлено, расположены выше сайтов расщепления для транскриптов, лишенных канонических мотивов [83].
Многочисленные исследования, базирующиеся на экспрессии последовательностей тэгов и микромассивах, ранее показали биологическое значение APA (Box 2) [84,85]. Профили APA являются тканеспецифичными и, по-видимому, тонко регулируются во время развития и дифференцировки. Большинство находок, полученных в недавних транскриптомных исследованиях, подтвердило по большому счету всё, что наблюдали ранее. Тканевая специфичность APA, и корреляция между тканью и длиной 3'-UTR, по-видимому, очень консервативна между
|
|
Box 2. The biological relevance of APA
A study based on expressed sequence tags comprising 42 human
tissues [140] showed that certain tissues preferentially produce
mRNAs of a certain length. Brain, pancreatic islet, ear, bone marrow,
and uterus showed a preference for distal PASs, leading to longer
30-UTRs. Retina, placenta, ovary, and blood showed a preference for
proximal PASs. This classification might change when considering
the levels at which these mRNAs are expressed. Although most
of the transcripts detected in the brain contain distal PASs, the
transcripts that are highly abundant generally show a preference for
proximal PASs and have short 30-UTRs [72]. Other studies showed
that the choice between a distal and a proximal PAS was modulated
during differentiation and development. Progressive lengthening of
30-UTRs was shown for most of the transcripts during cell
differentiation and during embryonic development [141]. By con-
trast, shortening was observed during proliferation [142] and during
reprogramming of somatic cells [143] |
разными видами, а профили APA от разных видов сходны для одной и той же ткани [80,81,86]. Модуляция APA также встречается часто во время пролиферации и дифференцировки и развития [68,87-89].
Широко распространенные альтерации профилей APA наблюдались при некоторых болезнях. Многие исследования сообщают об укорочении 3'-UTRs при раке [90-92], сцеплении с экстенсивной усиленной регуляцией и активацией онкогенов. Однако, укорочение 3'-UTRs плохо коррелирует с прогнозом при раке молочных желез, легких и прямой кишки [93,94], подтверждая, что взаимоотношения между APA и раком не столь прямолинейны. Недавно измененные профили cAPA оказались сцеплены с мышечными нарушениями, такими как миотоническая дистрофия [95] и oculopharyngeal мышечная дистрофия [70].
From mRNA to protein: alternative translation initiation
Помимо регуляции транскрипции и процессинга, трансляция транскриптов также тонко регулируется. Регуляция трансляции определяет не только обилие белка, но и также его аминокислотный состав за счет использования разных стартовых кодонов [96], т.к. трансляция может стартовать с uORFs или альтернативных ORFs (aORFs) (Box 3 and Figure 4).
В прошлом, изменения в синтезе белка измеряли исключительно, базируясь на протеомных подходах или подсчитывались, исходя из тотальных уровней мРНК. Недавно они были
|
|
Box 3. Alternative translation initiation
uORFs are located in the 5'-UTR of a transcript. Depending on the
presence or absence of stop codons and their coding frame, a uORF
can overlap with the pORF or not. Overlapping and in-frame uORFs
lead to N-terminal extended protein isoforms [8], whereas non-
overlapping uORFs affect the translation of pORFs in various ways
[144]: they can block the translation of the pORFs, reducing protein
production; they can promote reinitiation of translation at down-
stream start codons; or they can enhance translation of the main
pORFs. aORFs are located downstream of the annotated start codon.
In-frame aORFs give rise to N-terminal truncated isoforms
[145]. uORFs and aORFs can also be out of frame with respect to
the pORFs and lead to the production of different peptides. The
sequences translated in more than one reading frame are called
dual coding regions [103]. We also note that uORFs and aORFs are
not the only events that increase the diversity of the translated
mRNAs and affect protein production. The genetic code can be read
in alternative ways, leading to frameshifting, hopping, stop codon
read-through, recoding, and codon reassignment [146,147], topics
beyond the scope of this review. |
Figure 4. Alternative translation initiation. Alternative translation initiation sites
(TISs) detected by ribosome profiling (http://www.ebi.ac.uk/ena/data/view/
PRJEB7207). (A) Examples of alternative TISs leading to alternative open reading
frames (aORFs) in frame (I) or out of frame (II) with the primary ORF (pORF). In the
Rps20 gene (I), a switch in TIS use occurs during cell differentiation. Proliferating
cells use two TISs, one corresponding to the annotated start codon and the other
corresponding to an aORF, the latter of which leads to a truncated protein isoform.
The alternative TIS is shown in the highlighted box. The top part (gray) shows the
three possible frames and the blue bar shows the frame of the pORF. Because
ribosome profiling peaks are usually displayed using only the 5' end of each
mapped read, the black line indicates the actual TIS location of the aORF, located
12 bp downstream of the mapped peak. In the Crip1 gene (II), only one
transcription start site (TSS) is present (top track, deep cap analysis of gene
expression (DeepCAGE) [16]) but two different TISs are used (bottom track,
ribosome profiling), one corresponding to the annotated start codon and one
located downstream of the annotated start codon, leading to an aORF. The
alternative TIS is shown in the highlighted box. The alternative TIS corresponds to
an AUG start codon that is out of frame compared with the pORF, indicating the
presence of a dual coding region. (B) Examples of alternative TISs leading to an
upstream ORF (uORF) in the Cryab gene. Proliferating cells use two TISs, one
located in the 5' untranslated region (5'-UTR) and one corresponding to the
annotated start codon. The sequence of the 5'-UTR incorporated by the alternative
TIS is shown below the reference track. Extension of the 5'-UTR leads to the
translation of an uORF, with a canonical AUG codon and ending before the start
codon of the pORF, negatively regulating translation.
оценены с помощью профилирования рибосом [97]. Глубокое секвенирование РНК фрагментов, защищенных рибосомами, определяет позицию рибосом на молекуле РНК с нуклеотидным разрешением, позволяя в точности охарактеризовать translation initiation site (TIS) и определить количественно уровни трансляции. Исследования по профилированию рибосом в комбинации с RNA-seq оценили степень альтернативной инициации трансляции, предоставив информацию о регуляторных механизмах этого процесса и проливая свет на то, как оно влияет на экспрессию генов.
Частые находки недавних исследований профилирования рибосом - это широкое использование альтернативных TISs. Инициация трансляции альтернативных TISs может вызывать различные формы стрессов, но также наблюдается при нормальных физиологических условиях. Между 50% и 65% транскриптов содержат более одного TIS [7,98,99]. Большинство из обнаруженных TISs располагается выше известных стартовых кодонов (50-60%), приводя к потенциальным uORFs. Немногие расположены ниже аннотированных стартовых кодонов (~20%) и приводят к N-терминально укороченным белкам или out-of-frame ORFs. Однако, некоторые пики профилей рибосом детектируются как альтернативные TISs, он могут представлять собой случаи остановки рибосом. Чтобы отличить их от истинных TISs, важны протеомные данные. Часто довольно трудно их получить, поскольку пептиды обычно коротки и нестабильны. Более того, исследование протеома при высокопродуктивном способе наталкиваются на определенные технические ограничения, особенно для малораспространенных белков, которые трудно установить среди разнообразного пула белков [100].
Информация о механизмах, регулирующих выбор uORF или aORF в противовес первичной ORF, только начинает появляться. Инициация трансляции с near-cognate кодонов и не-AUG кодонов, ранее была описана для небольшого числа мРНК, по-видимому, довольно распространена, приблизительно до 50% трансляции, инициируемой с неканонических кодонов [98,99]. Эти неканонические стартовые кодоны обогащены в uORFs. Напротив, TISs расположены ниже аннотированных TISs, представляя в основном AUG кодоны. Использование near-cognate и не-AUG стартовых кодонов подтверждено при масс-спектрометрии [101]. Интересно, что эти кодоны перекодируются в регулярные метионины, т.к. все продуцируемые белки, по-видимому, содержат N-терминальный метионин.
Недавние исследования подтвердили теорию leaky scanning [102], согласно которой выбор нижестоящего TIS зависит от силы Kozak консенсусной последовательности. Было показано на транскриптомной шкале, что инициация нижестоящих TISs обычно происходит, когда Kozak последовательность в аннотированном стартовом кодоне субоптимальна. Сходный механизм пригоден и для инициации в uORFs. uORFs транслируются параллельно их нижестоящим первичным ORFs (pORFs) если в качестве стартового кодона в uORF используется non-AUG, но трансляция pORFs обычно репрессируется, если uORFs содержат AUG стартовый кодон и сильную Kozak последовательность [99].
И aORFs и uORFs могут давать ORFs с рамкой считывания, отличающейся от pORFs, феномен, известный как двойное кодирование [103]. Периодичность триплетов, наблюдаемая при профилировании рибосом делает возможной обнаружение регионов с двойным декодированием. Хотя степень двойного кодирования, наблюдаемого в геноме человека в исследованиях профилирования рибосом составляет лишь приблизительно 1%, было предположено, что это может быть недооценено из-за технических и аналитических ограничений (малый охват и предположение, что две рамки должны транслироваться с одинаковой скоростью) [103].
Степень, с которой уровни мРНК объясняют различия в часто встречающихся белках всё ещё спорны. Хотя некоторые исследования сообщают о плохой корреляции [104] - в пределах приблизительно 40% уровни белка объясняются уровнями мРНК [105-108] или даже менее 20% [109] - др. сообщают о более высокой корреляции вплоть до приблизительно 80% [110]. Уровни РНК ассоциированных с рибосомами, по-видимому, являются хорошим приближением для уровней белка, т.к. корреляции между мРНК и белком наблюдаются между 60% и 90% [109,111]. Тем не менее изучение подобных сравнимых изменений уровней мРНК и связанных с рибосомами мРНК показывает выраженное отсутствие связи между транскрипцией и трансляцией в нескольких разных экспериментах после воздействия внеклеточных стимулов или во время клеточной и тканевой дифференцировки [112]. Следовательно, остается неясным, оказывает ли регуляция на трансляционном уровне большое влияние на глобальное обилие белка или она ограничивается субнабором генов.
Transcription, RNA processing, and translation:
interdependent processes
Молекулярные аппараты, участвующие в транскрипции и процессинге РНК сцеплены в пространстве и во времени. В некоторых обзорах описывается одновременная с транскрипцией регуляция capping, сплайсинга и полиаденилирования [113,114]. RNA polymerase II (Pol II) является важным игроком в регуляции такой связи, т.к. её С конец рекрутирует белки, участвующие в capping, сплайсинге и полиаденилировании [115]. Имеется серьёзное подтверждение связи между транскрипцией и сплайсингом. Сплайсинг преимущественно возникает во время транскрипции [1,44], на это указывают три наблюдения: многие интроны уже подверглись сплайсингу в ассоциированных с хроматином РНК; наблюдается обогащение малыми ядерными РНК из сплайсесом в ассоциированных с хроматином РНК; и экзоны, которые подверглись сплайсингу, обогащены эпигенетическими хроматиновыми метками [116]. Тем не менее события сплайсинга на 3' конце транскрипта могут возникать после транскрипции, в целом обнаруживая тенденцию 5'->3' в предпочтении к сплайсингу.
Транскрипция и сплайсинг связаны не просто в пространстве и во времени, но и также сообща ответственны за образование альтернативных транскриптов. Взаимозависимость разных событий процессинга РНК ограничивают количество комбинаций альтернативных TSSs, экзонов и PASs. Сплайсинг и полиаденилирование могут испытывать влияние не только со стороны скорости элонгации, но и также инициации транскрипции: низкая скорость элонгации связана с более медленным сплайсингом и полиаденилированием и поэтому у них повышены шансы распознавания альтернативных экзонов [117] или проксимальных PASs [118,119] и выбора TSS и это связано со специфическим паттерном сплайсинга [120,121] или использованием специфических PASs [71,122,123].
Помимо связей между транскрипцией и процессингом мРНК, альтернативный сплайсинг и APA также появляются взаимозависимо. Ранее было показано, что сплайсинг последнего интрона требует определения последнего экзона (, по крайней мере у млекопитающих [124]) и это происходит благодаря кооперации факторов сплайсинга и полиаденилирования, которые взаимодействуют посредством последнего экзона, приводя к взаимному усилению сплайсинга и полиаденилирования [125]. snRNPs U1 и U2 и U2 вспомогательный фактор в 65 kDa субъединица (U2AF65), все компоненты сплайсесом, являются также частью комплекса 3' процессинга пре-мРНК человека [126]. Эти компоненты сплайсесом непосредственно взаимодействуют с cleavage and polyadenylation specific factor (CPSF) и с CFIm. Факторы сплайсинга могут также играть роль в преждевременном расщеплении и полиаденилировании, как показывает фактор сплайсесом TRAP150 [127].
Недавнее транскриптомное исследование подкрепило связь между сплайсингом и полиаденилированием. Альтерации фактора сплайсинга hnRNP H показали наличие распространенных эффектов на тандем APA, при этом наблюдается увеличение 3'-UTR укорочения в присутствии hnRNP H и его удлинение в его отсутствие (Figure 5A, top). Изменения APA сопровождаются изменениями в альтернативном сплайсинге. Прямая связь между hnRNP H и выбором специфического PAS была показана с помощью crosslinking immunoprecipitation sequencing (CLIP-seq) анализа в присутствии высокой плотности CLIP тэгов рядом с проксимальным PAS [128]. Увеличение в проксимальном PAS наблюдалось также после альтерации Nova, RBP, участвующего в альтернативном сплайсинге [36].
Высокая плотность тэга CLIP, окружающего проксимальный PASs наблюдалась также для RBPs MBNL1 и MBNL2 (Figure 5A, bottom), которые, как известно, регулируют сплайсинг [38] и непосредственно связывают MBNL белки с APA, недавно была объяснен конкуренцией MBNL с CFIm68, компонентом аппарата полиаденилирования [95].
Связан ли альтернативный сплайсинг также с не тандемным APA, остается неясным. Мало исследований специально проведено для выяснения взаимозависимости между полиаденилированием и сплайсингом интронов. Скрытые интронные PASs в основном расположены в крупных интронах со слабым 5' слайс-сайтом. Это подтверждает, что интронное полиаденилирование может быть подавлено, если имеются энхансеры сплайсинга, которые распознают 5' сплайс-сайты, как показано для U1 [129], или усилено в случае субоптимального сплайсинга [130]. Связь, наблюдаемая в этом случае представляет собой кинетическую конкуренцию между сплайсингом и полиаденилированием [131].
Наконец, связь не ограничивается процессами, связанными в пространстве и во времени. Взаимозависимость, как было установлено, существует между процессами, возникающими в разных субклеточных компартментах; напр., между APA и трансляцией. Cytoplasmic polyadenylation element-binding protein 1 (CPEB1), который снует между ядром и цитоплазмой, как было установлено, играет двойную роль в APA и трансляции [132] (Figure 5B). Интересно, что CPEB1 может также регулировать альтернативный сплайсинг. CPEB1 предупреждает доставку сплайс-фактора U2AF65 на 3' сплайс сайт,
Figure 5. Coupled regulatory mechanisms. (A) Tandem alternative polyadenylation (APA) regulated by splicing factors. The RNA-binding proteins hnRNP H and MBNL regulate APA in opposing ways. In the presence of hnRNP H (I), cleavage and polyadenylation specific factor (CPSF) binds weaker noncanonical polyadenylation (PA)signals and cuts at the proximal polyadenylation site (PAS 1) leading to shortening of the 30 untranslated region (30-UTR), while in its absence (II) only the canonical PA signal is recognized and cleavage occurs in the distal PAS (PAS 2). (III) MBNL masks the region upstream of weak noncanonical PA signals, blocking the binding of cleavage factor I (CFIm). This leads to binding of CFIm to a more distal UGUU sequence, followed by binding of CPSF to the distal canonical PA signal and use of the distal PAS (PAS 2). In the absence of MBNL (IV), CFIm can bind proximal UGUU regions and bring the CPSF to weaker PA signals, causing cleavage at the proximal PAS (PAS 1) and shortening of the 30-UTR. (B) Coupling of APA and translation. In the nucleus, in the absence of cytoplasmic polyadenylation element-binding protein 1 (CPEB1) (I), CPSF binds the canonical PA signal and cleaves the RNA at a distal PAS (PAS 2). In the presence of CPEB1 (II), CPEB1 binds the cytoplasmic polyadenylation element (CPE) located upstream of weak noncanonical PA signals. CPEB1 directly interacts with CPSF, bringing it to regions proximal to the weak PA signal. This leads to their recognition by CPSF and cleavage at the proximal PAS (PAS 1). When CBEP1 shuttles to the cytoplasm, it again binds to the CPE, but this time to promote lengthening of the poly(A) tail by poly(A) polymerase (PAP), which results in increased translation efficiency. Lengthening of the poly(A) tails of transcripts bearing proximal PASs (PAS 1) (II) is enhanced by the fact that the CPE, PAP, and the polyadenylation site are in close proximity, whereas this enhancement is disrupted when the distance is greater due to the 30-UTR lengthening in transcripts bearing a distal PAS (PAS 2).
но одновременно рекрутирует аппарат полиаденилирования. RBP CPEB1 является примером главного регулятора, который влияет на три слоя генной экспрессии:
сплайсинг, полиаденилирование и трансляцию.
Concluding remarks
RNA-seq technologies are elucidating the mechanisms
that expand the genome’s coding capacity and are
quickly rede?ning the concept of gene expression regulation.
Although there is a continuing increase in the number of
transcripts identified, and in the understanding of the
molecular mechanisms that coordinate their formation
during transcription and mRNA processing, we still face
technical limitations due to the short read length of next-
generation sequencing data and reliance on statistical and
computational approaches to reconstruct transcript struc-
ture. This represents an obstacle when trying to link
different events occurring in the same RNA molecule.
The only way to specifically determine the exact transcript
structure for each detected RNA molecule is by sequencing
full-length RNAs, an option that is currently becoming
more feasible [133,134] and that is opening a new era in
the field of RNA-seq.