Посещений:
ДЛИННЫЕ НЕКОДИРУЮЩИЕ РНК
Классификация
|
The Landscape of long noncoding RNA classification
Georges St. Laurent , Claes Wahlestedt, and Philipp Kapranov
Trends in Genetics Volume 31, Issue 5, May 2015, Pages 239–251 Оригинал
|
Advances in the depth and quality of transcriptome
sequencing have revealed many new classes of long
noncoding RNAs (lncRNAs). lncRNA classification has
mushroomed to accommodate these new findings, even
though the real dimensions and complexity of the non-
coding transcriptome remain unknown. Although
evidence of functionality of specific lncRNAs continues
to accumulate, conflicting, confusing, and overlapping
terminology has fostered ambiguity and lack of clarity in
the field in general. The lack of fundamental conceptual
unambiguous classification framework results in a num-
ber of challenges in the annotation and interpretation of
noncoding transcriptome data. It also might undermine
integration of the new genomic methods and datasets in
an effort to unravel the function of lncRNA. Here, we
review existing lncRNA classifications, nomenclature,
and terminology. Then, we describe the conceptual
guidelines that have emerged for their classification
and functional annotation based on expanding and more
comprehensive use of large systems biology-based
datasets.
Glossary
5' -cap: an altered nucleotide present at 5 0 ends of a eukaryotic RNA and vital for
its functioning.
ENCODE project: the Encyclopedia of DNA Elements; a public research
consortium launched in September 2003 by the National Human Genome
Research Institute. The goal of the project is to identify all functional elements
in the human genome sequence.
Endogenous retrovirus (ERV): a genomic element that was traced back to a
retrovirus integrated into an ancestral genome and since retained. ERV
sequences comprise ?8% of the human genome.
Expressed sequence tag (EST): a relatively short and typically partial sequence
of a longer RNA molecule.
FANTOM consortium: an international research consortium established by
scientists at RIKEN, Japan in 2000, initially to assign functional annotations to
the full-length cDNAs collected during the Mouse Encyclopedia Project.
FANTOM has since developed and expanded over time to encompass different
fields of transcriptome analysis.
Genomic bin approach: an approach designed to detect differentially
expressed regions of the genome in the regions where no annotation is
available.
Long tandem repeat (LTR): identical pieces of DNA found at the ends of
retroviruses and critical for viral life cycle. LTRs contain elements required for
viral gene expression. LTRs of ERVs often retain these elements and thus can
initiate or control expression of host transcripts.
Paraspeckle: a subcellular compartment that could be identified in nuclear
interchromatin space.
Polycomb repressive complex 2 (PRC2): a multi-protein complex that reversibly
modifies chromatin structure and silences target genes.
Tiling microarray: a microarray design (typically oligonucleotide-based) where
probes interrogate an entire genomic region of interest at regular intervals
agnostic of genomic annotations. This design differs from other microarrays
that target only specific genomic features of interest, like exons of known
genes.
|
The ncRNA universe
Классическое мнение о ландшафте транскриптома и его mRNA-centric paradigm для описания транскрипции подверглись фундаментальному изменению [1,2]. Проект ENCODE (see Glossary) подсчитал, что (в основном некодирующие) транскрипты занимают 62-75% нашего генома [3], и вносят вклад больший в общий подсчет из 80% потенциально функциональных последовательностей в нашей ДНК [4]. Сходным образом, RNAseq исследования показали, что в транскриптах с этих некодирующих регионов преобладает популяция не рибосомальных, не митохондриальных РНК в клетках человека [5]. ncRNAs были обнаружены в качестве главного источника биомаркеров [6-10], мишеней для лечения [8,11] и потенциальных экспансий для функции некодирующих вариантов из исследований геномных ассоциаций (GWAS) [12]. Постоянно увеличиваются доказательства широкой функциональности ncRNAs [13], в процесса, варьирующих в пределах от наследуемых эпигенетических изменений [14] до видо-специфичных изменений в познании [15], это может наконец дать ответ на вопрос о роли ncDNA в биологии эукариот [16,17].
Хотя ударение делается на аннотации и классификации ncRNAs с помощью свойств, сходных с теми, что характерны для белок, кодирующих мРНК, большая часть геномного пространства, используемая для продукции РНК, остается неисследованной. Более того, хотя некоторые ncRNAs обладают общими свойствами с кодирующими мРНК, такими как сплайсинг и полиаденилирование [18,19], консервация последовательностей [18,19] и экспорт в цитозоль [20], многие др. свойства отличны, подчеркивая различия в функционировании кодирующих в противовес ncRNAs [5,11,13,21-24].
Аннотация не кодирующих РНК всё ещё в зачаточное состоянии, но сегодня эта область достаточно перспективна для установления логической концептуальной основы для классификации базы данных генеральной совокупности транскриптов, в частности геномными консорциумами, такими как FANTOM [25], ENCODE [3] и GTEx [26]. Методы для группировки секвенированных РНК (RNA-seq) (Box 1), считывающих одиночный транскрибируемый регион, быстро улучшаются [27-30]. Прогресс был также достигнут в подходах с машинным обучением (machine-learning), имеющих целью интеграцию и биологическую интерпретацию разнообразных баз, данных [29,31,32]. Всё это достигает кульминации в широко используемых наборах аннотаций lncRNAs, таких, как предоставляемых консорциумом GENCODE [33] и др. [31,34-37].
Здесь мы рассмотрим существующие классы lncRNA и затем опишем концептуальную линию поведения, которая возникает в результате их классификации функциональной аннотации, базирующихся на более эффективном использовании large systems-biology-based баз данных. Такая конструкция позволяет исследователям классификацию ncRNAs и интерпретацию данных next-generation sequencing (NGS), особенно в некодирующих частях генома.
Criteria and features of existing classes and categories
of lncRNAs
Классификация огромного большинства lncRNAs базируется на эмпирических атрибутах, первоначально использованных для их детекции (Table 1, Figure 1). Это отражает их короткую историю по сравнению с белок-кодирующими генами и предоставляет подходящую основу для классификации этих не охарактеризованных видов РНК.
Classification based on transcript length
Подсчет длины ncRNAs используется в качестве особенно часто используемого атрибута для их классификации. Обычно порог в 200 оснований отделяет длинные от коротких ncRNAs [38,39] (Table 1). Часто наши знания ограничены считываемыми последовательностями, картируемыми в 'region of transcription', и даже с улучшением определения длины с помощью NGS[40], всё это дело обозримого будущего.
Построение транскрибируемых регионов, базирующееся на RNA-seq профилировании общей РНК (скорее, чем polyA+ фракции, see below), привело к открытию межгенных пространств, кодирующих тысячи очень длинных межгенных ncRNAs (vlincRNAs), чьи первичные транскрипты находятся в диапазоне длин от 50 kb
до 1 Mb [28,29,41]. Занимая, по крайней мере, 10% генома человека [5,29], vlincRNAs участвуют в важных биологических процессах, таких как плюрипотентность [29], рак
[28,29], апоптоз [29], ход клеточного цикла [28,42] и клеточное старение [41].
Classification based on association with annotated
protein-coding genes
Этот широко используемый атрибут (Table 1, Figure 1) служит в качестве основы GENCODE классификации lncRNAs [33]. Она базируется на логических допущениях перекрывания, кодирующих и некодирующих транскриптов в данном локусе - наз.
'transcriptional forests' в консорциуме FANTOM [43]. Целенаправленные методы (Box 1), базирующиеся на экспериментах по быстрой амплификации rapid amplification of cDNA ends (RACE) [44] и RNA-seq [45] показали, что "транскрипционные леса" составляют генеральное свойство генома человека. Выдающиеся категории ncRNAs выступают из этих transcriptional forests, состоящих из смысловых ncRNAs, которые перекрываются с кодирующими мРНК на той же самой нити и обладают той же самой последовательностью с последней, но не кодируют белки [44,46-48]. Эта категория включает не подвергнутые сплайсингу смысловые partially intronic RNAs (PINs)
[49], и подвергшиеся сплайсингу транскрипты, которые содержат комбинацию экзонов кодирующего и не кодирующего регионов гена [47,48]. GENCODE распознает существование таких подвергшихся сплайсингу lncRNAs в их 'sense overlapping' биотипе [33].
PIN и смысловые перекрывающиеся категории делают возможным перекрывание между lncRNAs и экзонами из белок-кодирующего гена. Однако, белок-кодирующий ген может продуцировать lncRNAs, обнаруживаемые исключительно в его интронах, известны как totally intronic RNAs (TINs) [49] (Table 1, Figure 1). TINs составляют большинство (~70%) от всех некодирующих (non-rRNA) кодируемых в ядре РНК и 40-50% от всех клеточных (non-rRNA) РНК в целом, как установлено секвенированием одиночных молекул [50]. Доказательство, что большое количество интронов кодируют автономно нить РНК, первоначально было получено при профилировании экспрессии микромассивов
| |
Box 1. Overview of high-throughput technologies used to
detect and quantify ncRNAs
RNA sequencing (RNA-seq): currently, one of the most commonly
used procedures in transcriptome profiling. Typically, RNA is
converted into cDNA using random hexamers followed by massive
random sequencing of the resulting cDNAs using NGS technologies.
As a result, millions of short sequence tags can be generated per
experiment. Subsequent mapping of the tags reveals the genomic
position encoding the RNA and its relative mass in the cell. The
procedure is suitable for various aspects of transcriptome research:
RNA mapping, quantitation, alternative splicing analysis etc.
mRNA sequencing (mRNA-seq): RNA-seq on polyA+ fraction of
RNA, often synonymous with RNA-seq.
Direct RNA sequencing (DRS): sequencing of native RNA, without
library preparation including cDNA conversion step [143], has been
successfully used to sequence native polyA+ and identify alternative
polyadenylation sites. DRS is particularly useful in applications
where artifacts of reverse transcription are undesirable, such as
precise strand of origin determination, and in applications that deal
with minute amounts of nucleic acids such as single-cell applica-
tions. Theoretically, it can provide multiple tags per molecule,
however so far it has been used in applications that provide a single
tag per molecule at the polyadenylation site.
Cap assisted gene expression (CAGE): a transcriptome profiling
procedure that targets RNAs with a 5 0 -cap [144]. CAGE generates
short (typically 27 nucleotides) sequence tags from 5 0 ends of such
RNAs, with one tag per RNA molecule. It enables accurate mapping
of 5 0 ends this subset of RNAs.
Serial analysis of gene expression (SAGE): targets polyadenylated
messages and generates a single internal (typically close to the 3 0
end) tag per RNA molecule [145].
Paired-end tag (PET): also targets polyadenylated RNAs and
generates a tag that combines information on 5 0 and 3 0 ends of
the same RNA molecule [146].
Rapid amplification of cDNA ends (RACE): an 'outward' PCR-
based method designed to identify sequences connected to a given
region, which can be used in conjunction with NGS or microarrays,
for deep transcriptome profiling of a specific locus [44].
Targeted RNA sequencing: selection of RNAs from a locus of
interest using tiling microarrays followed by RNA-seq to achieve the
same goal [45].
GRO-seq: A typical RNA profiling experiment measures steady-
state levels of RNA. By contrast, GRO-seq [134] combines nuclear
run-on experiments and NGS analysis to provide information on
transcription competent RNA polymerase complexes. | |
Table 1. Different known classes of lncRNAs
[49, 51] и баз данных in silico анализа expressed sequence tag (EST) [49, 52]. Даже такие компактные геномы как у вирусов человека могут кодировать функциональные интронные РНК [53]. Большие количества автономных интронных РНК недавно найдены в ооцитах Xenopus [54] и мыши [50], подтвердив заключение, что интроны кодируют функциональные ncRNAs глобально. Некоторые из этих транскриптов, скорее всего, представляют циркулярные интронные ncRNAs (ciRNAs) (продуцируемые с интронов, которые избежали разветвлений (debranching)), которые могут накапливаться в клетках и регулировать экспрессию своих родительских генов [55] (Figure 1). Частичное перекрывание противоположных нитей ДНК с их ассоциированным белок-кодирующим геном предоставляет др. часто используемый атрибут lncRNAs. Эти естественные антисмысловые транскрипты (NATs) (Figure 1) появляются в 50-70% от всех белок-кодирующих генов [56,57].
ncRNAs могут также состоять только из последовательностей экзонов белок-кодирующих мРНК (Figure 1, Table 1). Напр., расщепление транскрипта, сопровождаемое пост-транскрипционным добавлением 5' -cap [58,59] может приводить к продукции автономных ncRNAs из разных частей мРНК [58], особенно из 3' untranslated regions (UTRs) [60]. Фактически, типа 0 вариант структуры шапочки (cap) может ассоциировать с пост-транскрипционно capped 5' концами [61]. Дополнительные клеточные процессы д. продуцировать такого типа ncRNA, такие как обратный сплайсинг, причастный к продукции циркулярных экзонных РНК [62], транс-сплайсинг, ведущий к продукции химерных РНК [63,64], соприкосновение (juxtaposition) экзонов [65] и предполагаемое копирование РНК, приводящее к продукции 'зеркальных антисмысловых' транскриптов [44,66,67]. Наконец, РНК, чьи последовательности обладают свойствами
bona fide кодирующих транскриптов, могут выполнять др. роли, на что указывает class of chromatin-interlinking RNAs (ciRNAs). Эти РНК участвуют в поддержании конфигурации интерфазного хроматина и в основном включают подвергшиеся сплайсингу транскрипты с длинными 3' UTRs [68].
Classification based on association with other DNA
elements of known function
Известные классы таких РНК включают ассоциированные с энхансером и промотором длинные РНК (Table 1, Figure 1). Эти длинные РНК участвуют в связывании динамики ядерной архитектуры, пластичности передачи хроматиновых и в регуляции транскрипции [69]. Интересно, что энхансеры, которые дают виды РНК, обнаруживают большее сходство в функциональности в описанных исследованиях, чем те, что не дают их [70], это говорит в пользу функциональной скорее, чем ложной, связи между РНК и такого типа геномными элементами.
Classification based on mRNA resemblance
Как упоминалось ранее исследования, сфокусированные на ncRNAs со структурой после сплайсинга, консервативной последовательностью и полиА хвостом [18,19,34,35,71] (Figure 1). Фактически, lncRNAs аннотированные GENCODE - даже те, представленные исключительно интронными последовательностями - представляют собой преимущественно транскрипты после сплайсинга [33]. Эти свойства были использованы для идентификации тысяч транскриптов у мышей [18] и человека [19], названы long intervening ncRNAs (lincRNAs) [18]. Такой подход выявил много важных функциональных lncRNAs, таких как HOTAIR, которые обеспечивают молчание генов путем облегчения локализации эпигенетического репрессора Polycomb repressive complex (PRC)2 на их последовательностях мишенях [72]. Анализ экспрессии ~10 000 lincRNAs человека среди 1300 опухолевых выборок с использованием микромассивов, выявил сотни некодирующих транскриптов, потенциально управляющих четырьмя разными типами раковых опухолей [73]. Многочисленные др. исследования выявили участие lincRNAs в развитии и болезнях человека [74]. В качестве показателя их функциональности, анализ экспрессии 11 видов четвероногих выявил 2508 lincRNAs, экспрессируемых, по крайней мере, у трех видов и возникших более 90 миллионов лет тому назад [71].
Classification based on association with repeats
Приблизительно половина генома человека состоит из повторов разных категорий и множество геномных регионов, кодирующих ncRNA, перекрывают эти элементы (Figure 1). Промоторы внутри повторов управляют экспрессией многих ncRNAs [75], особенно в плюрипотентных [29,76,77] и раковых клетках [29]. Промоторы внутри длинных тандемных повторов (LTRs) эндогенных ретровирусов специфически ассоциируют с ncRNAs из разных классов nonannotated stem transcripts (NASTs) [76] в плюрипотентных стволовых клетках, включая lincRNAs [77] и vlincRNAs [29] (Table 1). К тому же LTR-управляемые vlincRNAs обнаруживают одинаковую регуляторную архитектуру в стволовых и раковых клетках [29]; интересно напомнить идею рака из стволовых клеток [78].
Индивидуальные копии повторов экспрессируются со своих собственных промоторов и вносят вклад с транскриптом ncRNA. Напр., RNA polymerase (Pol) III транскрибирует
Figure 1. Schematic diagram illustrating various classes of ncRNAs. Three hypothetical loci are shown. Protein coding exons are shown as green (locus 1) or yellow boxes (locus 3). Locus 2 signifies a pseudogene of locus 1. Regulatory regions of locus 1 are shown in purple (promoter) and magenta (enhancer). Repeats are denoted by brown boxes. Lines with arrows represent ncRNAs. The role depicted here for CARs and ciRNAs in stabilising a chromatin loop is hypothetical. Abbreviations: CAR, chromatin-associated RNA; ceRNA, competing endogenous RNA; ciRNA, chromatin-interlinking RNA (grey) or circular intronic RNA (green); eRNA, enhancer-associated RNA; ecircRNA, exonic circular RNA; lincRNA, long intervening non-coding RNA; ncRNA, noncoding RNA; ncRNA-a, activating ncRNAs; PALR, promoter-associated long RNA; PIN, partially intronic RNA; TIN, totally intronic RNA; TSSa-RNA, transcription-start-site-associated RNA; T-UCR, transcribed ultraconserved regions; uaRNA, 3 0 UTR-derived RNAs; vlincRNA, very long intergenic ncRNA.
некодирующие повторяющиеся элементы, такие как Alu, B1 и B2, которые могут соединяться с RNA Pol II и влиять на её активность в ответ на стрессы [79]. Long interspersed nuclear elements (LINEs) составляют 20% генома и экспрессируют в основном некодирующие транскрипты из-за 3' укорочения и накапливают мутации [80]. Сходным образом, экспрессия некодирующих endogenous retroviruses (ERVs) это хорошо известный1 феномен [81]. Наконец, исследование транскриптов, содержащих повторы копий, продолжают выполнять дополнительные регуляторные функции для этих молекул, как демонстрируют, напр., Alu-обусловленные межмолекулярные взаимодействия кодирующих и не кодирующих РНК в трансположении [82]. Транскрипты со специфических субнаборов повторяющихся последовательностей - некодирующих копий белок-кодирующих генов или мРНК (псевдогенов) [83] - получают выдающееся положение после реализации, т.к. они могут функционировать разными способами [84], включая связывание и титрацию регуляторных молекул, которые обычно взаимодействуют с функциональными копиями [85,86]. Более того, псевдогены могут быть транскрибированы с противоположной нити, продуцируя тем самым транскрипты, способные к межмолекулярным взаимодействиям с продуктивными копиями [87] или их промоторами [85].
Classification based on a biochemical pathway or
stability
Классификация ncRNA, базирующаяся на их ассоциации с пулами субстратов из разных путей деградации РНК и с энзимами, недавно приобрела популярность. Ингибирование компонентов экзома (RRP6, RRP40 и RRP44) или nonsense-mediated decay (XRN1) выявило популяции ncRNAs ранее не обнаруживаемые с клетках дикого типа [88-92] (Table 1). Этот подход также предоставил информацию о путях их метаболизма. Последнее является ещё одним атрибутом, используемым для классификации ncRNAs, как, напр., XUTs (Xrn1-sensitive unstable transcripts)
[91] (Table 1). Большинство путей, проанализированных подробно в данной классификации участвует в деградации РНК и эти lncRNAs перекрываются с классами NATs [91] и ассоциированными с промоторами РНК [89,90,92].
Classification based on sequence or structure
conservation
Консервация последовательностей в сравнении с высоко информативной предсказуемостью для белок-кодирующих РНК, остается metric с противоречивыми качествами в некодирующем пространстве. Её отсутствие - типичное для lncRNAs [93] - не обязательно подозревает отсутствие функциональности [22,24]. Всё ещё многие ultra-conserved regions (UCRs) - последовательности ДНК на 100% консервативные у человека, крысы и мыши - картируются в некодирующем пространстве генома [94]. Большое количество UCRs транскрибируется как ncRNAs, и некоторые ассоциируют со злокачественными состояниями [95]. Поскольку вторичная структура РНК играет критическую роль с функции ncRNA [24,96], ряд биоинформационных подходов, таких как RNA-Z [97] EvoFold [98], обращает внимание скорее на консервацию структуры, чем консервацию последовательности, чтобы предсказывать регионы, кодирующие ncRNA (Table 1) [99].
Classification based on biological states
Ряд ассоциированных с раком транскрибируемых UCRs (T-UCRs), кодируемых с помощью ncRNAs, был индуцирован гипоксией и в дальнейшем классифицирован как hypoxia-induced noncoding ultraconserved transcripts (HINCUTs) [100]. Они служат примером еще одного способа атрибутации ncRNA: индукция после воздействия стимулами или ассоциирована после ассоциации с определенным биологическим состоянием. Др. примером являются long stress-induced noncoding transcripts (LSINCTs)
[101].
Classification based on subcellular localisation
Локализация РНК может предоставить важные указания на функцию. ncRNAs обнаруживают тенденцию накапливаться в ядре [38,56], это подтверждает их участие в пространственно-временной регуляции ядерной архитектуры. Напр., chromain-associated RNAs (CARs) - как интронные, так и межгенные - формируют интегральный компонент хроматина, при этом потенциально регулируют экспрессию соседних генов [102] (Figure 1). Консорциум ENCODE осуществляет обширное профилирование трех субклеточных компартментов (хроматина, ядрышка и нуклеоплазмы) для установления в них состава РНК [3]. Внутри ядра ncRNA ассоциируют с и воздействуют на комплекс замалчивания генов PRC2, это привело к идентификации тысяч PRC2-ассоциированных ncRNAs в эмбриональных стволовых клетках мыши [103] и линиях клеток человека [19]. ncRNAs образуют компоненты др. ядерных подкомпартментов, таких как paraspeckles, ядрышки и ядерный матрикс [104]. Предположительно дополнительные классы ncRNAs, ассоциированные с этими и др. компартментами, скорее всего, ожидают своего открытия. Интересно, что lncRNAs, расположены в цитозоле [105] и действительно ассоциированы с рибосомами. Даже небольшой митохондриальный геном кодирует lncRNAs [106], подчеркивая разнообразие различных процессов, в которых эти транскрипты участвуют (see below).
Classification based on function
lncRNAs могут участвовать в большом количестве различных клеточных процессов: ремоделировании хроматина, регуляции транскрипции и трансляции, стабильности РНК, образовании каркаса и врожденном иммунитете. Мы обсудим только примеры функций, используемых для классификации, о молекулярных механизмах lncRNA см. обзоры [6,7,13,24,39,107].
Активирующие ncRNAs (ncRNA-a), которые обладают энхансер-подобными свойствами, представляют собой пример классификации, базирующейся на функции (Table 1). Этот класс отличается от энхансерных РНК (eRNAs) [108] по позитивной регуляции соседних генов (Figure 1). Одним выдающимся членом этого класса является ncRNA-a7, регулирующая транскрипционный фактор Snai1. Истощение ncRNA-a7 приводит к крупным фенотипическим изменениям на клеточном и молекулярном уровне [108]. Категория ncRNA-a, по-видимому, будет увеличиваться, т.к. накапливающиеся данные по высокого качества экспрессии выявляют всё больше lncRNAs, которые позитивно коррелируют с соседними генами (St. Laurent et al., unpublished). Др. пример - это competing endogenous RNAs (ceRNAs) [109]. Они обнаруживают сходство последовательностей с белок-кодирующими транскриптами и действуют, конкурируя за регуляторные молекулы [109]. Любая ncRNA, обладающая общими последовательностями с др. (кодирующими или некодирующими) РНК, потенциально может быть ceRNA, такой, как транскрибируемые псевдогены, которые представляют важные ceRNAs [86] (Figure 1). Очевидно, что ceRNAs могут формировать часть матрикса регуляторного комплекса, управляемого с помощью дифференциального сродства среди многих контекстуально ассоциированных молекул РНК [110].
Некоторые lncRNAs выступают в качестве предшественников для коротких функциональных РНК, напр., первичные транскрипты для mi- и piwi-взаимодействующими РНК (piRNAs) (Table 1). Фактически, длинные и короткие продукты расщепления д. обладать разными функциями, как это демонстрируют короткие некодирующие tRNA-подобные молекулы, продуцируемые во время созревания metastasis associated lung adenocarcinoma transcript 1 (MALAT1) lncRNA [111]. Консорциум ENCODE подсчитал, что ~6% из всех аннотированных кодирующих и некодирующих транскриптов перекрываются с короткими РНК [3]. Недавнее сообщение подтвердило, что в 18-нуклеотидов короткая РНК, продуцируемая с кодирующей мРНК, регулирует трансляцию [112]. Также, ncRNAs, происходящие с 3' концов мРНК, ассоциируют с белками Argonaute, подтверждая, что они представляют новые регуляторные молекулы [90]. Короткие РНК, происходящие из белок-кодирующих транскриптов, также могут обеспечивать молчание родительского гена через поколения [14]. Очевидно, что расщепление может также генерировать функциональные lncRNAs из длинных предшественников ncRNA, при этом предшественник и продукт д. иметь разные функции.
Наконец, мы отметили, что не каждый lncRNA транскриптов функционирует исключительно как некодирующий элемент. Данные по секвенированию пептидов выявили присутствие 250 новых пептидов мыши, кодируемых предположительно lncRNAs [113]. Полной меры новый протеом млекопитающих, кодируемый с помощью lncRNAs, пока ещё неясен. Хотя многие lncRNAs, по-видимому, ассоциируют с рибосомами [105,114], часто это не приводит к синтезу белка [115,116], но вместо этого может быть выявлена регуляция с помощью lncRNA трансляции [105]. Несмотря на это, белок-кодирующий потенциал сегодня используется в качестве одного из metric определения lncRNA [37].
Challenges of current lncRNA classification
Как показано выше, существующие классификации lncRNAs базируются на их описательных и отличительных свойствах: от их размера до их локализации, до их функции. Напр., GENCODE система в качестве одной из немногих доступных практических и современных классификаций, также классифицирует lncRNAs на антисмысловые РНК или lincRNA, помимо ассоциированных с интронами биотипов [33]. Хотя логические принципы ведут к этим классификациям они унаследовали ряд неизбежных недостатков. Во-первых, существующие классы покрывают небольшую фракцию lncRNAs, присутствующих в клетке (Figure 2). Разные списки lncRNAs, аннотированные на базе сходства с белок-кодирующими мРНК, насчитывают только 0.05-1.12% от клеточных РНК (Figure 2), тогда как функциональные интронные РНК могут составлять до 16% [50]. Во-вторых, перекрывание между множественными существующими аннотациями lncRNAs, полученные разными группами, мало [33]. В-третьих, описания этих классов в современных схемах аннотации может быть расплывчатым. Напр., lncRNA может инициироваться на энхансерном элементе или инициироваться на значительном расстоянии и просто перекрывать его, сегодня пока не могут быть классифицированы как eRNAs. В четвертых, классы не являются взаимно исключительными. Т.о., lincRNA может теоретически быть классифицирована как eRNA, и LSINCT и CAR и T-UCF. Напр., ANRIL является lncRNA [117], NAT [117]и циркулярной РНК [118]. Это подчеркивает определенную проблематичность, поскольку немногие базы данных удовлетворяют всем этим характеристикам и поэтому многие ncRNAs не оценены вразумительно. В-пятых, они лишены систематизации: в соответствии с современными схемами, в будущем следует ожидать сотен перекрывающихся классов ncRNAs, поскольку новые знания будут включаться в классификацию. Существует уже, по крайней мере, 50 ассоциаций с большим числом биологических или биохимических процессов (Table 1). В-шестых, атрибуты, используемые в современных классификациях могут уменьшиться со временем по своей значимости или пригодности. Учитывая растущую роль транс-регуляции с помощью tncRNAs посредством межмолекулярных взаимодействий [42,82,119], тот факт, что lncRNA ассоциируют с энхансерами, промоторами или интронами или являются антисмысловыми по отношению к известным генам, может и не отражать действительную функцию ncRNA. Вместо этого, последние могут функционировать посредством взаимодействия с транскриптами, происходящими из любого места генома.
The consolidated conceptual framework of lncRNA
classification
Концепция управления классификацией lncRNA началась с успеха недавней разработки в аннотации некодирующих транскриптов и драматически улучшила технику для её измерения. Ниже мы рассмотрим концептуальные компоненты, которые предоставили основу для начала этих улучшений (Figure 3).
Tier
1: mapping the longest unprocessed transcript
Тот факт, что существует список lncRNAs, лишенных крупной фракции массы ncRNA (Figure 2) указывает на то, что процесс аннотации стартовал на более высоком уровне. Первая логическая ступень в этой попытке картировать самые длинные некодирующие транскрипты (Figure 3).
Figure 2. Properties of different published lists of human transcripts representing various classes of ncRNAs. Sequence conservation was defined by the conserved elements from the Vertebrate MULTIZ Alignment & Conservation (100 Species) database from the University of California Santa Cruz (UCSC) Genome Browser [169]. Relative conservation represents the fraction of conserved bases relative to the total lengths for each list of ncRNAs. Relative mass and expression levels represent averages of several malignant and normal tissues profiled using single-molecule RNA-seq analysis [5,29]. Only non-ribosomal RNA reads uniquely mapping to the nuclear genome were considered. Relative mass represents proportion of reads mapping to a particular genomic element relative to all reads. The relative expression is the relative mass divided by the total length of each list and normalized to the relative expression of coding exons (defined by UCSC Genes). Promoter-associated RNAs were defined by the regions 3 kb upstream of annotated start sites of UCSC Genes. Given the lack of a comprehensive list of standalone human intronic RNAs, we extrapolated the relative mass of those based on mouse data [50]. The GENCODE annotations [33] are based on v19. Abbreviations: lincRNA, long intervening non-coding RNA; LTR; long tandem repeat; ncRNA, noncoding RNA; TUCP, transcript of uncertain coding potential; vlincRNA, very long intergenic non-coding RNA.
Figure 3. Outline of the consolidated conceptual framework of ncRNA classification. Highly accurate empirical RNA-seq data drives both annotation and quantification of the longest ncRNA (Tier 1) and of processed ncRNA species (Tier 2) across the entire genome. The quantitation data serves as the basis for the combined global matrix of knowledge of expression of each (coding and noncoding) RNA gene and transcript across multiple biological sources (Tier 3). This information provides the input for the functional annotation of non-coding transcripts using systems biology approaches. Mapping of RNA modifications provides the final layer of knowledge in this scheme. Abbreviations: ncRNA, noncoding RNA.
Подразделение межгенного пространства на отдельные ncRNA loci (гены) принесло явные выгоды. Во-первых, оно позволило консолидацию несоизмеримых и часто неполных ncRNAs, представленных ESTs, lincRNAs и mRNAs, в одном локусе. В качестве иллюстрации клинически важный регион 8q24, стоящий выше гена
MYC, содержит ряд различающихся lncRNA элементов [12] (Figure 4). Учитывая расстояния, которые разделяют их, не кажется очевидным, что
Figure 4. A genomic view of the 8q24 region upstream of the human MYC gene. This clinically important locus containing many GWAS hits associated with several cancers represents an example of a genomic region that could clearly benefit from the new annotation scheme. The RNA-seq analysis reveals fairly strong signal on both strands covering most of this >1 Mbp region. Yet, the known lncRNA annotations represent only a small fraction of this locus and judging by the distribution of the RNA-seq signal and known promoters, are likely part of much larger transcript units (for example vlincRNAs shown on the figure). Transcriptome RNA-seq data are represented by the polyA- nuclear RNA from normal epidermal keratinocytes (NHEK) and embryonic stem cells (H1) generated by the ENCODE consortium [3]. In addition, vlincRNAs [29], promoters [32], and disease-associated variants from GWASs [170] are shown. Abbreviations: GWAS, genome-wide association study; lncRNA, long noncodingRNA; vlincRNA, very long intergenic noncoding RNA. Reproduced, with permission, from [12].
эти аннотации являются частью одного и того же транскрипта, пока сигнал RNA-seq четко сгруппировал их вместе в один локус, ассоциированный со специфическим регуляторным регионом (Figure 4).
Во-вторых, такая группировка д. позволить эксперименты по фокусированию на одном локусе скорее, чем на многих различных геномных элементах, делая возможной бесшовную стыковку данных от независимых экспериментов. В-третьих, прояснится вопрос ассоциации РНК с разными геномными особенностями, напр., энхансерами, показывая возникают ли транскрипты из этих ДНК элементов или в большинстве своем перекрываются с ними. В целом, самые длинные транскрипты д. служить в качестве поддерживающих каркасов, чтобы свести вместе все несопоставимые аннотации в ген-подобные структуры с их собственными регуляторными регионами транскрипции, помогая разрешить проблему перекрывания. В этом случае, информация промотора и данные CAGE тэга (Box 1) [25] д. помочь как в оценке качества карты, так и понимания регуляции таких генов. lncRNA не всегда могут продуцироваться со своего собственного специфического промотора, как, напр., в случае циркулярной интронной РНК [55]. Такие выдающиеся функциональные интронные РНК должны, однако, обладать определенными свойствами, такими как низкая корреляция с др. экзонами и интронами в том же самом гене, относительно высоких уровней экспрессии с низкой вариабельностью и иногда с дифференциальной экспрессией в ходе биологического времени [50]. Эти свойства теперь могут быть измерены с помощью высоко количественного анализа уровней РНК во многих разнообразных выборках. Т.о., определение автономных транскриптов д. приобрести дополнительное измерение - количественное измерение, чтобы сделать возможным анализ совместной экспрессии со многими соседними транскриптами.
Tier 2: defining processed transcripts
Концепция transcriptional forest подразумевает, что многие виды РНК обладают тем же самым геномным пространством, транскрибируясь или независимо или возникая в результате процессинга длинных предшественников [38,43,120]. Картирование мест полиаденилирования [121,122] предоставляет дополнительную информацию по завершенности таких карт. Использование высоко чувствительных методов, нацеленных на специфические регионы, использующих RACE [47] или capture-sequencing [45] д. увеличивать открытие подвергающихся преобразованию видов. Существуют множественные уровни процессинга, такие как A to I редактирование [123,124] и др. [125], каждый под своим собственным регуляторным контролем.
Tier 3: the additional dimension of expression levels
В последнее время, только геномные координаты детерминируют геномную аннотацию. Однако, в случает перекрывания транскриптов, это не может предсказать, какие изоформы, скорее всего, функционируют в определенной ткани. Т.о., прогресс в нашем понимании сложности транскриптома (Box 1) говорит в пользу дополнительного измерения - экспрессия каждой РНК, осуществляется в данном локусе (Figure 3). Пионерские попытки Консорциума FANTOM [25] сделать это предприятие успешным.
Tier 4: RNA modifications
Картирование всех (более 100) модификаций РНК [125] составляет финальный слой аннотации (Figure 3). Эти паттерны д. предоставлять информацию богатства источников для отличия молекул РНК, помогая тем самым их классификации. Пока технологические ограничения препятствуют нам эффективно картировать в геноме большинство модификаций РНК, а анализ технически доступных модификаций чреват ловушками [124], такими как фальшивые открытия благодаря технологическим шумам [126]. Существует надежда [127] и возникают технологии [128] которые сделают возможным прогресс в каталогизации модификаций РНК.
From consolidated conceptual framework to function
Первой основой новой конструкции является консолидация, достигаемая с помощью группировки несопоставимых lncRNA транскриптов в гены или отдельные Tier 1 транскрипты. Второй аспект исходит из феноменологического описания lncRNAs в их геномных координатах, которые параллельны эволюции концепции гена [129]. Третий аспект использует эмпирические данные, чтобы выявить слои перекрывающихся транскриптов, как, напр., в исследовании интронных РНК у мышей [50]. Четвертый аспект определяет функциональный вес lncRNA путем интеграции информации от разных высокопроизводительных методов [130]. Среди прочих, эти методы включают cross-linking immunoprecipitation (CLIP)-seq [131] для детекции и измерения взаимодействий РНК-белок, селективное 2'-hydroxyl ацетилирование, анализируемое с помощью расширения праймера (SHAPE)-seq [132] для анализа вторичной структуры РНК, выделение хроматина с помощью очистки РНК (ChIRP)-seq [133] для измерения взаимодействий РНК-хроматин и global run-on (GRO)-seq (Box 1) для измерения транскрипции [134]. Этот многогранный подход комбинирует независимые источники доказательств функциональности молекул РНК, подчеркивая сложность участия lncRNA в потоке биологической информации [24,135]. К счастью, появились новые machine-learning методы, чтобы идентифицировать и расшифровывать сложные паттерны в данных, дающих вероятностную оценку функции ncRNA среди больших популяций транскриптов [71,136].
Эволюция концептуальной основы классификации ncRNA, описанная выше, предоставляет оперативный план для анализа RNA-seq эксперимента и его интеграции в широкую базу знаний высокопродуктивной многосторонней информации. Доступность общего набора геномных координат для разных стадий процессинга ncRNA (Figure 3, Tiers 1 и 2) предоставляет ключевой ресурс, который делает возможной интеграцию данных от множественных экспериментов. Tiers 3 и 4 помогают очистке классификации путем отделения перекрывающихся транскриптов, которые имеют разные паттерны экспрессии и модификации генов.
Для эффективной интеграции данных подходы системной биологии нуждаются в базах данных по экспрессии генов, которые покрывают большие количества биологических источников с чрезвычайной точностью [137]. Небольшие, но биологически важные эффекты [138] могут быть потеряны в технологических шумах [139]. Сходным образом, потеря ncRNAs и сложности транскриптома может возникнуть во время предварительной обработки библиотеки [140] и выделения РНК [141]. Обработка NGS данных также представляет ряд затруднений. Напр., алгоритмы построения транскриптов (Tier 1) должны учитываться для регионов генома, которые труднодоступны из-за повторяющихся регионов [142]. NGS считывает не определенные после этих ступеней и может служить в качестве входящей информации в
ab initio алгоритмы, такие как подход по геномному отслеживанию (binning) [50,139], чтобы определять дифференциально экспрессируемые регионы [27-30]. Без сомнения, повторения циклов, состоящих из аннотаций, измерений экспрессии и добавления новых транскриптов и транскрибируемых регионов в экспериментах по глобальному измерению РНК прояснят затруднения всеобъемлющей транскрипции.
Concluding remarks
Assigning functions to the mass of lncRNAs produced in
the cell requires novel thinking and approaches. Many of
the classic reductionist methods that worked well for
coding genes have proven less useful to the challenges of
deciphering the elaborate populations of transcripts gen-
erated by pervasive ncRNA transcription. Instead, global,
systems-biology and genomics-driven approaches have
emerged, which rely on an integrative framework of anno-
tation and classification. This framework increases empha-
sis on the quality of genome-wide RNA measurements to
allow for the ready integration of data from multiple types
of experiments. It facilitates the development of improved
tools for the integration of the highly multi-dimensional
data from these experiments into the classification frame-
work, thereby revealing associations between both coding
and non-coding transcripts. Finally, it supports the ratio-
nal and structured selection of subsets of these predictions
for biological follow-up using reductionist methods.
Online links
FANTOM Consortium: http://fantom.gsc.riken.jp/
ENCODE Consortium: http://www.genome.gov/encode/
St. Laurent Institute: http://www.stlaurentinstitute.com/
Database of RNA modifications: http://mods.rna.albany.
edu/
NIH Roadmap Epigenomics project: http://www.
roadmapepigenomics.org/