Посещений:
ЛАНДШАФТ ТРАНСКРИПЦИИ
Геном Клеток Человека
|
Landscape of transcription in human cells Sarah Djebali, Carrie A. Davis, Angelika Merkel, Alex Dobin, Timo Lassmann, Ali Mortazavi, Andrea Tanzer, Julien Lagarde, Wei Lin, Felix Schlesinger, Chenghai Xue, Georgi K. Marinov, Jainab Khatun, Brian A. Williams, Chris Zaleski, Joel Rozowsky, Maik Rцder, Felix Kokocinski, Rehab F. Abdelhamid, Tyler Alioto, Igor Antoshechkin, Michael T. Baer, Nadav S. Bar, Philippe Batut, Kimberly Bell et al. Nature 489, 101–108 (06 September 2012) doi:10.1038/nature11233 |
Eukaryotic cells make many types of primary and processed RNAs that are found either in specific subcellular compartments or throughout the cells. A complete catalogue of these RNAs is not yet available and their characteristic subcellular localizations are also poorly understood. Because RNA represents the direct output of the genetic information encoded by genomes and a significant proportion of a cell’s regulatory capabilities are focused on its synthesis, processing, transport, modification and translation, the generation of such a catalogue is crucial for understanding genome function. Here we report evidence that three-quarters of the human genome is capable of being transcribed, as well as observations about the range and levels of expression, localization, processing fates, regulatory regions and modifications of almost all currently annotated and thousands of previously unannotated RNAs. These observations, taken together, prompt a redefinition of the concept of a gene.
Рисунки к статье
См. также др. перевод
Оригинал
|
Поскольку технологии профилирования РНК и выделения и культивирования типов клеток продолжают улучшаться, каталог типов РНК растет и ведет к увеличению оценки значения многочисленных биологических функций, выполняемых РНК, безусловно помещая их на один уровень с функциональным значением белков1. Проект Encyclopedia of DNA Elements (ENCODE) содержит искомый каталог репертуара РНК, продуцируемый клетками человека, как часть намеченной цели идентификации и характеристики функциональных элементов, присутствующих в геномных последовательностях человека2. Пятилетняя пилотная фаза проекта ENCODE3 исследовала приблизительно 1% генома человека и выявила, что богатые и бедные генами регионы транскрибируются повсюду, подтверждая результаты предыдущих исследований4, 5. Во время второй фазы проекта ENCODE, длящейся 5 лет, пределы исследований были расширены, чтобы исследовать геном человека полностью. Т.о., мы имеем как искомый геномный каталог человеческих транскриптов, так и идентификацию субклеточной локализации продуцируемых РНК. Здесь описывается идентификация и характеристика аннотированных и новых РНК, которые обогащены или в двух основных клеточных субкомпартментах (ядро и цитозоль) для всех изученных 15 клеточных линий, и в трех дополнительных субъядерных компартментах в одной клеточной линии. Кроме того, мы попытались определить являются ли идентифицированные транскрипты модифицированными по их 5' и 3' концам по присутствию 7-methyl guanosine шапочки или полиаденилирования, соотв. Далее мы изучали первичные транскрипты и взаимоотношения продуктов после преобразований для большой пропорции ранее описанных длинных и коротких РНК. Эти результаты существенно расширяют современный геномный аннотированный каталог длинных полиаденилированных и коротких РНК, собранных с помощью GENCODE аннатационных групп6-8. Итак, наши геномные компиляции субклеточно локализованных и product-precursor-related РНК послужили в качестве публичного ресурса и выявили новый и детальный ландшафт РНК.
В совокупности мы наблюдали в целом 62.1% и 74.7% генома человека, перекрываемого или преобразованными или первичными транскриптами, соотв. , при этом ни одна клеточная линия не обнаруживала более 56.7% от обобщенного экспрессируемого транскриптома для всех линий клеток. Последующее уменьшение длины 'межгенных регионов' привело к значительному перекрыванию регионов соседних генов и побудило к новому определению гена.
Экспрессия изоформ генами не следует стратегии минималистичной экспрессии, приводя в результате к тенденции для генов, экспрессировать множество изоформ одновременно с плато приблизительно в 10-12 экспрессируемых изоформ на ген на клеточную линию.
Специфичные для типа клеток энхансеры являются промоторами, которые отличаются от др. регуляторных регионов присутствием новых РНК транскриптов, хроматиновых меток и сайтов гиперчувствительности к DNase I.
Кодирующие и некодирующие транскрипты преимущественно локализуются в цитозоле и ядре, соотв., с границами экспрессии, охватывающими 6 порядков величин для полиаденилированных РНК, и 5 порядков величин для не-полиаденилированных РНК.
Приблизительно 6% от всех аннотированных кодирующих и некодирующих транскриптов перекрывается с малыми РНК и возможно с предшественниками этих малых РНК. Субклеточная локализация как аннотированных, так и не аннотированных коротких РНК высоко специфична.
RNA data set generation
Мы осуществили фракционирование субклеточных компартментов (целая клетка, ядро и цитозоль) перед выделением РНК в 15 линиях клеток (Supplementary Table 1) чтобы исследовать глубже транскриптом человека. Для линии клеток K562, мы также осуществили дополнительное ядерное субфракционирование на хроматин, нуклеоплазму и ядрышки. РНК из каждого такого субкомпартментов препарировалась в репликах и была подразделена в зависимости от длины на более 200 нуклеотидов (длинные) и менее 200 нуклеотидов (короткие). Длинные РНК далее были фракционированы на полиаденилированные и не полиаденилированные транскрипты. Ряд комплементарных технологий был использован, чтобы охарактеризовать эти фракции РНК как в отношении их последовательности (RNA-seq), сайтов инициации транскрипции (cap-analysis of gene expression (CAGE) 9) и сайтов 5' и 3' окончаний транскриптов (paired end tags (PET) 10; Supplementary Fig. 1). Считываемые последовательности были картированы и для последующего преобразования были использованы разнообразные инструментальные программные средства (Supplementary Table 2 and Supplementary Fig. 2). Мы использовали картированные данные для сборки и количественной оценки de novo элементов (экзоны, транскрипты, гены, contigs, сплайс-соединения и transcription start sites (TSSs)) , а также для количественной оценки аннотированных GENCODE (v7) элементов. Элементы и количественные оценки далее оценивались по их воспроизводимости между репликами, используя непараметрическую версию (npIDR, Supplementary Information) irreproducible detection rate (IDR) статистического теста 11. Только воспроизводимы элементы с , по крайней мере, 90% вероятностью использовали для дальнейшего анализа. Сырые данные, картированные данные и элементы затем делались доступны для ENCODE Data Coordination Center (DCC, http://genome.ucsc.edu/ENCODE/dataSummary.html) (Supplementary Fig. 2). These data, as well as additional data on all intermediate processing steps, are available on the RNA Dashboard (http://genome.crg.cat/encode_RNA_dashboard/).
Long RNA expression landscape
Detection of annotated and novel transcripts
Аннотации GENCODE генов (Supplementary Fig. 3a) и транскриптов (Supplementary Fig. 3b)8 отражают наше современное понимание полиаденилированного транскриптома человека. В выборках, представленных здесь мы совокупно выявили 70% аннотированных сплайс-соединений, транскриптов и генов (Fig. 1 and Table 1a). Мы также выявили приблизительно 85% аннотированных экзонов со средней перекрываемостью с помощью RNA-seq contigs в 96%. Вариации в пропорции выявленных элементов среди клеточных линий были малы (Fig. 1, width of box plots). В соответствии с более ранними исследованиями, большинство аннотированных элементов присутствует как в полиаденилированных (Supplementary Table 3a) так и в не полиаденилированных (Supplementary Table 3b) выборках12-15. Только небольшая пропорция GENCODE элементов (0.4% экзонов, 2.8% сплайс-сайтов, 3.3% транскриптов и 4.7% генов была обнаружена исключительно в не полиаденилированной фракции РНК.
Figure 1: A large majority of GENCODE elements are detected by RNA-seq data.
Table 1: Long polyadenylated and non-polyadenylated RNAs
Помимо GENCODE аннотированных элементов мы наблюдали значительное количество новых элементов, воспроизводимо представляющих RNA-seq contigs. Эти новые элементы покрывали 78% интронных нуклеотидов и 34% межгенных последовательностей (Supplementary Fig. 4). В целом уникальный вклад каждой клеточной линии в покрытие генома обнаруживает тенденцию быть меньше и одинаковым для каждой клеточной линии (Supplementary Fig. 5). Мы использовали алгоритм Cufflinks (see Supplementary Information) и предсказали избыток выборок длинных RNA-seq из 94,800 экзонов, 69,052 сплайс-соединений, 73,325 транскриптов, 41,204 генов в межгенных и антисмысловых регионах (Table 1b). Эти новые элементы расширяют GENCODE коллекцию экзонов, сплайс-сайтов, транскриптов и генов на 19%, 22%, 45% и 80%, соотв. Увеличение количества генов и относительно низкий вклад новых сплайс-сайтов прежде всего обусловлены выявлением как полиаденилированных, так и не полиаденилированных моно-экзонных транскриптов (Supplementary Table 3). Выявление транскриптов, не подвергающихся сплайсингу, частично может быть артефактом, вызываемым низкими уровнями загрязнения ДНК или неполным определением структуры транскриптов.
Независимая оценка моделей мульти-экзонных транскриптов и ассоциированных предсказываемых кодируемых продуктов была проведена с использованием перекрываемых targeted 454 Life Sciences (Roche) paired-end reads и масс спектрометрии. Из приблизительно 3,000 протестированных моделей межгенных и антисмысловых транскриптов, наблюдались величины подтверждения в 70% - 90% в зависимости от количества считываний (reads) и IDR меток (score). Кроме того, эти эксперименты привели к идентификации более чем 22,000 новых мест сплайсинга, ранее не выявленных, Это означает, что восьмикратное увеличение обнаружения по сравнению с местами первоначально выявленными с помощью RNA-seq (Supplementary Fig. 6). Масс спектрометрический анализ позволил исследовать, какая фракция новых моделей Cufflinks транскриптов обнаруживает доказательства, согласующиеся с экспрессией белков. Мы получили спектр в 998,570 из двух клеточных линий (K562 and GM12878; J. Khatun et al., manuscript in preparation), и картировали их с помощью three-frame трансляции новых Cufflinks моделей (Supplementary Material). При 1% false discovery rate (FDR),мы идентифицировали 419 новых моделей с 5 или более spectral и/или с 2 или более пептидными хитами, из которых только 56 были межгенными или антисмысловыми по отношению к GENCODE генам (Supplementary Table 4 and Supplementary Fig. 7). Т.о., большинство новых транскриптов, по-видимому, лишено способности кодировать белки.
The transcriptome of nuclear subcompartments
Для K562 линии клеток мы также анализировали РНК, изолированную из трех субъядерных компартментов (хроматин, ядрышко и нуклеоплазма; Supplementary 5). Почти половина (18,330) из GENCODE (v7) аннотированных генов была обнаружена во всех 15 линиях клеток, (35,494) были идентифицированы при анализе непосредственно трех ядерных субкомпартментов. Кроме того, столь же много было найдено новых не аннотированных генов в K562 субкомпартментах, так как там были объединены полностью другие наборы данных (Supplementary Table 5 and Table 1b). Для всех аннотированных (Supplementary Table 5.1) или новых (Supplementary Table 5.2) элементов, только небольшая фракция в каждом субкомпартменте была уникальной для компартмента (Supplementary Table 6).
Определение разных субклеточных фракций РНК предоставляло снимок статуса популяции РНК вдоль пути процессинга РНК. Т.о., с помощью анализа коротких и длинных РНК в разных субклеточных компартментах мы подтвердили, что сплайсинг преимущественно происходит во время транскрипции. При использовании RNA-seq для измерения степени завершенности сплайсинга (Fig. 2a), мы наблюдали, что практически большинство экзонов, интронов уже сплайсированы в РНК, ассоциированной с хроматином - эта фракция включает РНК в процессе транскрипции (Fig. 2b). Параллельно мы установили сильное обогащение особенно small nuclear RNAs (snRNAs) сплайсесом в этой фракции РНК (см. 'Short RNA expression landscape' later). Сплайсинг одновременно с транскрипцией дает объяснение всё увеличивающимся доказательствам связи структуры хроматина с регуляцией сплайсинга и мы наблюдали, что экзоны в этом процессе становятся сплайсированы и обогащаются рядом хроматиновых меток 16, 17.
Gene expression across cell lines
Анализ РНК, изолированных из разных субклеточных компартментов также представил информацию, касающуюся компартмент-специфического относительно устойчивого изобилия и состояния пост-транскрипционного процессинга (spliced/unspliced, polyadenylated/non-polyadenylated, 5' capped/uncapped) для каждого из выявленных транскриптов. Наблюдаемые пределы генной экспрессии перекрывают 6 порядков величин для полиаденилированных РНК (от 10-2 до 104 считываний per kilobase per million reads (r.p.k.m.)), и 5 порядков величин (от 10-2 до 103 r.p.k.m.) для не полиаденилированных РНК (Fig. 3 and Supplementary Fig. 8a). Распределение генной экспрессии очень сходно между клеточными линями, с белок-кодирующими генами, как классом, имеющим в среднем более высокие уровни экспрессии, чем длинные некодирующие РНК (lncRNAs). Предполагается, что 1-4 r.p.k.m. соответствует одной копии на клетку18, мы установили, что почти четверть экспрессируемых белок-кодируюдщих и 80% выявленных lncRNAs присутствуют в наших выборках в виде одной или меньшего числа копий на клетку. Общий низкий уровень генной экспрессии, определяемый в lncRNAs не обязательно может быть результатом, соответствующим низкому количеству копий РНК во всех клетках внутри исследованной популяции, но может быть также результатом ограниченной экспрессии только в субпопуляции клеток. В некоторых линиях клеток индивидуальные lncRNAs могут обнаруживать устойчивые уровни экспрессии столь же высокие как и у белок-кодирующих генов. Это, напр., наблюдается при экспрессии белок-кодирующего гена actin gamma 1 (ACTG1) и некодирующего гена, H19 (Fig. 3). ACTG1 транскрипты участвуют во всех не мышечных цитоскелетных системах клеток и обнаруживают устойчивый уровень экспрессии на популяционном уровне, который, по крайней мере, 1-2 logs выше, чем H19, цитозольная). Однако если измерять на уровне индивидуальных транскриптов, то экспрессия lncRNA транскриптов сравнима с таковой для индивидуальных белок-кодирующих транскриптов (Supplementary Fig. 8b).
Figure 3: Abundance of gene types in cellular compartments.
Новые антисмысловые и межгенные гены, предсказанные в этом исследовании, представляют собой третий кластер РНК с уровнями экспрессии в пределах от 10-4до 10-1 r.p.k.m. Т.к. класс только белок-кодирующих генов обогащен в цитозоле, то это делает ядро центром накопления ncRNAs (Fig. 3). Др. класс генов, таких как псевдогены и малые аннотированные ncRNAs, также обнаруживают скопления в субклеточных компартментах (Supplementary Fig. 9).
Высокая изменчивость и более низкая парная корреляция экспрессии во всех клеточных линиях согласуется с тем, что вклад lncRNAs более высок в клеточную специфичность, чем вклад белок-кодирующих генов. В самом деле, существенная фракция (29%) от всех экспрессируемых lncRNAs выявляется только в одной из линий клеток, если принимать во внимание все клеточные полиаденилированные РНК, тогда как только 10% экспрессировалось во всех клеточных линиях. Напротив, в то время как крупная фракция (53%) экспрессируемых белок-кодирующих генов была определяющей (экспрессируется во всех линиях клеток), и только ~7% была специфична для клеточных линий (Supplementary Table 7 and Supplementary Fig. 10).
Patterns of splicing
Анализ экспрессии альтернативных изоформ привел к нескольким наблюдениям. Во-первых, экспрессия изоформ, по-видимому, не следует минималистической стратегии. Гены стремятся экспрессировать множество изоформ одновременно и т.к. количество аннотированных изоформ на геном растет, то растет и количество экспрессируемых изоформ (Fig. 4a). Увеличение, однако, нелинейно и плато достигается на уровне примерно 10-12 экспрессируемых изоформ на ген. Однако мы не можем явно отличать, является ли это результатом множества экспрессируемых изоформ в одной и той же клетке или разные изоформы экспрессируются разными клетками внутри исследуемой популяции. Во-вторых, альтернативные изоформы внутри гена не экспрессируются на одинаковых уровнях и одна изоформа доминирует в данных условиях - обычно охватывая крупную фракцию от тотальной генной экспрессии ( по крайней мере, 30%, даже для генов со многими изоформами; Fig. 4b). В-третьих, примерно 3/4 белок-кодирующих генов имеют, по крайней мере, две разные доминантные/главные изоформы в зависимости от линии клеток (Supplementary Fig. 11a). В-четвертых, количество основных изоформ на ген растет с количеством аннотированных изоформ; в самом деле, пропорция генов с изоформами, которые экспрессируют только одну основную изоформу, поразительно пропорциональна 1/n (Supplementary Fig. 11b). В-пятых, изменчивость генной экспрессии вносит больший вклад, чем изменчивость соотношения сплайсинга к изменчивости обилия транскриптов среди клеточных линий (Supplementary Information).
Figure 4: Isoform expression within a gene.
Alternative transcription initiation and termination
На базе RNA-seq анализа полиаденилированных РНК, было выявлено всего 128,021 TSSs во всех клеточных линиях, из них 97,778 были ранее аннотированы и 30,243 оказались новыми межгенными/антисмысловыми TSSs (Supplementary Table 3a). CAGE метки, отфильтрованные с помощью базирующегося на hidden Markov model (HMM) алгоритма, позволили отличать между 5' capped окончаниями polymerase II транскриптов и событиями recapping events19 (Supplementary Information), позволили идентифицировать в целом 82,783 неперекрывающихся (non-redundant) TSSs (Supplementary Table 8). Приблизительно 48% CAGE-идентифицированных TSSs располагаются внутри 500 base pairs (bp) аннотированных RNA-seq-выявляемых GENCODE TSS, тогда как дополнительные 3% находились внутри 500 bp новых TSS (Supplementary Fig. 12). Отметим, только ~72% всех CAGE sequencing reads картируется в TSSs, указывая тем самым, что остальные 30% могут возникать в результате событий recapping или из нового класса TSS.
Используя данные, собранные ENCODE консорциумом20, мы произвели сравнение GENCODE/RNA-seq и CAGE-определяемых TSSs и коррелировали их с хроматином и свойствами ДНК, характерными для инициации транскрипции, такими как гиперчувствительность к DNase21, модификации хроматина и ДНК связывающие элементы22, 23. Все GENCODE/RNA-seq-выявляемые TSSs были исследованы в каждой клеточной линии (Supplementary Fig. 13, column 1). Из этих избыточных положений 44.7% (199,146) из RNA-seq-подкрепленных TSSs также обнаруживали доказательства CAGE. Приблизительно половина этих TSS позиций ассоциирована, по крайней мере, с одним из др. характерных признаков инициации транскрипции (DNase I, H3K27ac и H3K4me3 модификации хроматина). Т.о., только незначительное меньшинство из TSSs, идентифицированных с помощью или CAGE или RNA-seq/GENCODE обладает всеми характеристиками места страта транскрипции (присутствие DNase I, H3K4me3, H3K27ac сайтов и или TAF1 или TBP связывание). Это согласуется с возможностью, что регуляторные регионы проксимально от TSSs более, чем одного типа.
На 3' конце, общее количество сайтов в 128824 картировано внутри аннотированных GENCODE транскриптов в качестве потенциальных мест полиаденилирования после после укорочения некартированных RNA-seq reads с длинными терминальными полиадениновыми участками 24. Приблизительно 20% из них картируется проксимально от аннотированных polyadenylation sites (PAS), тогда как остальные 80% соответствуют новым PAS аннотированных генов, среднее количество PAS на ген оказывается от 1.1 до 2.5. В целом мы наблюдали специфичное для типа клеток предпочтение для проксимальных PAS (ближайших к аннотированному стоп кодону) в цитозоле по сравнению с ядром (Supplementary Information).
Short RNA expression landscape
Annotated small RNAs
Сегодня в целом 7,053 малых РНК аннотировано с помощью GENCODE, 85% из которых соответствует 4 основным классам: small nuclear (sn)RNAs, small nucleolar (sno)RNAs, micro (mi)RNAs и transfer (t)RNAs (Table 2a). В целом мы обнаружили, что 28% от всех аннотированных малых РНК экспрессируется, по крайней мере, в одной линии клеток (Table 2a). Распределение аннотированных малых РНК отличается заметно между цитозольным и ядерным компартментами (Supplementary Fig. 14a). Мы установили, что классы малых РНК обогащены в этих компартментах, где они, как известно, осуществляют свои функции: miRNAs и tRNAs в цитозоле, а snoRNAs в ядре. Интересно, что snRNAs были одинаково обильны как в ядре, так и цитозоле. Когда специфически исследовали субъядерные компартменты в K562 линии клеток, то snRNAs, по-видимому, присутствовали в очень высокой концентрации во фракции РНК, ассоциированной с хроматином (Supplementary Fig. 14b, c). Такое поразительное обогащение согласуется со сплайсингом, которые преимущественно происходит одновременно с транскрипцией 16, 25.
Table 2: Short RNAs
Unannotated short RNAs
Мы вывили два типа не аннотированных кротких РНК. первый тип соответствует субфрагментам аннотированных малых РНК. Поскольку мы осуществляли 36-nucleotide end-секвенирование фракции малых РНК, то мы ожидали RNA-seq reads будут картированы на 5' конце малых РНК. Дополнительно Рис. 15 показывает профиль картирования reads вдоль генов малых РНК. Как в ядерном, так и цитозольном компартментах мы, в самом деле, выявили накопление reads на старте snoRNAs и на ведущих и пассажирских последовательностях аннотированных miRNAs. Для snRNAs, однако, мы наблюдали три выдающихся пика: один ожидаемый на 5' конце и два более маленьких в середине и на 3' конце гена, указывающие на фрагментацию некоторых snRNAs. Наконец, tRNAs, по-видимому, не имели каких-либо выступающих 5' концевых фрагментов присутствовали на уровнях более значительных, чем те, что наблюдались на аннотированных 5' концах. В то время как субфрагменты зрелых tRNAs описывались и ранее, данное сообщение было ограничено только различающимися аллелями немногих генов tRNA26-28.
Второй и самый крупный источник не аннотированных коротких РНК соответствует новым коротким РНК (Table 2b), которые картированы вне аннотированных. Почти 90% из них наблюдалось только в одной клеточной линии и присутствовало в низком. Почти 40% из этих не аннотированных коротких РНК ассоциированы с промоторными и терминальными регионами аннотированных генов (promoter-associated short RNAs (PASRs) и termini-associated short RNAs (TASRs)), а их положение относительно TSSs и мест окончания транскрипции такое же как в предыдущих результатах 4.
Genealogy of short RNAs
По всему геному 27% аннотированных малых РНК располагается внутри 8% белок-кодирующих и 5% внутри 3% генов lncRNA (Supplementary Fig. 16). В общем, приблизительно 6% всех аннотированных длинных транскриптов перекрывается малыми РНК и возможно предшественниками этих малых РНК. Хотя большинство этих малых РНК располагается в интронах, где контролирует относительную длину экзон/интрон, мы установили, что экзоны из lncRNAs сравнительно обогащены как хозяева для snoRNAs (Supplementary Fig. 17a). Дополнительно, 8.4% GENCODE аннотированных малых РНК картируются внутри новых межгенных транскриптов, при этом большинство перекрывает аннотированные tRNAs. Обогащение tRNAs в основном касалось новых межгенных транскриптов, происходящих из не полиаденилированных РНК (Supplementary Fig. 17b). Многие длинные РНК, как новые, так и аннотированные, т.о., по-видимому, выполняют двойную функцию , как функциональные (белок кодирующие) РНК, так и как предшественники для многих важных классов малых РНК. Используя RNA-seq данные по клеточной линии K562, мы исследовали преимущественную клеточную локализацию этих предшественников РНК (Supplementary Fig. 18). Для зрелых miRNAs и tRNAs (цитозольное обогащение), потенциальные предшественники РНК, идентифицированные как RNA-seq contigs, перекрывающие малые РНК, были выявлены преимущественно в ядре (Supplementary Fig. 18a, d). В то время как зрелые snRNAs были как ядерными, так и цитозольными, тогда как перекрывающие длинные РНК наблюдались преимущественно в ядре (Supplementary Fig. 18c). Наконец, для snoRNAs (богатые в ядре), потенциальные длинные предшественники РНК были бесспорно как в ядре, так и цитозоле (Supplementary Fig. 18b). Не аннотированные короткие РНК были обнаружены повсюду, не обогащенные ни в ядерном, ни в цитозольном компартменте (Supplementary Fig. 18e).
RNA editing and allele-specific expression
Последовательность транскриптов может отличаться от подлежащей геномной последовательности в результате пост-транскрипционного редактирования. Мы разработали источник информации (pipeline), чтобы отфильтровывать секвенируемые артефакты и идентифицировать гены, которые подвергаются РНК редактированию29. Сфокусировавшись сначала на GM12878, клеточной линии, которая была глубоко ре-секвенирована, мы выявили всего 51557 РНК совместимых single nucleotide variants (SNVs) внутри границ генов, 65% из которых присутствовали в dbSNP. Из оставшихся 1186 SNVs в 430 генах (Supplementary Fig. 19a) пережили наши наиболее строгие фильтры и 88% из них стали кандидатами изменений adenosine в inosine A>G(I). Следующей наиболее высокой частотой SNVs стал T>C (5%) и эжто происходило преимущественно в регионах с обнаружимой антисмысловой транскрипцией29. Мы обнаружили сходные частоты A>G(I) в 75-84% в 7 дополнительных клеточных линиях (Supplementary Fig. 19b). Оставшиеся неканонические редактирования встречаются в очень небольшом числе случаев в каждой клеточной линии и относительно случайно распределены (G>A является третьим по частоте). Эти результаты не согласуются с недавним сообщением о существенном количестве неканонических SNV редактирований в РНК лимфобластоидных клеток человека30.
Использовав AlleleSeq pipeline 31 на SNPs в GM12878 геноме, мы установили, что приблизительно 18% как GENCODE аннотированных белок-кодирующих и длинных некодирующих генов обладают аллель-специфической экспрессией. Пропорция генов с аллель-специфической экспрессией была сходна в трех исследованных фракциях РНК (целая клетка, цитоплазма и ядро; Supplementary Table 9 and Supplementary Information).
Repeat region transcription
Около 18% (14,828) CAGE-определяемых TSS регионов перекрывают повторяющиеся элементы. Точнее, мы нашли 322, 315, 507 и 1,262 межгенных CAGE кластеров, перекрывающих long interspersed element (LINE), short interspersed element (SINE), long terminal repeat (LTR) и др. повторяющиеся элементы, соотв. (see Supplementary Information). Измеряя Shannon энтропию в клеточных линиях, мы установили, что CAGE кластеры, картирующие повторяющиеся регионы, экспрессировались значительно уже, чем CAGE кластеры, картируемые внутри генных регионов (Supplementary Fig. 20a). Мы предоставили уровни корреляции экспрессии в сравнении с типом клеток, как heat карты, изъятые отдельно для каждого из трех семейств повторяющихся элементов (LINE, SINE и LTR) (Supplementary Fig. 20b-d). Хотя большая пропорция транскриптов генома человека, как полагают, инициируется с повторяющихся элементов (особенно ретропозоновые элементы 32), эти данные четко подчеркивают специфичность для клеточных линий в качестве основной характеристики транскриптов, сходящих с повторяющихся регионов.
Characterization of enhancer RNA
Недавно сообщалось, что RNA polymerase II связана с некоторыми дистальными регионы энхансера и может продуцировать ассоциированные с энхансером транскрипты, названные eRNA33-35. Мы использовали РНК испытания для детекции и характеристики транскрипционной активности энхансерных локусов, предсказываемых геномной иммунопреципитацией хроматина проектом ENCODE и данными высокопроизводительного секвенирования (ChIP-seq)20, 36.
Рис. 5a показывает совокупный паттерн RNA-seq и CAGE сигнала нить-специфическим способом вокруг субнабора предполагаемых gene-distal энхансеров, содержащих сайты гиперчувствительности DNase I и сосредоточенных на этих сайтах. В этих plots, как отмечается накоплением CAGE меток, означающих TSSs, инициация транскрипции, внутри энхансерной области наблюдается и продолжается наружу на несколько kilobases (kb). такое поведение может наблюдаться для полиаденилированных и не полиаденилированных РНК фракций, картированных как в интронных, так и межгенных регионах. Как сообщалось ранее33, мы наблюдали большое разнообразие уровней экспрессии для каждого из транскрибируемых энхансеров. Соотношение полиаденилированных и не полиаденилированных РНК, а также соотношение ядерных к цитоплазматическим, варьирует для каждого индивидуального энхансера (Supplementary Fig. 21a, b). Однако в противоположность некоторым предыдущим сообщениям, хотя большинство eRNAs превалирует в ядерной не полиаденилированной фракции РНК, некоторые eRNAs, по-видимому, полиаденилированы в ядре. Такой паттерн существенно отличен по сравнению с транскриптами из GENCODE аннотированных и новых предполагаемых20 промоторов (Fig. 5b).
Figure 5: Transcription at enhancers.
Транскрибируемые энхансеры в среднем обнаруживают существенно отличный паттерн модификации хроматина, чем не транскрибируемый хроматин 37-40. Регионы энхансера обладают более сильными сигналами метилирования H3K4, ацетилирования H3K27 и деметилирования H3K79 вместе с более высокими уровнями связывания RNA polymerase II, всё это ассоциирует с инициацией и элонгацией транскрипта (Fig. 5c). Как транскрипты, так и состояние хроматина являются клеточно специфичными (Fig. 5d). Взяв в качестве примера GM12878 линию клеток, энхансерные локусы, продуцирующие eRNA, демонстрируют обогащение CAGE tag detection (Fig. 5d, top) и присутствие H3K27ac гистоновой модификации (Fig. 5d, bottom) в этой клеточной линии по сравнению с др. 5 проанализированными клеточными линиями. Это строго указывает на то, что регуляторные регионы, управляющие экспрессией энхансерных транскриптов отличаются от регуляторных регионов, располагающихся в начале генетических регионов.
Concluding remarks
Совокупное покрытие транскрибируемых регионов в 15 клеточных линиях для генома человека составляет 62.1% и 74.7% для преобразованных и первичных транскриптов, соотв. (Supplementary Table 10 and Supplementary Fig. 22). В среднем для каждой линии клеток 39% генома покрывается первичными транскриптами и 22% преобразованными РНК. Ни одна клеточная линия не обнаруживала транскрипции более 56.7% от обобщенного транскриптома для всех клеточных линий. Когда картировали современные RNA-seq данные для ENCODE пилотных регионов (Supplementary Table 10), то наблюдали сходную, хотя более высокую степень транскрипционного покрытия в 73.3% для преобразованных РНК и в 84.5% для первичных транскриптов. ранее опубликованные подсчеты в этих регионах для преобразованных и первичных транскриптов были 24% и 93%, соотв. (Supplementary Table 2.4.3 and ref. 3). Увеличение геномного покрытия преобразованными РНК обусловлено в основном включением не-полиаденилированных РНК в данное исследование. Кроме того, данное отличие в изученных выборках связано с выбором пилотных регионов с высоким содержанием генов, увеличение аннотированных геномных регионов со временем и разные технологии, использованные для детального исследования транскрипции transcription, обе оценки находятся в разумных пределах.
Вследствие как экспансии генетических регионов с открытием новых изоформ, так и идентификации новых межгенных транскриптов, наблюдается заметное увеличение в количестве межгенных регионов (от 32,481 до 60,250) в результате их фрагментации и уменьшения их длин (с 14,170 bp до 3,949 bp средней длины; Fig. 6). Соответственно мы наблюдали увеличение перекрывания генных регионов. Т.к. определение генных регионов сегодня определяется совокупной длиной изоформ и их генетической ассоциацией с фенотипическими характеристиками, то скорее всего продолжится уменьшение длин межгенных регионов и будет постоянно приводить к перекрыванию большого количества генов, ранее считавшихся разными генетическими локусами. Это подтверждает и согласуется с более ранними наблюдениями высокого перекрывания транскрибируемого генома12, но что боле важно, это потребовало пересмотра определения гена. Поскольку это согласуется с характеристиками аннотированных геномов, то мы вынуждены были предположить, что транскрипт следует рассматривать как базовую атомную единицу наследственности. Соответственно термин ген должен тогда означать более высокого порядка понятие, предназначенное перекрывать все эти транскрипты (в конечном итоге в зависимости от их геномной локализации), которые вносят вклад в данное фенотипическое свойство.
Co-published ENCODE-related papers can be explored online via the Nature ENCODE explorer (http://www.nature.com/ENCODE), a specially designed visualization tool that allows users to access the linked papers and investigate topics that are discussed in multiple papers via thematically organized threads.
Figure 6: Size distribution of intergenic regions.
|
Сайт создан в системе
uCoz