Посещений:
ЛАНДШАФТ ПРОМОТОРОВ

Дальнодействующие Взаимодействия

The long-range interaction landscape of gene promoters
Amartya Sanyal, Bryan R. Lajoie, Gaurav Jain & Job Dekker
Nature 489(7414), 109–113 (06 September 2012) doi:10.1038/nature11279

The vast non-coding portion of the human genome is full of functional elements and disease-causing regulatory variants. The principles defining the relationships between these elements and distal target genes remain unknown. Promoters and distal elements can engage in looping interactions that have been implicated in gene regulation1. Here we have applied chromosome conformation capture carbon copy (5C2) to interrogate comprehensively interactions between transcription start sites (TSSs) and distal elements in 1% of the human genome representing the ENCODE pilot project regions3. 5C maps were generated for GM12878, K562 and HeLa-S3 cells and results were integrated with data from the ENCODE consortium4. In each cell line we discovered >1,000 long-range interactions between promoters and distal sites that include elements resembling enhancers, promoters and CTCF-bound sites. We observed significant correlations between gene expression, promoter–enhancer interactions and the presence of enhancer RNAs. Long-range interactions show marked asymmetry with a bias for interactions with elements located ~120 kilobases upstream of the TSS. Long-range interactions are often not blocked by sites bound by CTCF and cohesin, indicating that many of these sites do not demarcate physically insulated gene domains. Furthermore, only ~7% of looping interactions are with the nearest gene, indicating that genomic proximity is not a simple predictor for long-range interactions. Finally, promoters and distal elements are engaged in multiple long-range interactions to form complex networks. Our results start to place genes and regulatory elements in three-dimensional context, revealing their functional relationships.


Рисунки к статье


nature.com/encode Пространственная близость и специфические дально-действующие взаимодействия между геномными элементами могут быть определены используя базирующиеся на chromosome conformation capture (3C) методы5. Предыдущие исследования были ограничены анализом одиночных локусов5-8, взаимодействиями, которые касались интересующего одиночного белка9 или анализом упаковки хромосом по всему геному с разрешением. которое не могло выявить специфически взаимодействия с помощью образования петель (looping) между генами и функциональными элементами10. Чтобы преодолеть эти затруднения мы, прежде всего, разработали 5C (ref. 2). 5C это высокопроизводительная адаптация 3C и использование пулов обратных и прямых 5C праймеров для выявления дальнодействующих взаимодействий между двумя избранными (targeted) наборами геномных локусов, напр., промоторами, и дистальными генетическими регуляторныи элементами. Путем целенаправленного выбора (targeting) специфических частей генома, 5C облегчает обнаружение взаимодействий с разрешением в одиночный рестрикционный фрагмент.
Чтобы приступить к определению принципов дальнодействующей регуляции генов в геноме человека, мы использовали 5C для картирования взаимодействий систематически между промоторами и дистальными элементами благодаря 44 ENCODE регионам пилотного проекта, представляющих 1% (30 megabases (Mb), Supplementary Table 1) генома в трех линиях клеток (Fig. 1a). ENCODE регионы, размером от 500 kilobases (kb) до 1.9 Mb, были отобраны для всеобемлющего описания с помощью ENCODE пилотного проекта11. Здесь мы проанализировали взаимодействия между 628 TSS-содержащими рестрикционные фрагменты, и 4535 'дистальными' рестрикционными фрагментами, покрывающими ENCODE регионы (Fig. 1a and Supplementary Tables 2 and 3; see also Methods).

Figure 1: 5C approach to identify looping interactions.
5C библиотеки были созданы для двух биологических реплик GM12878, K562 и HeLa-S3 линий (Supplementary Tables 4-6). Эти клеточные линии пространно аннотировались ENCODE консорциумом3, 4. Частоты 5C взаимодействий, измеренные между ENCODE регионами, расположенными на разных хромосомах, были использованы были использованы для количественной оценки минорных вариаций при детекции эффективности взаимодействий, обусловленных техническими склонностями, связанными с эффективностью 5C праймеров, длиной рестрикционных фрагментов или эффективностью переваривания. Частоты 5C взаимодействий затем корректировались в отношении этих склонностей (biases) (Methods and Supplementary Data).
Пример карты 5C дальнодействующего взаимодействия, представляющий взаимодействия TSS-дистальный фрагмент вдоль и между 14 ENCODE регионами (ENm001-ENm014), показан на Fig. 1b. 5C выявляет известные генеральные свойства пространственно организации хроматина. Во-первых, взаимодействия внутри одного и того же ENCODE региона более часты, чем между разными ENCODE регионами. Внутри одного ENCODE региона частоты взаимодействия обычно выше для пар локусов, расположенных тесно др. к др. в линейном геноме. Эти обратные взаимоотношения между геномным расстоянием и частотой взаимодействия ожидаемым для волокон флексибельного хроматина5, 12. Во-вторых, взаимодействия между ENCODE регионами, которые расположены на одной и той же хромосоме, более часты, чем взаимодействия между регионами, расположенными на разных хромосомах (arrow in Fig. 1b). Это согласуется с 4C и Hi-C анализом6, 10 и обусловлено образованием пространственно отделенных хромосомных территорий.
Наборы 5C данных были проанализированы, чтобы идентифицировать пары TSS-дистальный фрагмент, которые взаимодействуют более часто, чем ожидалось, указывая, что они относительно близки пространственно. Для каждой биологической реплики мы независимо определяли среднее взаимоотношение между частотой взаимодействия и геномным расстоянием (solid red lines in Fig. 1c, d). Мы определяли это как ожидаемая частота взаимодействия. Затем мы идентифицировали взаимодействия, которые происходят достоверно значительно чаще, чем ожидалось для локусов, разделенных соотв. геномным расстоянием, путем превращения 5C сигналов в z-score (false discovery rate (FDR) = 1%; Methods). Специфические дально-действующие взаимодействия затем определялись как пары локусов, которые взаимодействуют достоверно более часто, чем ожидалось в обеих репликах. Путем исключения взаимодействий, которые достоверны только в одной из реплик, мы подсчитали, что только около 10-18% достоверных дальнодействующих взаимодействий, идентифицируемых с помощью нашего подхода, могут быть ложно позитивными, как это подсчитано при анализе взаимодействий в регионах ENCODE, бедных генами (ENr112, ENr113 и ENr313), где не ожидалось достоверных дальнодействующих взаимодействий (Methods). Такое использование строгих порогов возможно приводит к высокой доле ложно негативных результатов. Соотв. частоты взаимодействий, которые обнаруживались достоверными только в одной реплике были всё ещё достоверно повышены в др. реплике при сравнении взаимодействий, которые никогда не были достоверными, но сейчас ниже избранного 1% FDR порога (Supplementary Fig. 1).
Наш анализ корректно идентифицировал известные взаимодействия между TSSs и их соотв. дистальными регуляторными элементами, подтверждая ценность подхода (Supplementary Fig. 3). В качестве примера, Fig. 1d показывает профиль 5C взаимодействия в K562 клетках для TSS, расположенных в локусе β-globin. Ранее мы установили, что этот TSS расположен непосредственно ниже γ-globin генов, обнаруживающих заметные looping взаимодействия с дистальным locus control region (LCR) в K562 клетках2. Наш анализ аккуратно выявлял эти посредством петли (looping) взаимодействия (HS3, HS4 и HS5). Мы идентифицировали дополнительные известные дальнодействующие взаимодействия с DNase I hypersensitive sites (DHSs) вблизи дистальных CTCF-связанных элементов (3'HS1 и HS-111)2, 13, 14. В K562 клетках мы также обнаружили известные взаимодействия между γ-globin геном (HBG1) и LCR (HS5) и между α-globin генами и тремя дистальными регуляторными элементами, включая α-globin энхансер HS40 и два CTCF-связанных элемента (HS46 и HS10), расположенных на 40, 46 и 10 kb выше генов, соотв. (Supplementary Fig. 3 and refs 15, 16). Важность этих дистальных элементов в регуляции экспрессии глобиновых генов посредством петлеобразования, подтверждена документально14, 16. Как и ожидалось, эти посредством петель взаимодействия в локусах глобина не обнаруживались в GM12878 или HeLa-S3 клетках, которые экспрессируют мало или не экспрессируют глобина (Supplementary Fig. 3). Дополнительные примеры специфичных для взаимодействий TSS-дистальный элемент показаны в Supplementary Fig. 4. Более того, частоты 5C взаимодействий корелируют с парами TSS-дистальный DHS, которые, как полагают, функционально связаны, базируясь на их высоко скоррелированной активности в большой панели клеточных линий (P<10-13, one-sided Mann-Whitney U-test17), обеспечивая независимую оценку их биологического значения.
В каждой клеточной линии мы идентифицировали большие количества статистически достоверных взаимодействий TSS-дистальный фрагмент, из которых ~60% наблюдались только в одной из трех линий (Fig. 2a). Эти данные подчеркивают сложную специфичную для типа клеток трехмерную упаковку хроматина. 3C-базирующиеся исследования выявляют специфические и функциональные взаимодействия, напр., TSSs с генетическими регуляторными элементами8. Кроме того, эти исследования могут выявлять 'структурные' взаимодействия, напр., тесную пространственную близость как результат др. ближайших специфических петлевых взаимодействий (bystander interactions) или общего более высокого порядка упаковки волокон хроматина. Чтобы определить, какие петлевые взаимодействия вовлекают дистальные сайты, которые обнаруживают специфические свойства хроматина , ассоциированные с функциональными элементами, мы сравнивали наши данные с наборами данных, сгенерированными ENCODE консорциумом (Fig. 2b and Supplementary Table 7). Мы установили, что петлевые взаимодействия во всех клеточных линиях были существенно обогащены дистальными фрагментами, которые связаны с CTCF-белком, как известно, обеспечивающим образование петель ДНК18-содержит открытый хроматин (как определено с помощью FAIRE19 или DHS картирования17), и/или содержит гистоны с модификациями, которые характерны для активных функциональных элементов (H3K4me1, H3K4me2 and H3K4me3). Дальнодействующие взаимодействия также обогащены H3K9ac и H3K27ac, но не обогащены или существенно истощены по H3K27me3, метке, обычно обнаруживаемой в неактивном или закрытом хроматине.

Figure 2: Distribution of looping interactions across cell types and their relationship with chromatin features and gene expression.
Чтобы получить больше информации о типах элементов, присутствующих в дистальных петлеобразных (looping) фрагментах, мы использовали анализ всего генома и специфичную для клеточных линий сегментацию, который выявил семь разных состояний хроматина, исходя из гистоновых модификаций, присутствия DHSs и локализации белков, таких как RNA polymerase II и CTCF (ref. 4 and Fig. 2b). Эти состояния следующие: (1) энхансер (E); (2) слабый энхансер (WE); (3) TSS; (4) предполагаемые promoter flanking регионы (PF); (5) изоляционный (insulator) элемент (CTCF); (6) предполагаемая repressed область (R); и (7) предполагаемая транскрибируемая область (T). Консорциум ENCODE тестировал наборы E элементов исследуя энхансеры и подтвердил, что более 50% обладает энхансерной активностью4. Мы установили, что петлевые взаимодействия были достоверно обогащены дистальными фрагментами, которые содержат E, WE и CTCF элементы, и активно транскрибируемое состояние хроматина (T), но они были истощены репрессированному состоянию хроматина (R). Мы отметили, что некоторые дистальные петлевые фрагменты содержат элементы, классифицируемые как TSS или PF, даже несмотря на то, что они не содержат TSSs как определяется с помощью GENCODE v7 аннотации20. Возможно имеются еще не аннотированные TSSs.
Затем мы использовали данные seven-way сегментации, чтобы классифицировать петлевые взаимодействия на 4 широкие функциональные группы (Fig. 2c, Supplementary Fig. 5 and Supplementary Data): те, что участвуют в дистальных фрагментах, которые содержат предполагаемый энхансер ('E' (E или WE)), предполагаемый промотор ('P' (TSS или PF)) или CTCF-связанный элемент (CTCF). Финальный класс содержит взаимодействия с фрагментами, которые не содержат какого-либо из этих трех типов элементов, хотя они содержат T и R состояния ('U', unclassified). Последний класс относительно большой, но всё ещё существенно обогащен свойствами, которые характерны для активных функциональных элементов, таких как H3K4me1, и свыше 60% неклассифицированных фрагментов содержат признаки хроматина, обнаруживаемые в активных хроматиновых элементах (Supplementary Fig. 7). Т.о., существуют не просто шумы или ложно позитивные результаты, но, по-видимому, результаты консервативного подхода к сегментации.
Мы установили, что взаимодействия TSS-E и TSS-P более специфичны для типов клеток, чем взаимодействия TSS-CTCF: для TSS-E и TSS-P категорий соотношение взаимодействий, которые обнаруживаются только в одной клеточной линии в противовес более чем одной клеточной линии равно ~4:1, тогда как оно близко к ~1:1 для категории TSS-CTCF (Supplementary Fig. 5). Специфичная для типов клеток активность некоторых из этих Е элементов была подтверждена с использованием методов временных репортеров (Supplementary Fig. 10). Далее мы установили, коррелирует ли образование петли между TSS и с какой либо из четырех категорий состояний хроматина с транскрипцией. Мы использовали данные по экспрессии CAGE21, чтобы определить уровень экспрессии для каждого TSS. Мы установили, что петлевые взаимодействия с фрагментами, содержащими энхансер-подобные E элементы, были достоверно богаче для тех, которые используют экспрессирующиеся TSSs (Fig. 2d and Supplementary Fig. 6). Кроме того, субнабор TSSs, которые взаимодействуют с фрагментами, содержащими E элементы, экспрессировались существенно на более высоком уровне по сравнению сTSSs, которые не взаимодействуют с E элементами. Взаимодействия с др. классами элементов (CTCF, P и U) достоверно выше для активно экспрессируемых генов в некоторых, но не всех клеточных линиях (Supplementary Fig. 6).
Активные энхансеры часто экспрессируют энхансерные РНК22. Мы использовали всесторонние данные по энхансерным РНК, сгенерированные ENCODE консорциумом, чтобы определить, взаимодействуют ли TSSs преимущественно с активными энхансер-подобными элементами23. Мы установили, что E элементы, которые образуют петли с TSSs существенно с большей готовностью экспрессируют энхансерные РНК, чем E элементы, которые не образуют петель (P<5х10-5, hypergeometric test, Supplementary Fig. 10). Мы пришли к заключению, что петлевые взаимодействия преимущественно используют активные энхансер-подобные элементы.
Далее мы проанализировали распределение дальнодействующих взаимодействий выше и ниже TSSs. Чтобы получить этот ландшафт петлевых взаимодействий, мы выровняли все TSSs и подсчитали среднее количество взаимодействий, которые имеет TSS с каждым классом дистальных элементов при увеличении геномных расстояний выше и ниже TSS. Рис. 3a показывает возникающий профиль средних дальнодействующих взаимодействий во всех трех клеточных линиях (сходные результаты были получены, когда каждая из клеточных линий анализировалась отдельно; Supplementary Fig. 8). Мы установили, что ландшафт дальнодействующих взаимодействий является асимметричным с взаимодействиями E, P и CTCF классами, достигающими пиков приблизительно 120 kb выше TSS. Эта асимметрия взаимодействий указывает на непредвиденную направленность в дальнодействующих взаимодействиях с TSSs. Это может указывать на присутствие топологических ограничений, наложенных с помощью механизмов, с помощью которых такие взаимодействия регулируют промоторы мишени. Подобной тенденции мы не наблюдали для набора неклассифицированных элементов или для полного набора исследованных взаимодействий (Fig. 3a). Интересно, что предыдущий анализ показал, что консервативные некодирующие элементы также часто обнаруживаются внутри сходных расстояний генов мишеней24. В-третьих, когда мы анализировали экспрессируемые TSSs и не экспрессируемые TSSs отдельно, то мы установили, что оба имеют сходные ландшафты взаимодействий, но при этом экспрессируемые TSSs обнаруживают тенденцию иметь больше взаимодействий, особенно с E, P и CTCF классами. Мы не можем исключить возможность, что некоторые TSSs, классифицированные как не экспрессируемые, исходя из отсутствия CAGE тэгов в действительности экспрессируются на низких уровнях.

Figure 3: Looping landscape of TSSs to distal fragments.
Далее мы исследовали, влияет ли относительный порядок элементов в геноме, какие возникнут дальнодействующие взаимодействия. Часто полагается, что дистальные элементы, такие как энхансеры, нацелены на ближайшие TSS. Только ~7% из петлевых взаимодействий находятся между элементом и ближайшим TSS (Fig. 3b). Это количество достигает 22%, когда включены только активные TSSs. Сходным образом, 27% дистальных элементов имеют взаимодействия с ближайшими TSS и 47% элементов имеют взаимодействия с ближайшими экспрессируемыми TSS. Т.о., мы предполагаем, что предположение, что взаимодействия TSS-дистальный элемент выбирают ближайший (активный) ген часто некорректно.
Было предположено, что CTCF сайты, расположенные между энхансером и TSS могут предупреждать взаимодействия энхансер-промотор18, 25, хотя в индивидуальных случаях взаимодействия через такие сайты наблюдались14, 26. Чтобы исследовать этот вопрос мы определяли частоту идентифицированных дальнодействующих взаимодействий между TSS и дистальным элементом, которые осуществляются через один или более сацтов, связанных с помощью CTCF. Мы нашли, что 79% дальнодействующих взаимодействий находятс осуществляются беспрепятственно в присутствии одного или более CTCF-связанных сайтов (Fig. 3c). Т.о., присутствие CTCF-связанных сайтов не блокирует физически дальнодействующие взаимодействия. Сообщалось, что CTCF действует в сочетании с cohesin комплексом, чтобы блокировать взаимодействия промотор-энхансер27. Мы установили, что 58% петлевых взаимодействий пропускает совместно связанные CTCF и cohesin (Fig. 3c). Мы получили сходные результаты, когда разные категории дальнодействующих взаимодействий (TSS-E, TSS-P, TSS-CTCF и TSS-U) были проанализированы отдельно. Возможно, необходимы дополнительные факторы, чтобы привлечь CTCF-связанные сайты к активности, блокирующей взаимодействие.
Большое количество дальнодействующих взаимодействий мы открыли, которые указывают, что дистальные элементы и TSSs задействованы каждый во множественных дальнодействующих взаимодействиях. Чтобы охарактеризовать этот феномен в деталях мы определяли степень взаимодействия TSSs и дистальных фрагментов. Мы установили, что ~50% TSSs обладает одним или более дальнодействующим взаимодействием, при этом некоторые взаимодействуют с 20 дистальными фрагментами (Fig. 4a). Экспрессируемые TSSs взаимодействуют со слегка большим числом фрагментов по сравнению с не экспрессируемыми TSSs (среднее для GM12878 равно 1.88 против 1.37, или 3.88 против 3.25, когда включены только те TSSs с , по крайней мере, одним взаимодействием). Из всех исследованных дистальных фрагментов ~10% взаимодействует только с одним или более TSS, при этом некоторые взаимодействия с более чем 10 (среднее 2.15 (для GM12878) когда включены только те дистальные фрагменты , по крайней мере, с одним взаимодействием). Степень распределения 4-х категорий дистальных элементов была сходной (Supplementary Fig. 9).

Figure 4: Networks of looping interactions.
Рисунок 4b представляет пример сетей сложного дальнодействующего взаимодействия, формируемых с помощью TSSs и дистальных фрагментов в ENr132 регионе клеток K562. Маловероятно, что эти взаимодействия могут возникать все в одно и то же время в одной и той же самой клетке, это указывает на то, что взаимодействия ген-элемент не являются исключительно один-к-одному и предполагается, что многие гены и дистальные элементы могут собираться в крупные кластеры, как это показано для локуса β-globin14.
Наши данные представляют новую информацию о ландшафте петлеобразования хроматина, которое сводит гены и дистальные элементы в тесную пространственную близость. Помимо генерации богатого набора данных, отражающего специфические взаимодействия ген-элемент, средний профиль взаимодействий TSSs с окружающим хроматином выявляет несколько общих принципов, имеющих отношение к асимметричным взаимоотношениям между геномным расстоянием, расположением элементов и формирований петлевых взаимодействий. Склонность к вышестоящим взаимодействиям может указывать на то, что белковые комплексы на многих TSSs могут быть асимметричны и могут преимущественно взаимодействовать на одной стороне с комплексами энхансер-белок. Возможно также, что асимметрия дальнодействующих взаимодействий ландшафта отражает потенциальные предпочтения образования петель с элементами, которые располагаются в межгенных нетранскрибируемых регионах. Более того, хотя эти средние ландшафты дальнодействующих взаимодействий могут облегчать компьютерные предсказания дальнодействующих взаимодействий по всему геному, тот факт, что взаимодействия пропускают гены и CTCF/cohesin сайты, указывает на то, что существуют дополнительные механизмы для селекции мишеней и изоляции генов.
Хотя обычный 3C всё ещё может быть методом для изучения укладки индивидуальных локусов, стратегия метода 5C и метода анализа данных, использованные здесь, могут предоставить общий подход для систематического картирования взаимодействий ген-элемент для крупных наборов генов. С дальнейшим развитие технологии 3Cи увеличением способности секвенирования, сходные высокого разрешения исследования будут становиться осуществимы для картирования специфических дальнодействующих взаимодействий по всему геному, это может выявить дополнительные принципы, ведущие к образованию петель хроматина. Такая информация будет важной и для интерпретации исследований ассоциаций по всему геному, которые часто идентифицируют регионы с регуляторными элементами, но не их дистально расположенные гены мишени. Co-published ENCODE-related papers can be explored online via the Nature ENCODE explorer (http://www.nature.com/ENCODE), a specially designed visualization tool that allows users to access the linked papers and investigate topics that are discussed in multiple papers via thematically organized threads.
Сайт создан в системе uCoz