Регуляция генов является необходимым условием жизни, кажущееся простым решение о том, экспрессировать ген или нет, присутствует почти у всех организмов. Регуляторные элементы - это специфические мотивы последовательности в геноме млекопитающих, которые координируют экспрессию генов. Одним из основных классов регуляторных элементов являются CpG-островки (CGI). CGIs - это области генома, обогащенные цитозин- и гуанин-динуклеотидами (CpGs), которые биоинформационно определяются как содержащие GC более 50%, это наблюдаемое отношение CpG по сравнению со всем геномом (Obs/Exp) более 0,6 и длину более 200 bps (Gardiner-Garden and Frommer, 1987) (Рисунок 1A). CpG в изоляции модифицируются метилированием ДНК, добавлением метильной группы к цитозину, что является наследуемой эпигенетической меткой. Однако, когда CpGs собираются в островки, они обычно защищены от метилирования ДНК (Bird, 1978; Bird et al., 1979; Bird et al., 1985).
FIGURE 1
Definitions and states of CpG islands. (A) Depiction of the typical CpGs in the mammalian genome which are DNA methylated in isolation but are devoid of this mark in the CGI context. CGIs were originally defined bioinformatically. (B) Schematic demonstrating CGIs locations were biochemically determined. MBD and CXXC proteins fixed to a Sepharose column allowed purification of DNA methylated and unmethylated CGIs in mammals. (C) Representation of CGIs across mammalian genomes and a table, summarising the proportion and methylation status of CGIs as reported by Illingworth et al. (2010) in mouse and human across TSS, Intragenic and Intergenic regions. Total CGI numbers in mouse = 23,021, human = 25,495 (D) Summary of the main states of CGIs across the genome. Their active state is associated with binding of transcription factors (TF) and subsequent RNA Polymerase II (Pol II) binding. Repressed states of CGIs are through combinations of DNA methylation, H3K4me3 and H3K27me3.
Случаи, когда CGI метили ДНК, были соотнесены с транскрипционным замалчиванием, когда они находятся в непосредственной близости от сайтов начала транскрипции (TSS) генов (Deaton and Bird, 2011). По биоинформационным критериям большинство CGI действительно находятся в TSSs, но при этом не учитывается их биохимический потенциал для проявления или отсутствия метилирования ДНК (Larsen et al., 1992; Takai and Jones, 2002; Saxonov et al., 2006). Для преодоления этой проблемы были разработаны методы, специфически обогащающие фрагменты ДНК, содержащие CGI, с метилированием и без метилирования ДНК, в сочетании с секвенированием следующего поколения для биохимического определения координат CGI (Illingworth et al., 2008; Blackledge et al., 2012) (рис. 1B). Эти исследования показали, что только половина CGI в геномах мыши и человека связана с TSS генов, а остальные являются не-аннотированными "сиротами" ("orphans"), которые расположены либо дистальнее генов (межгенные), либо внутри самих генов (внутригенные) (рис. 1С). Эти "сиротские" CGI не только чаще метилируются в ДНК (рис. 1С), но и с большей вероятностью демонстрируют метилирование ДНК и признаки транскрипции в тканеспецифической манере (Illingworth et al., 2010; Deaton et al., 2011). Внутригенные CGIs (iCGIs) особенно поразительны, поскольку они встроены в гены у всех видов млекопитающих и часто не учитываются в большинстве анализов, использующих стандартное биоинформационное определение CGIs.
iCGIs могут влиять на экспрессию генов множеством способов, либо будучи транскрипционно активными сами, либо через взаимодействие с биологическими процессами в непосредственной близости. Биохимическими методами было установлено, что четверть всех CGI находятся внутри генов и существует как iCGI. Недавние исследования позволили связать iCGIs с множеством функций (Maunakea et al., 2010; Jeziorska et al., 2017; Amante et al., 2020). Во всесторонних обзорах CGIs рассматриваются более широко и в контексте развития и болезней (Deaton and Bird, 2011; Greenberg and Bourc'his, 2019). Цель данного мини-обзора - обновить текущие знания о CGIs и охватить их репертуар функций за пределами канонических TSS.
CGIs Are Promoters Independent of Genomic Position
Хроматин, комплекс ДНК и гистоновых белков, образующий хромосомы, может существовать в открытой или закрытой конфигурации, что свидетельствует об активной или неактивной экспрессии генов. Состояние хроматина в геноме млекопитающих изучается с помощью анализа модификаций гистоновых хвостов, маркирующих гистоны, вокруг которых обернута ДНК. Существует более 100 модификаций гистонов, некоторые из них хорошо изучены, а некоторые остаются загадочными, без известной биологической функции (Zhao and Garcia, 2015). Тем не менее, модификации гистонов коррелируют с состоянием хроматина и являются бесценными маркерами при изучении регуляции генов. CGI перекрываются с более чем 70% канонических TSSs в геноме человека и обычно ассоциированы с промоторами (Saxonov et al., 2006), где они могут проявлять несколько состояний, называемых здесь "состояниями CGI". Эти состояния можно разделить на категории в зависимости от их гистоновых меток.
Одним из состояний является бивалентность, когда CGI транскрипционно репрессированы, лишены метилирования ДНК и демонстрируют как активное триметилирование лизина 4 гистона 3 (H3K4me3), так и репрессивное триметилирование лизина 27 гистона 3 (H3K27me3). Бивалентность была , по-видимому, необходима для того, чтобы направлять промоторы с CGI для активации (Bernstein et al., 2006; Voigt et al., 2013), но недавно было высказано предположение, что CGI защищают от метилирования ДНК, одновременно сохраняя их транскрипционно неактивными (Maupetit-Mehouas et al., 2016; Kumar and Jothi, 2020; Shah et al., 2021). Большинство ассоциированных с промотором CGI в геноме человека демонстрируют бивалентность (Court et al., 2019). Это состояние, вероятно, обусловлено составом последовательностей CGIs, а не их расположением, поскольку CGIs, экспериментально введенные в локус β-глобина в эмбриональных стволовых клетках мыши, также демонстрируют бивалентность (Krebs et al., 2014; Wachter et al., 2014). Переход от бивалентных CGIs к активным CGIs инициируется связыванием транскрипционных факторов, что приводит к удалению H3K27me3, сохраняя при этом метку H3K4me3. Удаление H3K4me3 и поддержание H3K27me3 на CGI является репрессивной, иначе известной как polycomb-only опосредованная репрессия, и наблюдается в меньшинстве промоторных CGIs в соматических тканях (Mikkelsen et al., 2007; Farcas et al., 2012; Court et al., 2019; Blackledge et al., 2020).
Более стабильной формой репрессии CGIs является метилирование ДНК. В соматических тканях метилирование ДНК репрессирует промоторные CGIs на инактивированной Х-хромосоме (Augui et al., 2011; Galupa and Heard, 2018), на генах зародышевой линии (Velasco et al., 2010; Dahlet et al., 2021; Mochizuki et al., 2021), импринтированных генах (Barlow and Bartolomei, 2014) и некоторых генах, детерминирующих клоны (Dahlet et al., 2020). Хотя H3K27me3 и метилирование ДНК являются репрессивными, они, как правило, исключают друг друга в CGIs (Brinkman et al., 2012; Statham et al., 2012). Эксперименты по иммунопреципитации хроматина показывают, что H3K27me3 и метилирование ДНК могут сосуществовать в некоторых импринтированных генах (Maupetit-Mehouas et al., 2016). Поэтому CGIs могут обнаруживать несколько состояний хроматина, которые указывают на их транскрипционный потенциал (Blackledge and Klose, 2011) (рис. 1D).
iCGI с большей вероятностью метилированы в ДНК (рис. 1С), а те, которым не хватает метилирования ДНК, могут демонстрировать бивалентные хроматиновые сигнатуры и, когда транскрипционно активны, показывают связывание транскрипционных факторов и промоторную метку H3K4me3 (Lee et al., 2017; Amante et al., 2020; Choi et al., 2020). iCGI, таким образом, могут существовать в тех же "состояниях", что и промоторные CGI, хотя и в разных пропорциях. Сами состояния iCGIs регулируются тканеспецифическим образом, а также с помощью перекрестного общения с геном, который их "приютил". Это может привести к последствиям как для самого iCGI, так и для соответствующего гена-хозяина.
Consequences of Being an Intragenic CGI Within a Gene
Расположение iCGIs в гене является неспокойным местом для промоторной области, поскольку активная транскрипция приводит к глушению ДНК, посредством которой транскрибировался ген. Сначала это звучит парадоксально, но в различных локусах было установлено, что транскрипция посредством промотора гена может привести к его глушению. Впервые это явление было продемонстрировано на локусе глобина в случае α-талассемии, где ген
LUC7L расположен выше по течению от
HBA2. Здесь транскрипция
LUC7L распространяется через CGI промотора
HBA2, который впоследствии метилируется по ДНК и заглушается (Tufarelli et al., 2003). Это можно наблюдать в регионах генов, которые содержат кластеры перекрывающихся генов, например, в импринтированных локусах
Gnas и Igfr2 и, вероятно, в
Kncq1. В локусе
Gnas индуцируемая транскрипция от вышележащего
Nesp удаляет H3K4me3 в
Gnas CGI и устанавливает метилирование ДНК и сайленсинг (Chotalia et al., 2009; Williamson et al., 2011). Транскрипция длинной не-кодирующей РНК (lncRNA)
Airn через промотор
Igfr2 приводит к замалчиванию
Igfr2 (Latos et al., 2012; Santoro et al., 2013). Аналогично, локус
Kcnq1 содержит перекрывающийся транскрипт K
cnq1ot1, который перекрывается с CGI промотора
Kcnq1 . Глушение
Kcnq1 коррелирует с транскрипцией перекрывающегося
Kcnq1ot1, что позволяет предположить, что транскрипция сама по себе вызывает репрессию гена (Golding et al., 2011). Анализ всего генома показал, что репрессия происходит через взаимодействие между транскрибирующей РНК-полимеразой II и расположением гистоновой метки H3K36me3, связанной с элонгацией. Это, в свою очередь, рекрутирует DNMT3B, чтобы вызвать
de novo внутригенное метилирование ДНК (Baubec et al., 2015; Neri et al., 2017; Dahlet et al., 2020) (рис. 2A).
FIGURE 2
Schematics of how iCGIs impact gene regulation mechanisms. (A) Transcription through a 'weak' iCGI can silence it, depositing H3K36me3 and DNA methylation at the iCGI. (B) However, if the iCGI exhibits strong transcriptional activity, it can lead to transcriptional interference. This can result in events akin to those at the (C) H13/Mcts2 locus, that exhibits allele-specific PAS usage. Usage of the PAS is highlighted in yellow. (D) Similar mechanisms have been found other iCGIs. Alternatively, and in some cases, simultaneously, (E) the iCGI can act as a promoter itself, highlighted in blue, for either the host gene itself (gene X) or for a different 'nested' gene (gene Y).
Это может указывать на то, что тканеспецифические паттерны метилирования ДНК в iCGIs являются побочным продуктом транскрипции посредством самого гена, где функция iCGI в качестве промотора заглушается, когда ген-хозяин транскрипционно активен. В то время как iCGIs, расположенные внутри активного гена, обычно заглушаются, подмножества iCGIs, которые обнаруживают большее связывание с РНК-полимеразой II, защищены от этого глушения и сохраняют свой промоторный статус H3K4me3 (Jeziorska et al., 2017). Это указывает на то, что iCGIs могут противостоять замалчиванию транскрипции, но только если они достаточно "сильны" для этого (рис. 2A,B).
Какие факторы диктуют силу CGIs? Существует предположение, что длинные CGIs могут иметь больше сайтов для связывания РНК-полимеразы II (Elango and Yi, 2011), а более высокая плотность CpG коррелирует с усиленным связыванием транскрипционных факторов (Hartl et al., 2019). Учитывая, что iCGIs обычно короче промоторных CGIs и имеют меньшую плотность CpGs, это может объяснить, почему подмножество iCGIs находится в состоянии замалчивания. Но, несмотря на это, подмножества iCGIs избегают транскрипционного сайленсинга, и это может иметь ряд последствий для самого гена-хозяина.
Consequences on the Gene for Hosting an Active Intragenic CGI
Полиаденилирование и сплайсинг - это ко-транскрипционные процессы, которые могут создавать разнообразие зрелых изоформ мРНК из одного гена. Вкратце, регуляция сплайсинга и полиаденилирования может контролировать, какие экзоны пре-мРНК используются и когда транскрипция пре-мРНК должна быть завершена. Альтернативная регуляция любого из этих процессов влияет на функцию зрелой мРНК (Proudfoot, 2011; Lee and Rio, 2015), и оба эти процесса привлекают крупные белковые механизмы, которые регулируют эти процессы ко-транскрипционно (Lee and Rio, 2015; Tian and Manley, 2016; Gruber and Zavolan, 2019). Поэтому представляется правдоподобным, что активность iCGI может влиять на сплайсинг и полиаденилирование, когда они протекают в непосредственной близости друг от друга.
По совпадению, существует множество исследований, связывающих активные iCGIs с событиями альтернативного полиаденилирования (APA), в частности с интронным APA (iAPA), которое может изменять белок-кодирующую последовательность транскриптов мРНК при их преждевременном завершении. Впервые это было продемонстрировано на импринтированном локусе Mcts2/H13 (Wood et al., 2008). Здесь изоформы H13 альтернативно полиаденилируются в зависимости от родительского происхождения метилирования ДНК на iCGI в пятом интроне H13. Этот iCGI является промотором для вложенного гена Mcts2, и когда он активен (отцовский аллель), полиаденилирование H13 происходит в интронных областях. Однако, когда Mcts2 и его промоторный iCGI заглушены (материнский аллель), полиаденилирование происходит в 3.UTR H13 (рис. 2C). Этот механизм APA аналогичен таковому в импринтированном локусе Nap1l5/Herc3. Здесь iCGI является промотором для Nap1l5, и его родительское происхождение коррелирует с выбором сайта полиаденилирования гена-хозяина, Herc3 (Cowley et al., 2012).
Вне контекста импринтинга два недавних исследования, в которых было нарушено метилирование ДНК, показали сходные результаты на iCGIs. Нокаут ДНК-метилтрансфераз (DNMT1 и DNMT3B) в раковых клетках увеличил инициирование РНК-полимеразы II на iCGI, что коррелировало с использованием проксимальных сайтов полиаденилирования двух генов-хозяев (Nanavaty et al., 2020). Подобное использование сайтов полиаденилирования было также обнаружено при нарушении метилирования ДНК в iCGI в локусе NFATc1, что привело к появлению альтернативных изоформ NFATc1. Эти специфические для локуса эффекты были обнаружены в масштабах всего генома в ходе недавнего биоинформационного скрининга, подчеркивающего, что активность iCGIs приводит к преждевременному прекращению транскрипции выше iCGI, скорее всего, посредством APA (Amante et al., 2020) (рис. 2B,D).
Эти результаты показывают, что транскрипционно активный iCGI может влиять на альтернативное полиаденилирование, и подчеркивают способы, которыми iCGIs могут формировать транскриптом. Механистически это, вероятно, связано с преждевременной остановкой РНК-полимеразы II из-за встречи с другой инициирующей полимеразой на iCGI, это называется транскрипционной интерференцией (TI) (Shearwin et al., 2005) (рис. 2B). Здесь процесс полиаденилирования выбирает ближайший сайт, чтобы избежать образования нестабильного транскрипта мРНК. Пока неясно, влияет ли активность iCGI на APA случайным образом через TI, или это прямой механизм регуляции завершения формирования пре-мРНК.
Активный iCGI может также влиять на выбор изоформы более непосредственно, действуя как альтернативный промотор для гена-хозяина (рис. 2D). Например, ген SHANK3 содержит iCGI, который дифференциально метилирован между астроцитами гиппокампа и коры головного мозга. В астроцитах гиппокампа iCGI активен и лишен ДНК метилирования, здесь он служит альтернативным промотором для SHANK3, транскрибируя более короткий транскрипт мРНК. В то время как в астроцитах коры головного мозга, когда iCGI заглушается посредством метилирования ДНК, вместо него транскрибируется каноническая полноразмерная изоформа SHANK3 (Maunakea et al., 2010).
CGI Function as Enhancer Regions
Недавние работы показывают, что CGIs могут играть еще одну регуляторную роль в качестве энхансеров. Энхансеры - это цис-регуляторные последовательности ДНК длиной 50-150 п.н., которые обогащены сайтами связывания транскрипционных факторов, модификациями гистонов H3K4me1 и H3K27ac, и когда они активны, регионы двунаправленной транскрипции производят энхансерные РНК (eRNAs) (Kim et al., eRNAs оказывают цис-регуляторное воздействие, привлекая транскрипционный механизм к генам-мишеням, чтобы вызвать активацию генов (Arner et al., 2015), иначе называемую энхансерной петлей. Внутригенные энхансеры могут вмешиваться в экспрессию генов хозяина посредством транскрипционной интерференции (Onodera et al., 2012; Cinghu et al., 2017), подобно активным iCGIs. Биоинформационные анализы показывают, что сами iCGIs демонстрируют модификации гистонов энхансера, активно транскрибируются на еРНК, являются консервативными у разных видов млекопитающих (Bell and Vertino, 2017) и демонстрируют большее связывание транскрипционных факторов (Steinhaus et al., 2020). Такие сигнатуры были выявлены в iCGIs в составе Kdm6b, который демонстрирует H3K4me1 и петли к промоторному CGI для усиления экспрессии Kdm6b (Montibus et al., 2021). Учитывая, что транскрипция энхансерных регионов необходима для депонирования энхансерных гистоновых меток, неясно, как CGI изначально определяются как энхансерные регионы (Kaikkonen et al., 2013).
Энхансерные сигнатуры также встречаются в другом типе "сиротских" CGI - межгенных CGI. Недавнее исследование поставило под сомнение идею о том, что эти CGI непосредственно служат энхансерами, а вместо этого усиливают функцию проксимальных энхансеров (Pachano et al., 2021). В данном случае межгенные CGI усиливают способность энхансеров усиливать только те гены-мишени, которые сами содержат промотор CGI. Когда энхансеры формируют петлю на промоторные CGI, неметилированные межгенные CGI, находящиеся в пределах 3 кб от проксимального энхансера, приносят с собой механизмы для эффективной транскрипции промоторного CGI. Эти межгенные CGI также служат для защиты сайтов связывания транскрипционных факторов (TFBS) внутри проксимального энхансера от репрессивного метилирования ДНК (Pachano et al., 2021). Взаимосвязь между межгенными CGI и проксимальными энхансерами может быть взаимной, поскольку TFBS в энхансере могут способствовать рекрутированию механизмов в сам межгенный CGI.
Conclusions, the Relevance of Intragenic CGIS in Biology
CGIs - это регионы, в которых может начинаться транскрипция. В то время как большинство CGI локализованы в аннотированных TSS, многие из них могут быть обнаружены внутри гена. В некоторых случаях iCGI подавлены, в других - активные iCGI влияют на процессинг пре-мРНК и способствуют или обеспечивают функцию энхансера.
iCGIs более подвержены метилированию ДНК во время эмбрионального развития и взрослого развития по сравнению с их аналогами TSS CGIs (Illingworth et al., 2010; Auclair et al., 2014), это предполагает, что регуляция iCGIs имеет решающее значение для тканеспецифического программирования. Например, iCGIs специфически экспрессируются в тканях мозга, а их гены-хозяева функционируют в специфических для мозга биологических процессах (Amante et al., 2020). В этом случае iCGIs могут функционировать как TSSs для новых транскриптов или приводить к APA гена-хозяина и, следовательно, расширять транскриптомы во время процессов развития, таких как нейрогенез. iCGIs сохраняются у всех видов млекопитающих (Illingworth et al., 2010), это позволяет предположить, что они поддерживаются и необходимы для правильной регуляции генов. До сих пор неясно, как определяется множество функциональных возможностей iCGIs, т.е. как iCGI знает, что он может служить альтернативным промотором или нарушать полиаденилирование хозяйского гена.
Аналогичным образом, метилирование ДНК iCGIs предотвращает ложную внутригенную транскрипцию (Neri et al., 2017; Dahlet et al., 2020). Блокирование ложной внутригенной транскрипционной активности является методом обеспечения продуктивной элонгации РНК-полимеразой II. Гипометилирование ДНК широко распространено в раковых клетках и распространяется на внутригенные области (Ehrlich, 2002; Hon et al., 2012; Kulis et al., 2012), намекая на то, что внутригенная транскрипция может быть широко распространена при раке (Kulis et al., 2013). Ген RB1, например, содержит импринтированный iCGI, метилирование ДНК которого обратно коррелирует с экспрессией транскрипта RB1 полной длины (Kanber et al., 2009; Kulis et al., 2012). Регион, содержащий iCGI, часто удаляется при хроническом лимфоцитарном лейкозе, что предполагает, что iCGI могут быть нарушены в раковых клетках. Несмотря на это, внутригенное гипометилирование ДНК при раке происходит в основном вне промоторных CGIs, а они, как ни парадоксально, наоборот, гиперметилируются (Kulis et al., 2013; Court et al., 2019). В настоящее время неизвестно, распространяется ли раковая сигнатура гипометилирования на iCGIs, или они гиперметилируются, как промоторные CGIs, и имеет ли это функциональное значение.
Учитывая их четкую регуляцию и то, что многие из них защищены от ДНК метилирования, можно предположить, что iCGI необходимы в биологии млекопитающих. Очевидной проблемой, ограничивающей наше понимание iCGIs, является их совпадение с геномными аннотациями. Обычные технологии секвенирования с коротким прочтением представляют собой проблему, когда пытаются различить, происходят ли сигналы или считывания от гена хозяина или от iCGI. Появление технологий секвенирования с длинным прочтением и возможное снижение стоимости таких методов позволит различать эти прочтения и облегчит понимание iCGIs (Logsdon et al., 2020). Этому будет способствовать изучение метилирования iCGIs в более широком контексте, что станет возможным, когда такие методы, как бисульфитное секвенирование всего генома (WGBS), станут более экономически эффективными. Технология в ее нынешнем состоянии также может помочь в понимании iCGIs, при более широком информировании о геномном расположении CGIs при геномных анализах метилирования ДНК, которые в настоящее время сдвинуты в сторону канонических TSSs.