Посещений:
НАРУШЕНИЯ ЦИС-РЕГУЛЯТОРНЫХ ЭЛЕМЕНТОВ
Связь с болезнями человека
|
Identification of altered cis-regulatory elements in human disease Anthony Mathelier, Wenqiang Shi, and Wyeth W. Wasserman Trends in Genetics, February 2015, Vol. 31, No. 2 |
It has long been appreciated that variations in regulatory regions of genes can impact gene expression. With the advent of whole-genome sequencing (WGS), it has become possible to begin cataloging these noncoding variants. Evidence continues to accumulate linking clinical cases with cis-regulatory element disruption in a wide range of diseases. Identifying variants is becoming routine, but assessing their impact on regulation remains challenging. Bioinformatics approaches that identify variations functionally altering transcription factor (TF) binding are increasingly important for meeting this challenge. We present the current state of computational tools and resources for identifying the genomic regulatory components (cis-regulatory regions and TF binding sites, TFBSs) controlling gene transcriptional regulation. We review how such approaches can be used to interpret the potential disease causality of point mutations and small insertions or deletions. We hope this will motivate further the development of methods enabling the identification of etiological cis-regulatory variations.
Glossary
Allele-specific binding (ASB): an ASB location corresponds to a genomic region where a TF predominantly occupies one allele (Figure 2).
Cis-regulatory element: a TFBS located within a cis-regulatory region (Figure 1).
Cis-regulatory region: a noncoding regulatory DNA region that controls the expression of genes on the same chromosome (promoters, enhancers, insulators, etc.) and is composed of cis-regulatory elements (Figure 1). Enhancer: a genomic region controlling the rate of expression of one or multiple distal genes (Figure 1).
Enhancer RNA (eRNA): an RNA molecule obtained from the transcription of a DNA sequence at enhancers ([88] for review).
Expression quantitative trait locus (eQTL): a genomic region observed to be associated with gene expression modulation in a population.
Expression quantitative trait nucleotide (eQTN): the specific causal SNP located in an eQTL.
Genome-wide association study (GWAS): analyzes common genetic variants in a population to highlight variants associated with a specific trait.
Indel: a small insertion or deletion of nucleotides in a genome.
Lineage-specific selection: sequences constrained by lineage-specific selection show selection within specific species or branches of a phylogenetic tree.
Position weight matrix (PWM): in the context of this review, a PWM (or position-specific scoring matrix) is a quantitative model of TF binding that produces scores correlated with TF-DNA binding energies ([30] for review). Promoter: a functional regulatory region of a gene at which the transcription machinery binds to initialize transcription (Figure 1).
Single-nucleotide polymorphism (SNP): a variant at a specific DNA locus that is observed with a specified frequency across a population.
Single-nucleotide variant (SNV): a variant observed at a specific DNA locus. The frequency in a population is not considered (in contrast to a SNP). A SNV may be a SNP, but a SNP is always a SNV.
Transcription factors (TFs): proteins that control the rate of transcription of genes. Sequence-specific DNA-binding TFs are a subset of these proteins which bind to the DNA in a sequence-specific manner (Figure 1).
Transcription factor binding site (TFBS): a region in the DNA which is specifically bound by a TF (Figure 1).
Transcription start-site (TSS): the position where the RNA polymerase initiates the production of RNA from the DNA (Figure 1).
Whole-exome sequencing (WES): characterization of the complete DNA sequences corresponding to exons (usually focusing on protein-coding gene exons).
Whole-genome sequencing (WGS): characterization of the complete DNA sequence of the genome of an individual.
|
Недавние успехи технологии высокопроизводительного секвенирования повысили наши способности расшифровки генома человека, предоставив новые возможности для лучшего понимания общераспространенных и редких болезней. Последние 5 лет стало чрезвычайно распространенным whole-exome sequencing (WES, see Glossary) , чтобы идентифицировать генетические мутации с фенотипическим эффектом причины болезни. Этот подход, с помощью которого секвенировано 2% генома человека, которые кодируют белки, выявлены мутации, влияющие на функцию белков. Эти регионы хорошо охарактеризованы и разные инструменты, такие как SIFT [1] и Polyphen2 [2] доступны, чтобы оценить вредное влияние мутаций на функцию белков. Однако, растет количество случаев, при которых накапливаются мутации не генов, кодирующих белки, которые объясняют наблюдаемые фенотипы. Хотя причинные мутации могут быть пропущены или они возникают в результате отсутствия понимания функции гена, значительная пропорция этих случаев, скорее всего, вызывается мутациями, лежащими в основе оставшихся 98% генома человека [3].
Благодаря снижению цены технологии секвенирования, сегодня можно осуществлять WGS для индивидуальных пациентов за цену приблизительно в USD 1000. Мы ожидаем, что WGS станет широко используемым тестом в последующие годы, заменив в конечном счете WES, который сегодня внедрен в клиническую практику. С WGS данными можно оценить регионы генома, чтобы определить где и как гены транскрибируются. Эти регионы обозначают цис-регуляторные регионы и состоят они из цис-регуляторных элементов (Figure 1). TFBSs являются стержневыми элементами таких цис-регуляторных регионов. Накапливаются доказательства, указывающие на важность альтераций цис-регуляторных элементов ассоциированных со многими болезнями. Это иллюстрируется на human gene mutation database (HGMD [4]),
Figure 1. Overview of cis-regulation. (A) A human chromosome is organized in the cell through compaction of nucleosomes, in other words DNA strands rolled around a histone octamer. (B) Zoomed view at a transcriptional regulatory event where an enhancer is brought close to a promoter. Transcription factors (TFs) and other regulatory proteins provide a favorable environment for the RNA polymerase II (RNA Pol II) to produce RNA transcripts. Active cis-regulatory regions are represented by plain red boxes, whereas a dashed box represents an inactive one. Note that transcripts are produced at transcription start-sites (TSSs) both from the regulated gene and from the enhancer region. (C) The 2D conformation presented in (B) is given as a linear representation with the localization of the promoters, the enhancer, the TFs, the RNA Pol II, the TSSs, and the RNA transcripts on the DNA. (D) Examples of experimentally derived data providing information on transcriptional regulation (H3K4me3, H3K27ac, TF ChIP-seq), gene expression and enhancer activity (CAGE), chromatin accessibility (DNase I hypersensitivity), and chromatin conformation (RNA Pol II ChIA-PET) (see Table 1 for details about these features). Note that green bars represent reads mapped to the positive strand, whereas purple bars represent reads mapped to the negative strand.
которая включает более 3000 мутаций, связанных с болезнями, отнесенных к категории 'regulatory' в профессиональной версии 2014.2. Мета-анализ 1200 GWAS SNPs показал, что более трети некодирующих вариантов, скорее всего, являются причиной наблюдаемых фенотипических отклонений или болезней [5]. Растет также количество специфических случаев. Напр., недавнее исследование подтвердило редкий вариант нарушения связывания YY1 с промотором GDF5, что приводит к снижению экспрессии, связанной с остеоартритом [6]. Мутации в энхансере, вызывают супрессию SOX10 TF, как было установлено, вносят вклад в болезнь Гиршпрунга [7]. Дефект экспрессии гена GATA2 оказался ассоциированным с мутациями в цис-регулятоном энхансере, он приводит к онтогенетическому синдрому MonoMAC [8]. Аллели с нарушенным мотивом TFBS, как было установлено, приводят к врожденным порокам сердца у пациентов с синдромом Holt-Oram [9]. Многие случаи болезней такие, как когезинопатии, диабеты и раковые опухоли сцеплены с вариантами, расположенными в цис-регуляторных регионах [10-13].
Особенно примечательны раковые опухоли, которые были описаны как болезнь нарушения генной регуляции. Неудивительно, что не кодирующие варианты сцеплены с туморогенезом. Напр., в недавнем исследовании [14] из 863 опухолей человека выявляются повторные мутации в промоторных регионах PLEKHS1, WDR74 и SHDH вместе с теми уже известными, как ассоциированные в геном TERT, повторяющиеся мутации обнаружены в промоторе SHDH, как было установлено, они связаны со снижением экспрессии гена. Недавние успехи в WGS начинают выявлять присутствие альтераций регуляторных последовательностей вблизи многих генов, склонных к белок-кодирующим альтерациям в том же самом классе раковых опухолей [15,16].
Хотя WGS обладает силой идентифицировать варианты в не кодирующих регионах, эти варианты значительно более трудны для оценки по сравнению с вариантами в кодирующих регионах. Ключевым затруднением в ускорении обнаружения цис-регуляторных вариантов при болезнях человека является разработка здравого биоинформационного подхода к выявлению подобных функциональных изменений. По аналогии с успешными подходами к белок-кодирующему анализу, при котором белковые домены и эволюционные паттерны рассматриваются преимущественно как функциональные цис-регуляторные альтерации, необходимые для идентификации функциональных цис-регуляторных регионов и цис-регуляторных элементов (TFBSs) внутри них. Будучи оценен в отношении воздействия на экспрессию генов (в соотв. контексте) вариантов перекрывающихся цис-регуляторных элементов и связи этого с наблюдаемым фенотипом посредством нарушения регуляции контролируемых генов.
В данном обзоре наша цель информировать о современных вычислительных подходах и ресурсах по идентификации цис-регуляторных регионов и TFBSs в геном человека, при этом особое внимание уделено таким инструментам, которые могут обеспечить анализ и интерпретацию single-nucleotide variations (SNVs) и небольших вставок, выявляемых при WGS. Подобное влияние структурных вариантов и количества копий на генную экспрессию не входят в рассмотрение данного обзора ([17] for review).
| |
Box 1. A perspective on transcriptional cis-regulation
In framing the computational analysis of cis-regulatory regions, it is helpful to approach transcriptional regulation from a simplified perspective. Some considerations that inform our interpretation of methods, data, and the literature are given below.
Within the nucleus there is a mixture of densely packed and more-accessible DNA, with some regional locations where elevated concentrations of specific proteins are found. Segments of DNA can be proximal, allowing interactions (both inter- and intra- chromosomal). Within this setting, DNA-binding TFs load onto DNA (possibly with elevated rates at specific positions) and slide along the backbone, intermittently encountering a suitable position at which to engage the internal bases, allowing a more stable interaction. This is an important point because we anticipate the TFs will convert from a non-specific backbone interaction to a sequence-specific interaction, which may alter the shape of the protein and/or the DNA. The presence of a DNAbinding TF may either bring or catalyze the recruitment of additional proteins (either DNA-binding TFs or other types of TFs). These additional proteins may stabilize binding or create epigenetic changes to increase or decrease access of transcriptional machinery to the chromatin. There is extensive interaction between TFs, with clear evidence in the literature of interactivity between multiple TFs, as well as between TFBSs. It is unclear whether or what portions of these interactions are direct (physical contact) or indirect (e.g., multiple TFs acting through the same segment at different times). The TF-DNA interactions are not longlasting, but may recur frequently if the context is appropriate. We further perceive that the favorable TF-binding positions fall within a continuum of binding strengths, and that the binding strength may be a target of selective pressure that could influence the placement along a continuum (with the clear caveat that stronger binding does not necessarily mean that the site is more likely to be functional).
A great many details remain to be resolved and there can be substantive debate on the model above. We use it as an intellectual framework for interpreting results. | |
Identifying cis-regulatory regions in the human genome
Хотя тщательная инвентаризация всех функциональных последствий и их активностей у разных клеток и при разных условиях затруднена, накапливаются данные, которые позволяют идентифицировать большое количество регуляторных регионов (Table 1).
Properties and experimental data of cis-regulatory regions
Активность регуляторных регионов контролируется благодаря взаимодействию между эпигеномными модификациями, конформацией хроматина и связыванием TFs. Несмотря на чрезвычайную ценность, диапазон гистоновых меток и событий связывания TF, которые могут быть экспериментально профилированы, остается ограниченным рядом высокого качества и специфических антител. Активные цис-регуляторные регионы, ассоциированные с открытым хроматином, который может быть идентифицирован по гиперчувствительности к DNase I, по FAIRE-seq [18] или ATAC-seq [19] экспериментам. Помимо данных, получаемых экспериментально, могут использоваться характеристики геномных последовательностей, чтобы определять цис-регуляторные регионы, такие как консервация ([20] for review) или динуклеотидный состав для предполагаемых энхансеров [21].
Лабораторные методы могут теперь идентифицировать активные цис-регуляторные регионы массово. Напр., технология секвенирования само-транскрибируемых активных регуляторных регионов делает возможной идентификацию по всему геному активных энхансеров путем оценки миллионов последовательной ДНК кандидатов в геномах модельных организмов [22]. Недавно консорциум FANTOM5 [23,24] осуществил скрининг сотен выборок у млекопитающих в отношении активных промоторов и энхансеров с помощью cap analysis gene expression (CAGE) данных (Box 2), создав атласы активных цис-регуляторных регионов. Эти компиляции предоставляют богатый источник для режима обучения новым информационным методам.
Table 1. Examples of features used for the identification of cis-regulatory regions
Transcription factor binding sites (TFBSs) TFBSs are core elements of cis-regulatory regions and can be thought as on/off switches controlling transcription
Histone modifications Post-translational modifications of the N-terminal tail of histone proteins. Histone modifications affect the overall chromatin structure and are associated with cis-regulatory regions
Nucleosome Basic organizational unit of eukaryotic chromatin composed of an octamer of histone protein cores and a segment of DNA. Nucleosomes are usually depleted at promoters and enhancers
Open chromatin Regions highly accessible for TFs and other proteins, usually associated with active genome activity
DNA methylation Role in gene regulation varies with cell context. Methylation at promoter regions is usually associated with gene silencing
Chromatin conformation Chromatin conformation analyses identify genomic regions that may be linearly very distant but interact closely within the 3D nuclear organization
Conservation Assessing the conservation of nucleotides between species through genome alignments can highlight regions likely to be functional
Nucleotide sequence properties Analysis of the nucleotide composition of the genome. For instance, the G+C content pattern helps to identify nucleosome positioning, and CpG islands are over-represented in promoters
Identifying regulatory regions through machine learning
Получение данных на геномной шкале растущего тела, открыло новые методы, базирующиеся на обучающейся машине для описания цис-регуляторных регионов. Модели, не использующие машинное обучение (при которых наблюдаемые данные признаков организуют классификацию геномных сегментов в группы) [25] сегменты генома в классы, из которых некоторые могут быть сильно обогащены аннотированными регионами, такими как промоторы или энхансеры. Недавняя оценка показала, что 26% протестированных энхансеров (from [26]) обнаруживает экспериментально обнаруживаемую активность [27]. Недавно появились контролируемые методы (при которых данные по экстенсивной тренировке использовали, чтобы сфокусировать предсказания о специфических типах регионов) для предсказания энхансеров (rev. [28]). Т.к. многие получаемые экспериментально базы данных оказываются доступными для тренировки, то контролируемые подходы становятся всё более мощными для вычленения мест цис-регуляторных регионов
|
|
Box 2. Active promoters and enhancers derived from CAGE data
TheCAGEtechnologyextractsandsequencesthe50 endsoftranscribed
RNAs in a population of cells [87]. By mapping the reads to the genome one can determine the precise localization of the active transcription start sites (TSSs). In contrast to traditional RNA-seq, CAGE allows the detection of multiple TSSs associated to a single gene with very high precision. Previous studies showed that enhancers can be transcribed to give rise to enhancer RNAs (eRNAs, reviewed in [88]) which are short, exosome-sensitive, unspliced RNAs. Interestingly, the transcription observed at enhancers is captured by CAGE deep-sequencing experiments, and displays a characteristic bidirectionality at enhancer edges (see CAGE track in Figure 1 in main text). This bidirectional signature revealed thousands of active enhancers in human and mouse CAGE samples in the FANTOM5 project [23,24]. By correlating gene expression from promoter TSSs with enhancer activity (both derived from CAGE), the studies provide some insights into the relationships between enhancers and genes. The CAGE-seq technology provides a unique opportunity to delineate active regulatory regions on a genome scale in a sample-specific manner. |
На сегодня большинство предсказываемых регионов определяется с помощью unsupervised подходов или непосредственно с помощью лабораторных методов (напр., STARR-Seq [22]).
Identifying cis-regulatory elements - the TFBSs
TFBSs are core elements of cis-regulatory regions
Вычленение функциональных цис-регуляторных регионов в геноме человека предоставляет первую ступень в направлении идентификации мутаций, вызывающих болезни. Расположенные в цис-регуляторных регионах, функциональные TFBSs могут принципиально рассматриваться как вкл/выкл переключатели для транскрипции генов. Несколько примеров показывают, что их разрушение могут приводить к изменению в экспрессии генов, являющихся причиной болезней человека. Соединение TFs с ДНК является сложным взаимодействием между аминокислота-нуклеотид взаимодействиями и топологическими свойствами [29]. Позиции, в которых сивенс-специфическое ДНК связывание TFs переходит от неспецифических стержневых взаимодействий к специфическим взаимодействиям оснований, могут быть предсказаны. TFBSs являются классически моделируемыми с помощью position weight matrices (PWMs), это суммарно может быть описано как предпочтение связывания для TF, суммарно описываемое как независимость каждой позиции внутри TFBSs. Детальные описания представлены (e.g., [30]). Многие исследования последних лет подчеркивают необходимость выхода за пределы классических PWMs, чтобы моделировать свойства, выявляемые с помощью высоко и низко производительного связывания TF-ДНК в экспериментах, даже если классические PWMs прекрасно выявляют большинство TFs.
|
|
Box 2. Active promoters and enhancers derived from CAGE data
TheCAGEtechnologyextractsandsequencesthe50 endsoftranscribed
RNAs in a population of cells [87]. By mapping the reads to the genome one can determine the precise localization of the active transcription start sites (TSSs). In contrast to traditional RNA-seq, CAGE allows the detection of multiple TSSs associated to a single gene with very high precision. Previous studies showed that enhancers can be transcribed to give rise to enhancer RNAs (eRNAs, reviewed in [88]) which are short, exosome-sensitive, unspliced RNAs. Interestingly, the transcription observed at enhancers is captured by CAGE deep-sequencing experiments, and displays a characteristic bidirectionality at enhancer edges (see CAGE track in Figure 1 in main text). This bidirectional signature revealed thousands of active enhancers in human and mouse CAGE samples in the FANTOM5 project [23,24]. By correlating gene expression from promoter TSSs with enhancer activity (both derived from CAGE), the studies provide some insights into the relationships between enhancers and genes. The CAGE-seq technology provides a unique opportunity to delineate active regulatory regions on a genome scale in a sample-specific manner. |
Различные публичные базы данных собирают, генерируют и организуют профили связывания TF (JASPAR [33], SwissRegulon [34], HOCOMOCO [35], UniProbe [36], FactorBook [37], HOMER [38] и CIS-BP [39]). Пока базы данных сфокусированы на классических matrix-based моделях.
Predicting TFBSs
Среди большинства методов связывания TF, техника ChIP-seq [40] наиболее широко используется метод идентификации на геномной шкале in vivo взаимодействий TF-ДНК [41]. Хотя данные могут быть ключом для моделирования связывания TF, необходима осмотрительность при интерпретации индивидуальных наблюдаемых с помощью ChIP-seq регионов (Box 3). Предсказание TFBSs внутри пиков ChIP-seq, с использованием модели связывания широко используется на практике для определения приоритетов предсказаний функциональных цис-регуляторных вариантов с потенциальным воздействием на нарушение регуляции транскрипции (e.g., [15,42-44]). Однако, доказательства прямого связывания TF с ДНК не подозревают функциональность [29], хотя это находится в фокусе анализа субнаборов генома, скорее всего, содержащих активные TFBSs.
В отсутствие данных ChIP-seq для определенных TF в специфических условиях/клетках/тканях поиск вариантов нарушений потенциала сайтов связывания может быть ограничен активными регуляторными регионами, возникающими в результате модификаций гистонов, открытым хроматином или данными CAGE (Table 1). Идентификация TFBSs внутри этих регионов может быть осуществлена путем использования таких инструментов, как CENTIPEDE [45], MILLIPEDE [46], Wellington [47], и PIQ [48], исходя из модели связывания, созданной на основе экспериментальных данных.
Assessing the impact of variations on TF-DNA
interaction
Принимая во внимание перекрывание потенциальных TFBS, следующим затруднением является предсказание, будут ли альтерации иметь функциональные последствия на регуляцию генов. Существующие предсказывающие подходы могут использовать многие линии доказательств, что позиция имеет сиквенс-специфическую функцию. Взаимодействия TF-ДНК возникают в результате взаимодействия между мотивами последовательностей ДНК, доступностью хроматина, эпигенетическими метками и взаимодействиями с ко-факторами (Figure 1). Чтобы оказывать предпочтение вариантам, наиболее вероятно нарушающими функциональность регуляторных элементов, необходимо учитывать множественные аспекты взаимодействий TF-ДНК. Далее мы предоставим основные свойства, рассматриваемые при выборе приоритетных вариантов с регуляторным влиянием.
Collecting reliable reference datasets
Чтобы оценить влияние вариантов жизненно важно скомпилировать набор дифференциально связанных аллельных пар, в которых вариация последовательностей является причиной для склонности связывания TF. Субнабор клеточных линий был изучен с помощью проектов ENCODE и 1000 Genomes, предоставив сообществу данные по связыванию TF, эпигенетические и генотипические данные из одного и того же клеточного контекста, делая возможным углубленный анализ влияние вариантов с TFBSs [43,49,50]. События allele-specific binding (ASB) предоставляют преимущества в фокусировании вариантов с одним и тем же клеточным окружением [50,51] (Figure 2). ASB события могут быть определены с использованием биномиального критерия, приложимого к данным ChIP-seq, где известны позиции подлежащих гетерозигот [50,51]. Множественные системы коммуникаций доступны для обнаружения событий ASB в экспериментах с TF ChIP-seq [51- 53]. Обнаружимые события ASB представлены небольшой пропорцией баз данных ChIP-seq - обычно мнее 1% от всех пиков [51]. События ASB встречаются чаще в ассоциированных с болезнью SNPs и если они располагаются внутри 100 пн transcription start sites (TSSs) промотора, то строго ассоциируют с альтерациями в экспрессии генов [50].
Interpreting TF binding alteration
Дифференциальное связывание TF анализировали у разных индивидов (или в выборках ткани или в линиях клеток) или в гетерозиготных сайтах в клетках. С измененным мотивом SNVs могут объяснить ряд наблюдаемых различий в связывании [49,54] (Figure 3A,B). Аллели, ближайшие к косенсусному мотиву, преимущественно обнаруживают повышенное связывание [43,50,55]. Кроме того, измененные мотивы проксимальнее экспериментального ChIP-seq пика максимума в основном ассоциированы с дифференциальным связыванием [54]. Большинство ASB не перекрывает ChIP'ed TF мотив, указывая тем самым, что др. механизмы ответственны за пропорцию событий [43,50]. Присутствие (или отсутствие)
|
|
Box3
Box 3. What to expect when you are ChIP'ing?
Detailed recommendations for comprehensive analysis of ChIP-seq
data are provided in [89]. While TFBSs are usually 8-15 nt in length,
ChIP-seq peaks (regions with an enrichment of mapped reads) are
commonly 300 nt in length, with an sub-area covered by the
maximum number of reads (peak maximum, Figure IA). One anticipates
the peaks to be enriched for the DNA motif recognized by
the ChIP'ed TF in the vicinity of the peak maximum [90], with the motif
being detectable using de novo motif discovery and motif-enrichment
detection tools (e.g., the MEME suite [91], RSAT [92], ChIPMunk [93], HOMER [38], and oPOSSUM-3 [94]).
Nevertheless, ChIP-seq experiments do not always exhibit enrichment of the
expected motif, nor do all peak regions contain an occurrence
of the motif [95-98]. Indeed, a set of peaks can be conceptually
decomposed into three subsets which correspond to: (i) a
set of peaks with evidence of direct binding, (ii) a set of peaks arising from
indirect binding, and (iii) the set of the remaining peaks
(Figure I). Direct evidence of binding for peaks in (i) can be obtained by
searching for the canonical motif. This provides a set of highly confident
TFBSs with both experimental evidence of binding through ChIP-seq and computational evidence of direct binding through the motif (Figure IB). The second set (ii) of peaks is difficult to distinguish from the third without knowing the protein partner interacting with the DNA. Peaks from set (iii) might derive from structural organization of the genome, unspecific binding, or experimental artefacts [99] (Figure IB,C). Some regions corresponding to ChIP-artefacts have been reported to be associated with high levels of transcription [100-103].
Multiple studies have highlighted 'HOT' (high occupancy of transcription-related
proteins) regions [95] or TF clusters [96]) that recurrently appear in ChIP-seq data of multiple TFs without enrichment of motifs for the ChIP'ed TFs. Such regions might be related to the chromatin conformation within the nucleus because they correlate with binding of proteins such as CTCF and cohesin which, together with ZNF143, are enriched at interacting loci identified through ChIA-PET experiments [104]. Recurrently observed enrichment
of TFBS motifs across ChIP-seq datasets for diverse TFs has identified several motifs associated with frequently recovered regions; the motifs include CTCF and ZNF143 motifs, as well as ETS-like and JUN-like motifs [97].
Figure I. What to expect from ChIP-seq data. (A) Schematic overview of the ChIP-sequencing procedure. Transcription factors (TFs), red octagons, are chemically crosslinked
to the DNA, either directly or indirectly, which is then sheared. DNA segments bound by the TF under study are recovered through an antibody specific to the
TF. Deep sequencing is performed, and reads are mapped onto a reference genome to predict bound regions (ChIP-seq peaks) where the peak maximum corresponds
to the area with the highest amount of overlapping reads. (B) ChIP-seq peaks can be analyzed by scanning the regions with the canonical TF binding profile
(motif) associated with the ChIP'ed TF. For each peak, we can record the position of the most similar sequence to the TF binding profile. The x axis provides the distance of
the most similar motifs to the peak maximum. The y axis provides the corresponding scores of the motifs (computed from the TF binding profile). The plot is generated
from the ENCODE SRF ChIP-seq experiment performed in embryonic stem cells (H1-hESC). (C) Regions recovered by ChIP-seq can be divided into three categories. The first contains the peaks showing evidence of a direct binding of the TF with a canonical motif predicted close to the peak maximum. The second is composed of peaks derived from indirect binding of the TF to the DNA through another protein. Third, a category of peaks captured for unknown reasons, and that might reflect the structural organization of the genome,unspecific binding,or experimental artifacts.
|
связывания ко-факторов (i.e., TFs действующих кооперативно) по соседству д. объяснить субнабор таких событий (Figure 2A,C) [54,56]. Напр., различия в связывании NF-kB между индивидами коррелируют с SNVs с измененными TFBSs их ко-факторов [56]. В целом вариации внутри ChIP'ed TF мотива или мотива ко-фактора могут приводить к измененному взаимодействию TF-ДНК и объяснить существенную пропорцию дифференциальных событий. Относительное воздействие др. потенциальных механизмов предстоит ещё оценить.
Chromatin marks and TF binding
TFs могут обнаруживать предпочтения в связывании в контексте специфического открытого хроматина и гистоновых модификаций и это предпочтение может быть использовано, чтобы информировать о TFBS предсказании
Figure 2. Allele-specific and heterozygous binding. (A) Allele-specific binding
events can be derived from heterozygous loci where there is a strong preference
for ChIP-seq reads to map to only one allele. (B) Non allele-specific binding regions harbor reads mapping to both alleles similarly. It could be explained by the transcription factor (TF) equally recognizing the two alleles or if the variation does not disrupt the active binding site.
[45]. Однако, зависимость между хроматиновыми метками и связыванием TF не всегда ясна [57]. Имеются субнаборы эпигенетических меток, сцепленных с более эффективным связыванием TF binding (активные метки) и субнаборы, сцепленные со сниженным связыванием (репрессивные метки) [58] (Figure 3D). В противоположной перспективе исследования показали вклад связывания TF в спецификацию гистоновых модификаций [38,59]. Более того, SNPs обогащены в регионах, обнаруживающих изменчивые эпигенетические метки между индивидами, если сравниваются инвариантные регионы
Figure 3. Schematic view of transcription factor (TF) binding alteration. (A) TF binding events in a 'normal' environment. Two TFs bind to their respective TF binding sites (TFBSs) and stabilize each other's binding. (B) A variant lying within one of the TFBSs disrupts the binding of the TF to the DNA. This event is represented with lighter shading for the TF. The disruption of the binding can be due to a change in (i) a nucleotide recognized by the TF, or (ii) the DNA shape conformation altering the binding of the TF to the DNA. (C) Another scenario is that a variant lying within one of the TFBSs can disrupt the binding of both TFs to the DNA. In such a scenario, the TFs are considered as cofactors, where the binding of one TF is necessary for the binding of the other TF. (D) A variant can also be associated with a modification of the epigenetic environment, potentially repressing the binding of a TF to the DNA.
[55]. Итак, вполне возможно, что некоторые события связывания TF зависят от специфических хроматиновых меток, тогда как др. TFs не зависят (напр., т. наз. пионерские факторы [29]). Объяснение дифференциального связывания TF связью с эпигенетическими альтерациями, связыванием ко-факторов или каноническими нарушениями TFBS остается трудным.
TFBS conservation
Консервация последовательностей может предоставить интерпретацию вариаций внутри цис-регуляторных элементов (как это делается для белок-кродирующих последовательностей). Консервация сцепленной с TFBS последовательности и функциональности не тривиальна. Напр., ранние экспериментальные исследования регуляторных элементов у человека и мыши определили, что приблизительно 32-40% функциональных регионов у человека не функциональны у мыши [60]. Более того, регионы, связывающие TF, идентифицированные в ходе крупномасштабных ChIP-seq экспериментов, показали ограниченную консервацию среди видов с пиком консервации только в 10-22% [61]. Хотя многие с помощью ChIP идентифицированные регионы не законсервированы, они перекрываются с эволюционно консервативными последовательностями, ассоциированными с более значительной величиной функциональной роли [62,63]. Более того, геномные последовательности в условиях клон-специфической селекции были использованы, чтобы отфильтровать цис-регуляторные варианты при WGS анализе раковых опухолей [15].
TFBS redundancy
Исследования показали, что присутствие избытка сайтов связывания в цис-регуляторных регионах может поддерживать паттерн и уровень экспрессии, даже в случае альтераций последовательностей. В обзоре [64], TFBSs рассматриваются как совокупные или инкрементальные входные сигналы нацеленные на регуляцию генов и события связывания, TF варьируют по степени .эффективности регуляторных регионов. Избыточность может рассматриваться как механизм буферизации, благодаря чему нарушенные TFBS могут быть компенсированы c помощью др. соседнего сайта связывания в том же самом цис-регуляторном регионе [65,66]. Следовательно, чрезвычайно важно рассматривать избыточность TFBSs, когда интерпретируется функциональное влияние изменчивости на регуляцию генов.
Experimental assessment of the impact of variants on gene expression
Новые экспериментальные техники позволяют оценить влияние вариантов на экспрессию генов. Параллельные репортерные подходы позволяют вычленить
in vivo цис-регуляторные регионы, влияющие на транскрипцию генов. У авт., проанализировавших три мышиные печеноные энхансера [67], путем синтезирования >100 000 мутантных гаплотипов, отличающихся на 2-3% от дикого типа. Исследование подчеркивает, что большинство вариантов оказывает умеренный эффект на функцию энхансеров и только 22% существенно влияют на экспрессию. Эффективные варианты оказались более законсервированными и перекрывались с предполагаемыми специфичными для печени TFBSs. Наблюдаемые в SNVs при анализе всего генома человека, имели сходную пропорцию экзонных SNVs (16%), которые были отнесены к вариантам потери функции [68] c помощью VEP [69] или ANNOVAR [70]. Наконец, массивно-параллельный подход был использован для анализа функционального влияния вариантов в TFBSs из 5 активаторов и репрессоров в 2000 предполагаемых энхансерах человека [71].
Examples of computational tools for prioritizing cisregulatory variants
Было разработано несколько инструментов для предсказания воздействия вариантов внутри цис-регуляторных элементов путем интеграции как экспериментально полученных, так и базирующихся на последовательностях особенностей. Ранние методы концентрировались в основном на использовании профилей связывания TF, чтобы оценить влияние вариантов на силу связывания TF с ДНК. RAVEN [72] использовал филогенетическую информацию footprinting вместе с PWM значениями различий между референсным и альтернативным аллелем. Инструменты is-rSNP [73] и regSNP [74] сравнивают распределение PWM значений при экспериментально подтвержденных и фоновых вариантах, чтобы оценить P-значения для случаев изменений TFBS. Программа TRAP [75] оценивает различия в сродстве связывания (различия P-значений между референсным и альтернативным аллелем) между последовательностями дикого и мутантного типа для TFBSs путем использования биофизической модели с известными профилями связывания TF.
Более недавнее программное обеспечение внесло эпигенетические данные вместе с профилями связывания TF, чтобы оценить цис-регуляторное влияние вариантов зародышевой линии. RegulomeDB [76] вычисляет эвристические показатели из ряда регуляторных особенностей перекрывающихся вариантов, но он не оценивает, имеют ли варианты нарушения в TFBSs. GWAS3D [77] интегрирует полученную на хромосомах информацию вместе с эпигенетическими метками, влиянием сродства связывания, базирующихся на показателях от PWMs, и консервацию, чтобы определять приоритеты регуляторных вариантов. Влияние вариантов сродства TF с ДНК оценивается путем сравнения log-odds вероятностей связывания между референсным и альтернативным аллелем на нулевое эмпирическое распределение.
Совсем недавно были использованы машину обучающие подходы для прендсказания вариантов с патогенетическими эффектами. GWAVA инструмент комбинирует геномную информацию с эпигенетическим и базами данных, чтобы выявить приоритетные варианты и тренируется на болезненных вариантах, аннотированных в HGMD [4] как регуляторные мутации в сравнении с контрольными вариантами в проекте 1000 Genomes [78]. Недавние инструменты CADD [79] и DANN [80] предсказывают патогенетические варианты как кодирующих, так и не кодирующих регионов, используя векторную машину и подходы глубокой нервной сети соотв. Хотя не кодирующим вариантам отдается приоритет, чтобы подчеркнуть такие наиболее вероятные для разрушения транскрипционной цис-регуляции, инструменты не оценивают влияние вариантов на связывание TF с ДНК, но вместо этого используются для предсказаний TFBSs внутри ChIP-seq данных, используя PWMs.
Integrating genomic and transcriptomic information
Чтобы соединить кусочки вместе, мы рассмотрели затруднения в интерпретации комбинации геномных и транскриптомных данных, чтобы предсказать варианты, вызывающие болезни из-за нарушений экспрессии.
Большинство работ сфокусировано на детекции взаимоотношений между генотипом и экспрессией. Базирующиеся на сцеплении подходы могут быть использованы для определения экспрессии quantitative trait loci (eQTLs), и разработаны вычислительные инструменты для предсказаний причиняющих болезнь вариантов ([81] for review). Напр., в [82] три ткани от здоровых женщин близнецов были проанализированы, используя генотипирование наборов экспрессируемых генов и SNP, это позволило выявить зависимые от тканей регуляторные корреляции. cis-eQTLs образовывали кластеры преимущественно и симме6трично вокруг TSSs. Архитектура регуляции генов eQTLs сходным образом была исследована в HapMap-profiled лимфобластоидных клеточных линиях [83].
Быстрое компилирование cis-eQTLs внушает надежду на идентификацию причинных регуляторных вариантов (as opposed to correlated markers), но прогресс пока ограничен. Две группы наблюдали, что cis-eQTNs (expression quantitative trait nucleotides) часто нарушают нижестоящий промоторный элемент [83,84]. В др. сообщении [85] сообщается, что 40% из eQTNs располагаются внутри гиперчувствительных к DNase I или модифицированных гистоновых регионах (которые занимают только 4.5% генома). Перекрывание с TF ChIP-seq данными, eQTNs, как было установлено, изменяют TFBS для специфически профилированных TFs [83]. Анализ лимфобластоидных RNA-seq и генотипических данных для 462 индивидов из 1000 Genomes Project показал, что cis-eQTLs, скорее всего, являющиеся причиной болезни, сильно обогащены специфическими не кодирующими элементами (напр., TF пики, DNase I гиперчувствительные сайты, активные промоторы и сильные энхансеры) [44].
Хотя эти коррелятивные анализы начали применять к анализу альтераций TFBS чтобы выделить приоритетные варианты, вызывающие повреждения, однако, ограничения предполагаемых методов остаются. Вычислительные методы недавно начали появляться, чтобы выявить, что инструменты анализа уникальных субнаборов TFBS для выявления приоритетных кандидатов регуляторных вариантов. Инструменты FunSeq и FunSeq2 делают возможной идентификацию регуляторных вариантов, возникающих при раке путем интеграции эпигенетических данных, TF ChIP-seq данных, последовательности консервации,
|
|
Box 4. Outstanding questions
Elucidating enhancer-gene association
We have reviewed current methods allowing the identification of the cis-regulatory regions and elements controlling gene transcription. Although variants disrupting TF-DNA interactions lying within promoters are likely to alter the expression of the corresponding gene, elucidating which gene is altered by variants found at distal regulatory regions remains a hurdle. The challenge is to reveal the 3D geography of the nucleus, showing which enhancers and promoters are spatially proximal and are likely to functionally interact. Classically, variants are often associated to the most linearly proximal promoter. Such an approach does not account for cases in which regulatory regions act on more distant targets, nor on regulatory regions that act upon multiple promoters. Experimentally, promoter-enhancer interactions can be derived from chromatin conformation capture or derived experiments such as ChIA-PET (mediated by RNA Pol II) ([105] for review). A recent study in mouse samples revealed that such interactions are dynamic, with a high cell type-specificity [106], whereas another analysis found that enhancer-promoter relationships in one tissue can be derived from genomic data available in other tissues, suggesting more stable interactions [107]. These disparate results highlight the complexity of the problem, and represent preliminary steps towards the identification of enhancer-promoter interactions necessary for predicting the specific gene expression impact of variants lying within distal regulatory sequences.
Creating cis-regulatory elements
While the presented literature moves forward the identification of variants altering gene expression through the disruption of cisregulatory elements, the recognition of variants creating active transcriptional elements has not been fully addressed. There is inadequate evidence of cases in which TFBS are created. Preliminary steps have been introduced by the FunSeq2 software which considers gained TFBSs by scanning sequences around variants at promoters and enhancers with PWMs [86], but the demonstration of informatics approaches that are capable of predicting the creation of bona fide cis-regulatory elements remains to be achieved.
|
и повреждений TFBS мотива, а также анализ сети генов, участвующих в канцерогенезе [15,86]. Такие интегративные подходы, скорее всего, станут ключевыми в ближайшие годы.
Concluding remarks
Regulatory sequence alterations are expected to be significant contributors to human phenotypes. As described, researchers have an increasing capacity to identify sequence variations situated within cis-regulatory regions, and to predict which of the variations are likely to alter TF- DNA interactions. The key step of demonstrating causality for expression and/or disease-related phenotypes remains limited to detailed mechanistic studies (Box 4).