Box 1 | Measuring linkage disequilibrium
Many different measures have been proposed for assessing the strength of linkage disequilibrium (LD). Most capture the
strength of association between pairs of biallelic sites. Two important pairwise measures of LD are r 2 (sometimes denoted Δ2 ) and |D'| 1,2,82 .Both measures range from 0 (no disequilibrium) to 1 (‘complete’ disequilibrium), but their interpretation is slightly different. |D'| is defined in such a way that it is equal to 1 if just two or three of the possible haplotypes are present, and it is <1 if all four possible haplotypes are present. So, a value of |D'| that is <1 indicates that historical recombination
has occurred between two sites 83 (recurrent mutation can also cause |D'| to be <1, but for single nucleotide polymorphisms
(SNPs) this is usually regarded as being less likely than recombination). Intermediate values of |D'| are more difficult to
interpret (for example, how different is 0.3 from 0.7?), and even in simulations, values of |D'| can be highly variable for pairs
of sites that are separated by a given distance 1,38,39 . The measure r 2 represents the statistical correlation between two sites, and takes the value of 1 if only two haplotypes are present. It is arguably the most relevant measure for association mapping, because there is a simple inverse relationship between r 2 and the sample size required to detect association
between susceptibility loci and SNPs. For example, suppose that SNP1 is involved in disease susceptibility, but we genotype cases and controls at a nearby site SNP2. Then, to achieve the same power to detect association at SNP2 as we would have at
SNP1, we need to increase our sample size by a factor of 1/r 2 (REFS 1,70).
These measures are defined for pairs of sites, but for some applications we might instead want to measure how strong LD is across an entire region that contains many polymorphic sites . for example, for testing whether the strength of LD differs significantly among loci or across populations, or whether there is more or less LD in a region than predicted under a particular model. Measuring LD across a region is not straightforward, but one approach is to use the measure ρ ,which was
developed in population genetics 1,84,85 .Roughly speaking, ρ measures how much recombination would be required under a particular population model to generate the LD that is seen in the data. The development of methods for estimating ρ is now an active research area 12,39,85.90 . This type of method can potentially also provide a statistically rigorous approach to the problem of determining whether LD data provide evidence for the presence of hotspots 12 .
Box 2 | Definitions of haplotype blocks
A range of methods have been proposed for defining haplotype blocks. Broadly speaking, they can be classified into two main groups: those that define blocks as regions with limited haplotype diversity 31,45,46,91 and those that make use of
pairwise disequilibrium (for example, based on |D'|) to identify transition zones in which there is evidence for extensive historical recombination 32,48,72,78 .
The details of the proposed algorithms differ from study to study, which makes the comparison of results from different studies challenging. As examples, we describe one particular definition of each type. The first, from Patil et al.45,91,92 ,defines a haplotype block as a region in which a fraction ‘α’ or more of all the observed haplotypes are represented at least n times in the sample. So, for example, Patil et al.45 required that in haplotype blocks, at least 80% of the observed haplotypes should be observed two or more times. Clearly, given this rule, there might be many possible ways of dividing the data into blocks. Patil
et al. used the criterion that (roughly speaking) block boundaries should be defined in a way that minimizes the number of single nucleotide polymorphisms (SNPs) that are required to identify all the haplotypes in a region; Zhang et al.91 have
provided an efficient algorithm for doing this. A different block definition was proposed by Gabriel et al.32 .The authors focused on |D| and defined haplotype blocks
as sets of consecutive sites between which there is little or no evidence of historical recombination. More specifically, for each pair of sites, the data are used to construct a confidence interval on the population value of |D'|. This procedure
approximately accounts for the uncertainty owing to finite sample size and UNPHASED DIPLOID DATA, and has the effect of substantially smoothing the estimates of |D'|, which are normally noisy (see REF. 93 for a BAYESIAN APPROACH to the same
problem). Values of |D'| are divided into three categories: strong LD (|D'| near 1, which implies little or no evidence of historical recombination); weak LD (|D'| significantly <1, which implies historical recombination); and intermediate/unknown LD. The third category includes pairs of sites with intermediate values of |D'|, as well as pairs for which the confidence intervals are relatively wide. Two or more sites can be grouped together into a block if the outermost pair of sites is in strong LD, and if, for all pairwise comparisons in the block, the number of pairs in strong LD is at least 19-fold greater than the number of pairs in weak LD (for a full version of the original definition, see REF. 32). The authors sought to validate this definition by looking at the properties of sites that were not used to build the blocks, and observed that in blocks, the LD between such sites did not depend on distance. These criteria do not produce a unique assignment of sites to blocks, but in practice the fraction of ambiguous block boundaries is relatively low 71 . Although both approaches have their merits, we prefer the second for several reasons: first, using D' focuses attention directly on the issue of detecting historical recombination, which seems to be central to the concept of haplotype blocks;
second, the pairwise methods are more easily applied to diploid genotype data in which haplotype phase is unknown; and third, it is easy to visualize the pairwise disequilibrium coefficients (examples are shown in Рис. 1).
Box 3 | Haplotype blocks and association mapping
The haplotype-block model immediately points to a relatively simple approach to designing mapping studies. First, the main haplotypes could be identified in each haplotype block, followed by the determination of the smallest set of single
nucleotide polymorphisms (SNPs) that is needed to distinguish among these haplotypes (the haplotype-tagging SNPs)32,47,92 .It would then be possible to scan across the region of interest by doing a chi-square test of association in
each haplotype block, to test for association between phenotype and haplotype status. Gabriel et al.32 estimated that approximately 300,000 and 1,000,000 SNPs would be required to scan the genome in non-African and African
populations, respectively, by this approach — an estimate that is surprisingly similar to the theoretical estimate made by Kruglyak in 1999 (REF. 9).
Although this chi-square approach is appealing in its simplicity, it is not clear that this is either the most efficient or powerful statistical approach to the problem. In effect, this approach treats each haplotype block as independent, but in
practice there might be substantial (although incomplete) LD from one block to the next 31 .Ifthis is the case, further information about the relationships among chromosomes at one position can potentially be gleaned from the
relationships among SNPs in neighbouring blocks 94 .
Effective use of information from neighbouring blocks might be of particular value for identifying risk alleles that are at modest frequencies (for example, 1–10%), or loci at which there is modest allelic heterogeneity 95,96 .There is a concern that association mapping with haplotype-tag SNPs will have relatively low power to detect low frequency variants 3 .However, such variants are likely to be young, and hence might lie in conserved haplotypes that extend across several haplotype
blocks. One potential signal of such risk alleles might be extended multi-block haplotypes that are shared among affected individuals more than among controls. So far, no methods have been published that can make systematic use of this type
of information, and there is a need for new statistical techniques in this area.
Finally, it is clear that to some extent haplotype blocks are a double-edged sword. Large discrete blocks are a bonus in detecting association (the first phase of association mapping), but once a locus of interest has been narrowed down to a
single large haplotype block, the patterns of LD might provide no further information about the actual location of disease variant(s)79 .One possible approach is to first detect association in non-African populations, and then perform
fine-mapping in African (or African-American) populations in which LD decays much faster 18,32 , assuming that the same disease loci are polymorphic in both groups.
Box 4 | The effects of study design on haplotype-block patterns
To explore the effect of study design on observed haplotype-block patterns, we ran simulations that were comparable to the Gabriel et al.32 data from sub-Saharan Africa. We chose a model in which the proportion of sequence contained in
haplotype blocks roughly matched the proportion in the actual data (small n,small Θ in table below). Using the coalescent with recombination 97 , and assuming a population size of N= 104 ,we simulated 100 replicates of all 50 regions with n = 58 unphased diploids (the same sample size as the sub-Saharan African data from Gabriel et al.) in which the mutation parameter Θ was set to 7.84 Ѓ~10 .5 per bp (chosen to produce, on average, one marker with a minor allele frequency of 0.1 per 6.5 kb, as in the actual data). We also ran simulations with an eight-fold greater sample size (large n,small Θ ), an eight-fold greater marker density (small n,large Θ ), and both an eight-fold greater sample size and marker density
(large n,large Θ ). The marker density with large Θ is less than (but close to) the theoretical maximum marker density that could be obtained by complete resequencing. The underlying simulated genealogies were identical for all four study
designs. The average recombination rate for each region was estimated from REF. 53, but the local recombination rate varied across the sequence 12,71 so that ~50% of all recombination events happened in randomly distributed 1-kb hotspots. For the table below, all hotspots were of equal intensity, but rates for Рис. 4 were drawn from an exponential distribution. For all simulations, there was an average of one hotspot per 30 kb. To model ASCERTAINMENT BIAS,we only considered polymorphisms that segregated in the first eight chromosomes. With this model, the marker-allele
frequencies in the simulations match the actual marker-allele frequencies reasonably well 71 . this is important because
different ascertainment schemes can produce different estimates of linkage disequilibrium (LD)98 . We also explored the effect of local variation in the recombination rate on block patterns by running simulations
similar to those above, but with uniform recombination rates for each region. These simulations still incorporated variation in recombination rates between regions.
Simulation results, averaged across all replicates and all regions, are summarized in the table. We present the range of the middle 90% of simulation replicates for the average marker spacing, sequence coverage, average haplotype-block size
and largest haplotype-block size. The values from the actual data are given for comparison. Simulations with uniform recombination rates produce fewer (and shorter) haplotype blocks than are seen in the actual data. Similarly, levels of LD
are higher in the actual data than expected under a model with no local variation in recombination rates. As discussed in the text, hotspot models produce more extensive LD (for example, longer haplotype blocks and greater sequence
coverage) than comparable uniform recombination models.
|
Linkage disequilibrium (LD) фактически обозначает то, что определенные аллели в близлежащих сайтах м. появляться вместе в одном и том же гаплотипе более часто, чем это м. ожидать при случайном их появлении
1–5 (BOX 1). LD имеет фундаментальное значение для картирования генов, поэтому оно используется при позиционном клонировании, чтобы проследить изменчивость, которая продуцируется сигналом сцепления (linkage signal)
6,7 и при изучении ассоциаций, в которых варианты болезни м.б. выявлены благодаря наличию ассоциации соседствующих сайтов
8–10. Паттерны LD м.б. также использованы для заключения о распределении событий кроссинговера в короткой шкале, которые трудны для экспериментального изучения
11,12, и для изучения конверсии генов, о которых имееются лишь немногочисленные экспериментальные данные у любого вида животного
13–16. Наконец, паттерны LD важны для распутывания эволюционной истории человека, которая включает идентификацию демографических эффектов, таких как рост, BOTTLENECKS и ADMIXTURE популяций
15,17–23, и для выявления естественного отбора
24–26 .
В обзоре основное внимание уделяется последним данным о пространственной структуре LD и ее использования для ассоциативного картирования (association
mapping). При ассоциативном картировании целью является идентификация генетических вариантов, которые увеличивают чувствительность к болезням (or other phenotype of interest), и появляются , следовательно, с более высокими частотами у затронутых индивидов по сравнению с контролем
10. При определенных предположениях, теоретические аргументы указывают на то, что ассоциативное картирование по всему геному м.б. мощным подходом для для идентификации вариантов, которые вносят вклад в сложные признаки
27,28. В настоящее время считается, что генотипирование всех широко распространённых вариантов в геноме будет чрезвычайно дорогостоящим. Однако, т.к. генотипы по близлежащим маркерам обычно скоррелированы (т.е., находятся в LD), то м. оказаться возможным сканирование генома с использованием значительно меньшего набора маркёров, лишь с незначительной потерей эффективности
8. Чтобы предложить исследования, пригодные для этой цели, необходимо детально знать структуру и степень неравновесного сцепления по всему геному, и чтобы выбрать набор пригодных маркёров и чтобы подобрать мощные методы статистического анализа. В обзоре описываются данные и модели LD в геноме человека и проводится их сранение с результатами моделирования. Считается, что изменчивость скорости рекомбинации является существенным детерминантом LD у людей
11,12,29–32, этот вопрос также обсуждается. issue. Не обсуждается его значение для демографии и экспериментальные данные о степени PAIRWISE LD, т.ек. эти вопросы недавно обсуждались в др. обзорах
1,4,5,22.
Linkage disequilibrium
Как хорошо известно паттерны LD с шумами и непредсказуемы. Напр., пары сайтов, которые находятся в десятках kilobases др. от др. м. находится в ‘полном’ LD, в то время как соседние пары сайтов той же самой области м. обнаруживать слобое LD. Сходным образом м. обнаруживаться огромные различия в степени LD между одной и др. геномной областью
1,18,33–37. Большая часть этих кажущихся случайностей является предсказуемой в популяционных генетических моделях, которые описывают LD
1,38–40, и некоторые м.б. результатом fine-scale гетерогенности по скорости рекомбинации
11,12,29,30. Популяционная история также оказывает большое влияние на паттерны LD, с помощью факторов, таких как популяционная структура или малые популяционные размеры, ведущие к увеличению LD
1. Напр., постоянно наблюдается, что LD в non-African популяция распространяется на более длинные расстояния, чем в Африканских, это м. отражать популяционное бутылочного горлышко (bottleneck) в то время, когда современные люди впервые покинули Африку
15,17,18,22,41. Сходным образом имеются сообщения о том, что определенные изолированные или с примесями популяции обнаруживают LD, распространяющееся на более длинные расстояния
19,21,42,43 (но в REF. 44 даны противоречащие данные).
Несмотря на кажущуюся сложность наблюдаемых паттернов, в последних исследованиях предполагается, что лежащая в основе структура LD в геноме человека м.б. описана с использованием относительно простого набора, в котором данные разобраны на серии дискретных гаплотипных блоков
31,32,45,46 (BOX 2). Соседние блоки разделены областями многочисленных рекомбинационных событий
30–32. Модель гоаплотипныъх блоков является важным применением для ассоциативного картирования, т.к. она показывает просто и рационально, как выбирать single nucleotide polymorphisms (SNPs) для изучения ассоциаций по большой шкале. Основные гаплотипы в каждом блоке м.б. мечены небольшим количеством ‘haplotype-tagging’ SNPs, которые и будут создавать эффективный механизм для скринига ассоциаций каждой haplotype-block области
32,45,47 (BOX 3). United States National Human Genome Research Institute недавно предпринял большую попытку, названную International HapMap Project,
который имеет целью создать карту LD всего генома и гаплотипных блоков. Целью этого проекта является облегчение широко масштабных association-mapping исследований и
positional-cloning исследований путём каталогизации LD в геноме многих популяций.
Haplotype blocks
В 2001 Daly и др.
31 сообщили, что структура гаплотипа в области в 500-kb хромосомы 5q31 м.б. разбита на серии дискретных гаплотипных блоков, которые имеют размеры в 3–92 kb. Каждый гаплотипный блок соответствует области, в которой имеется немного общих гаплотипов (2–4 на блок), и для которых данные по LD дают мало доказательств рекомбинации. Упомянутые блоки были разделены областями с несколькими inferred событиями рекомбинации. Почти одновременно, Jeffreys et al.
30 сообщили данные о типировании одиночных спермиев, которые показали, что большая часть рекомбинации в области класса II major histocompatability complex (MHC) ограничивается узкими горячими точками рекомбинации. Хотя эти наблюдаения и были ограничены двумя геномными областями, вместе они позволяли предположить интригующую гипотезу, что геном м.б. подразделен на области в высоким LD, которые разделены горячими точками рекомбинации. Затем было опубликовано несколько исследований более масштабных, также показавших, что геном м.б. подразделен на блоки высокого |D'| (BOX 1) или низкого haplotype diversity
32,45,46,48 (BOX 2). 3 из этих исследований сообщили LD данные для маркёров, которые располагаются на хромосоме
19 (REF. 48), 21 (REF. 45) и 22 (REF. 46), соотв., тогда как Gabriel et al.
32 освидетельствовали 51 разных геномных области для в целом ~13 Mb. Эти исследования или использовали PRE-ASCERTAINED SNPS из опубликованных баз данных
32,46,48 , которые ограничивали разрешение в среднем маркерами, разделенными ~5–20 kb или, в случае Patil et al.
45, использовали chip-based ресеквенирование на относительно небольшой выборке из 20 хромосом.
Все эти обследования выявили небольшое количество чрезвычайно длинных гаплотипных блоков. Среди опубликованных работ, самым длинным из найденных блоков явилась область низкой haplotype diversity на хромосоме 22, которая у индивидов, выходцев из Европы (данные Centre d’Etude du Polymorphisme Humain), занимала участок в 804 kb
46. Такие длинные блоки необъяснимы с помощью популяционных генетических моделей с униформными скоростями рекомбинации
1,48,49;
самым простым объяснением является то, что эти длинные области с низкой частотой рекомбинации — это ‘coldspots’ по рекомбинации
46. Помимо этих немногих длинных гаплотипных блоков большинство обнаруженных блоков значиетльно ментьше (5–20 kb). Т.к. размеры этих блоков сходны со средними расстояниями между последовательными маркёрами (за исключением работы Patil et al.
45), то идентификация более мелких блоков находилась за гнаицами разрешения этих исследований. Эти сообщения о гаплотипных блоках вызывали несколько вопросов. Указывают ли эти результаты на то, что большинство рекомбинации в геноме происходит в горячих точках, которые в целом соответствуют границам haplotype-block (или наоборот, что границы гаплотипных блоков являются горячими точками)? До какой степени модель гаплотиповых блоков отражает лежащую в основе структуру LD, в качестве противопоставления существующему
подходящему эвристическому описанию? Наконец, учитывая наблюдаемую структуру LD, какой м.б. наилучшая стратегия для выбора SNPs для ассоциативного картирования (BOX 3)?
Experimental evidence for hotspots
Как уже отмечалось раньше, важным компонентом модели гаплотипных блоков является возможность того, что большая часть рекомбинации в геноме м. происходить в узких горячих точках. Хотя горячие точки рекомбинации повсеместрны у дрожжей
50 , значительно меньше известно о горячих точках у человека и др. животных. Большинство наших знаний об изменчивости скорости рекомбинации у людей получены для очень длинных шкал — обычно для расстояний в centiMorgan или более. Исследователи традиционно подсчитывали скорость рекомбинации путем сравнения физических карт с генетическими картами, полученными в исследованиях родословных
51–53. Имеется колоссальная
изменчивость в скорости рекомбинации в centiMorgan шкале внутри хромосом, между хромосомами, между самцами и самками
51–53. Разрешение в этих исслпедованиях ограничено и количеством мейозов и плотностью маркёров, которые используются для конструкции генетических карт. Среднее расстояние между последовательными маркерами в большинстве аккуратных генетических карт составляет ~600 kb
53. Итак, эти исследования обычно неинформативны об изменчивости в скорости рекомбинации на более коротких шкалах (менее 100 kb), хотя пригоршня небольших областей (менее 20 kb) идентифицирована с помощью этого подхода, как имеющие сильно повышенные скорости рекомбинации
54–56.
Изучение изменчивости скорости рекомбинации в малых шкалах в целом нуждается в изучении многих мейозов, т.к. частота рекомбинации в любом узком интервале низкая. Одним из альтеранативных подходов является подсчет скорости рекомбинации путём генотипирования спермиев
29,30,57–63. Хотя при этом подсчитывается только скорость рекомбинации у самцов (которая м. существенно отличаться от скорости рекомбинации у самок
51,53), однако преимущества исследований по типированию спермиев в том, что они позволяют изучать чрезвычайно большое число мейозов и делают возможным изучение изменчивости скорости рекомбинации в малых шкалах. Некоторые недавние исследования выявили, что рекомбинация обнаруживает тенденцию к кластрированию в горячих точках, которые приблизительно длиной 1–2 kb
29,30,61. Однако, т.к. типирование спермиев трудоёмко и технически затруднительно, лишь немногие области были изучены, а изученные области в целом были теми, для которых уже имелись доказательства рекомбинационных горячих точек.
Определение насколько репрезентативна остальная часть генома в отношщении паттернов изменчивости скорости рекомбинации будет важным направлением будущих исследований.
Мало известно о молекулярных механизмах горячих точек рекомбинации и как быстро они появляются и исчезают в ходе эволюции. Имеются доказательства, что некоторые горячие точки у дрожжей и людей являются аллель-специфичными, hotspot аллели легче инициируют разрывы двойной нити
64,65. Это в конечном итоге ведет к потере hotspot аллеля, это указывает на механизм, с помощью которого горячие точки м.б. потеряны
66. На большой временной шкале скорость рекомбинации м. изменяться существенно: близко родственные виды Drosophila м. иметь разные генетические карты
67, a общая длина карты у бабуина ~20% меньше, чем общая длина карты человека
68. Однако, некоторые исследования обнаружили негативную корреляцию между уровнями LD и скоростями рекомбинации
11,12,29,30,56,61,62,69,
это указывает на то, что изменения скоростей рекомбинации медленны на временной шкале N генераций. В одном исследовании выявлены блоки LD в coldspots, которые были разделены с помощью экспериментально-вызыванных горячих точек рекомбинации
30. Хотя эти паттерны согласны с моделью гаплоидных блоков, но определенные изученные области (MHC class II) являются объектом строгого
diversifying отбора и и необязательно типичны для генома в целом.
Patterns of LD in human data
Трудно сравнивать результаты имеющихся исследований LD непосредственно из-за отличий в дизайне (designs) и ранге методов, использованных для анализа данных (BOX 2). Выборки, которые были рассмотрены, колебались в пределах от одиночной
46,48 до множественных популяций
32,70 или это были одиночные смешанные выборки (см. REF. 45 и Environmental Genome Project (EGP) SNP study), a средние расстояния между соседствующими маркёрами колебались в пределах от менее 1 kb
70 до более 22 kb
46. Более того, большинство из этих исследований описывают наборы широкомассштабных данных и трудно понять, чему эти данные больше соответствуют. По этим причинам авт. использовали данные только трёх больших исследований (REFS 32,70 и данные EGP SNP), чтобы выявить некоторые общие свойства и создать зрительные обобщения многих репрезентативных областей. Эти исследования выбраны ещё частично и потому, что каждое из них предоставляет LD информацию по многим различным регионам. В анализе использовано Gabriel et al.32 block definition (детали в BOX 2).
The data. Согласно данным Gabriel et al.
32 необходимо иметь доступ к SNP генотипам от 50 геномных областей, которые занимают участок в 12.2 Mb, для European-Americans, African-Americans, East Asians and sub-Saharan Africans. Размеры выборок в 4-х популяциях варьировали в пределах 42–58 независимых индивидов, а средняя плотность маркёров находилась в пределах 1 SNP (с минимальной частотой аллелей 0.1) на 6.1–6.7 kb. В Seattle SNP исследовании
70 изучена изменчивость внутри и в соседних генах, которые являются кандидатами на вовлечение в воспалительные заболевания. Авт. проанализировали 85 локусов, которые были загружены с web-сайта University of Washington and Fred Hutchinson Cancer Research Center UW-FHCRC Variation Discovery Resource в October 2002. Эти локусы средние расстояния между маркёрами в 665 bp и покрывали в целом 1.5 Mb последовательностей. Данные были получены в результате ресеквенирования 24 неродственных African-Americans и 23 неродственных
European-Americans
70. Чтобы сдалать размеры выборок более подходящими для сравнения с др. исследованиями, авт. объединили в пул (pooled) все выборки. Результаты являются сходными, если две популяции рассматриваются в отдельности
71. Данные по EGP SNP получены из др. большого исследования по ресеквенированию в лаб. Nickerson в University of Washington. Был получен доступ к 90 локусам из доступного EGP SNPs web сайта в October 2002. Эти локусы занимают последовательность в 1.7 Mb со средними расстояниями между маркёрами в 946 bp. Выборки состоят из 90 неродственных индивидов, различающихся этнически, из DNA Polymorphism Discovery Resource. Вместе эти три исследования представлены разными этническими группами, размерами выборок и плотности маркёров. Рассматривались только сайты с минорной частотой аллелей 0.1 или выше.
Haplotype blocks. Первоначально суммарные данные сводили в таблицы в виде пропорций последовательностей, которые содержатся в гаплотипных блоках разных размеров. Результаты выявили систематические различия в уровнях LD в популяциях и в исследованиях (Рис. 2). В исследовании Gabriel et al.
32 как European-America, так и East Asian выборки имели более обширные гаплотипные блоки, чем
African-American и sub-Saharan African выборки
32
(как уже указывалось ранее), но удивительно, что во всех четырёх популяциях менее половины от всех последовательностей находится в идентифицируемых гаплотипных блоках. Напротив, в двух исследованиях по ресеквенированию, в которых плотность маркёров была выше, больше последовательностей находилось в идентифицируемых гаплотипных блоках. Позднее авт. показали, что плотность маркёров оказывает строгое влияние на способность выявлять малые гаплотипные блоки. Отметим, что пропорция последовательностей, которые содержат длинные блоки в двух исследованиях по ресеквенированию, недооценены из-за ограниченных размеров областей, которые были секвенированы. Этот эффект укорочения был минимальным в данных Gabriel et al.
32, в которых большинство областей было более длинными.
Авт. обработали plots, которые дали значения |D'| для всех пар сайтов в области (репрезентативные plots показаны Рис. 1). Каждая пара маркёров оценивалась как имеющая сильное LD (красное), слабое LD (зеленое) или неясное (серое) (см. BOX 2
и REF. 32). В такого типа рисунке гаплотипные блоки д.б. появляться в виде треугольных областей из красных ( или светло-коричневых) квадратиков, которые располагаются по диагонали. Plots для всех 225 доступны online на Pritchard laboratory web сайте (→ ‘Data Archive’). Эти plots показывают обширную гетерогенность LD внутри областей: области со строгим LD, которые прекрасно соответствуют концепции гаплотипных блоков, часто ограничиваются одинаково большими областями с низмими или отсутствующмим LD. Это становится очевидным, когда паттерны LD сравниваются вдоль множественных локусов. Некоторые области имеют расширенные блоки LD, тогда как др. имеют только изолированные маркёры в строгом LD др. с др. Из этих рисунков ясно, что степень выраженности LD (красные квадратики) ниже в African и African-American выборках, чем в non-Africans. Это не является прямолинейным, чтобы сравнивать исследования по ресеквенированию с данными Gabriel et al., т.к. плотность маркёров различна и исследования по ресеквенированию проводились на выборках смешанной этничности. Моделирование и эксперименты по перенабору выборок показали, что в таких смешанных выборках рассматриваемые характеристики блоков имеют тенденцию быть более сходными с помпуляциями с наинизшим LD (Africans и African-Americans, в данном случае).
Чтобы получить более наглядное представление соответствия гаплотиповых блоков и границ блоков среди разных популяций, авт. строили график (plotted) частей каждой области, которая содержала гаплотипные блоки для каждой из 4-х популяций, изученных Gabriel et al.
32. Результаты для 5 репрезентативных геномных областей показаны на Рис. 3. Как можно было ожидать, имеется обратная корреляция между пропорцией последовательностей, которые содержатся в гаплотипных блоках, и подсчитанными скоростями рекомбинации в REF. 53, с относительно небольшими и малыми блоками, идентифицированными в областях с высокой рекомбинацие (напр., см. Region 53a на Рис. 3). Границы блоков часто располагаются в нужном порядке в популяциях; это, по-видмому, отражает частично общее происхождение популяций человека, но до некоторой степени это м.б. также отражением непрямого эффекта неровного распределения маркёров (сходные рисунки для всех областей доступны на Pritchard laboratory web сайте ‘Data Archive’).
How ‘block-like’ is LD? Принимая во внимание, что любые генотипические данные, которые показывают LD, потенциально м.б. разобраны на гаплотипные блоки
72, то возникает вопрос, до какой степени концепция гаплотипных блоков м. давать естественное описание лежащей в основе структуры LD у людей? Ранее уже были предложены три критерия, чтобы понять, как возникает блок-подобная структура LD
71. Эти критерии измеряют пропорцию последовательностей, которые содержатся в гаплотипных блоках (называемых здесь ‘coverage’), степень, с которой гаплотипные блоки являются внутренне согласующимися (consistent) и степень перекрывания или неопределенности в границах гаплоидных блоков.
Для гаплотипных блоков, чтобы дать подходящее описание LD вдоль области, следует ожидать, что идентифицируемые блоки будут дискретными, соответствующими и будут покрывать большую часть области. Как отмечалось выше, в имеющихся данных гапотипный блок покрывает обычно не много
48 (Рис. 2), но покрытие м.б. потенциально улучшено при использовании маркёров с высокой плотностью (точный уровень haplotype-block coverage зависит также от определения блока). Авт. также нашли средние уровни внутренней несогласованности
71: если рассматривать два маркёра при строгой LD между ними, то существенная фракция маркёров, которые находятся между ними, обнаруживает исторические доказательства рекомбинации
32 с одним из концевых маркёроы (они показаны как зеленые квадратики в областях с красным на Рис. 1). По контрасту авт. нашли, что величина перекрывания или неопределенности между блоками была низкой (однако, исследование с использованием др. методологии приводи к заключению, что неопределенность границ блоков является более серьёзной
73). Взятые все вместе эти результаты указывают на то, что модель гаплотипных блоков м. фиксировать некоторые из выдающихся свойств LD простым и интуитивным образом, но имеются также пределы для разработки более сложных и аккуратных моделей LD, которые м.б. дать большую силу исследованиям ассоциаций и др приложениям (напр., REF. 12).
LD and local recombination rates. Как указывалось выше важным компонентом модели гаплотипных блоков является гипотеза, что большинство рекомбинаций в геноме происходит в узких горячих точках. Для изучения этого вопроса авт. предприняли COALESCENT SIMULATIONS паттернов LD в моделях с и без горячих точке рекомбинации. При проверке модели с горячими точками обнаруживалоь больше соотвествия известным константам средних скоростей рекомбинации (so that the average rate matches pedigree estimates), но этого недостаточно, чтобы предположить, что многие или большинство событий рекомбинации концентрируются в регионах горячих точек. Это указывает на то, что согласно модели горячих точек фоновые скорости рекомбинации — для большинства последовательностей, которые расположены вне горячих точек - будут ниже, чем в среднем по геному, а средняя протяженность LD будет длиннее. Даже для данных, которые получены в модели в отстутствие горячих точек, возможна идентификация гаплотипных блоков
48,71,72, но они будут в целом меньше и будут иметь низкое покрытие (coverage), чем при проверке модели с рекомбинациями в горячих точках. Предыдушие исследования показали, что паттерны LD хромосомы 19 м.б. согласны с моделью униформной рекомбинации в разумных предалах с небольшим избытком больших гаплотипных блоков, указывающих на длинные рекомбинационные холодные точки (coldspots)
48. По контрасту, используя нескольго др. методы (BOX 4), собственное моделировани авт.
71 показало, что модели с рекомбинационными горяими точками существенно лучше согласуются с данными Gabriel et al. data
32. Если посмотреть на пропорцию последовательностей, содержащихся в гаплотипных блоках, и длины распространения гаплотипных блоков, как глобальную меру LD, то выяснится, что больше LD в действительных данных, чем ожидалось согласно модели с отсутствием изменчивости в скорости рекомбинации. Этот результат обнаруживается даже в sub-Saharan African популяциях, которые лучше всего согласуются с простой демографической моделью, используемой для моделирования
15,74. Напротив проверка модели, согласно которой большинство рекомбинации происходит в грячих точках, дает лучшее согласие с наблюдаемыми данными по LD
71. К сходному выводу пришли и Reich et al.
37, используя корреляции величин полиморфизма вдоль генома.
Если это верно, что рекомбинационные горячие точки являются основным свойством генома, тогда естественне вопрос, появляются ли границы между гаплотипными блоками обычно в горячих точках. Чтобы ответить на этот вопрос авт. симулировали даныне с той же самой длиной и средней скоростю рекомбирнации как и в области 23a (REF. 32), в которой средняя скорость рекомбинации (1.05 cM/Mb) наиболее близка к средней геномной. Авт. предожили модель с локальной изменчивостью скоростей рекомбинации, которая обнаруживала хорошее согласие
71 с African данными of Gabriel et al.
32 — 50% всех рекомбинационных событий происходило в горячих точках. В моделировании, где 6 горячих точек приходилось на 175 kb. Для простоты не учитывалась GENE CONVERSION, которая как полагают является важным признаком нарушения паттернов LD
на короткой шкале
15 (см. BOX 4). Необходимо отметить, что т.к. моделирование предназначалось для более тесного сравнения с African данными, то скорее всего гаплотипные блоки у non-Africans будут длиннее и легче обнаружимы, чем в данной модели.
Рис.4 показывает распределение гаплотипных блоков для 4-х разных реплик (replicates) вместе с графиками относительных частот рекомбинации для областей (графики дополнительных replicates доступны online на Pritchard laboratory web сайте). Для каждой реплики, четыре линии соответствут различным designs исследованиям с теми же самыми лежащими в основе данными (описаны в BOX 4 как simulations 1–4). Из этого и др. моделирований
48,71,72 становится ясным, что большинство границ гаплотипных блоков не совпадает с горячими точками, даже если фоновые скорости рекомбинации низки (но не нулевые). Однако, обратное верно более часто: в этих примерах моделирования, строгая горячая точка (самая левая) создает границы блока в каждом случае, тогда как более слабые горячие точки создают границы блоков только иногда. Итак, идентификация границ гаплотипных блоков вряд ли м. служить правильным путём идентификции горячих точек, хотя это м.б. возможным при идентификации их использованием более детального анализа паттернов LD
12.
Моделирование м. также пролить свет на роль различий в оформлении (design) исследований (BOX 4). Некоторые длинные гаплотиповые блоки в моделировании 3 и 4 в BOX 4, которые имели в 8-раз более высокую плотность маркёров, отсутствовали полностью, когда использовали маркёры с редким распределением. В целом в 8 раз большая по размеру выборка увеличивает уровни haplotype-block coverage лишь слегка, тогда как в в 8 раз большая плотность маркёров более чем вдвое увеличивает уровени охвата (coverage) —
это согласуется с результатами реальных данных, предсталвенных на Рис. 2.
Большая часть увеличения такого охвата возникает за счет идентификации более мелких блоков, которые не выявляются при низкой плотности маркеров. BOX 4 показывает, что средние размеры блоков снижаются ~30%, когда плотность маркёров увеличивается в 8 раз
48,71 . Контраст между разными моделированиями в BOX 4 подчеркивает строгие эффекты study design на очевидное согласие с моделью гаплотипных блоков. Даже зная, что в каждой группе 4 линии на Рис. 4 получены при моделирроовани одних и тех же базовых данных, интерпретация структур гаплотипных блоков для этой области будет различной в зависимости от размера выборки и плотности используемых маркёров.
Conclusions
Understanding the structure of LD across the human
genome is a vital task on the road to unravelling the
genetics of complex traits in humans. Interpreting pat-terns
of LD is important both for large-scale association
mapping and for the final stages of positional-cloning
studies. Just a few years ago, there were few empirical
data on the average extent of LD and our best informa-tion
came from simulation studies
9 .Since then, a series
of large empirical studies have greatly augmented our
knowledge of the extent and structure of LD
18,32,45,46,48.
Some of the key observations on the LD patterns are
as follows. First, the average extent of LD in non-African
populations is much greater than in Africans
15,17,18,32.
LD in non-Africans also extends further than expected
from simple models
1,9,15,18 ,which possibly reflects the
impact of a population bottleneck associated with the
founding and spread of fully modern humans from
Africa
17,18,75–77,whereas LD in Africans seems to fit a sim-ple
demographic model more closely
15,71 (it should be
noted that most of these results are based on samples
from just a handful of populations: Europeans, East
Asians, African Americans and two west-African popula-tions).
Second, the level of LD varies a great deal among
different regions of the genome 18,46 .Part of this variabil-ity
can be explained by variation in large-scale recombi-nation
rates derived from genetic maps (see Рис. 3 for example), or other genomic features
18,46 ,but much of the
variability is not yet accounted for. Some of the remaining
variability presumably stems from fine-scale variation in
recombination rates that is not detectable by genetic
maps, and some from the inherent stochastic nature 1 of
LD. Third, all of the large-scale studies have detected
some large blocks of LD (for example, 804 kb 46 ). These
probably reflect large coldspots of recombination (alter-natively,
if it is true that most recombination in the
genome occurs in hotspots, these might be large regions
without hotspots). Fourth, there are a handful of well-characterized
recombination hotspots, especially in the
class-II MHC region 30 , in which most recombination
occurs in just a handful of narrow hotspots. It is not yet
clear whether this region is typical of the genome as a
whole and conclusions drawn from studies of LD are
inconsistent
37,48,71.
This brings us to the question of whether the
haplotype-block model provides a 'good' description
of LD in the human genome? This is not a completely
well-posed question: first, because the idea of haplotype
blocks has been interpreted in many ways
31,32,45,46,48,72,73,78;
and second, as no model is perfect, it is unclear what
represents an acceptable fit between model and data.
Undaunted, we offer the following observations.
One way forward is to define formal criteria that can
be used to decide whether haplotype blocks accurately
describe LD data. One choice of criteria is described
above (see also REF. 71). According to these criteria, the
available data show non-trivial departures from the
haplotype-block model, but they still fit the criteria sub-stantially
better than expected under models of uniform
recombination. Whether the observed departures are
large enough to invalidate the haplotype-block model is
a matter of personal choice.
Application of these criteria provides an overall view
of the structure of LD across many regions. However, this
summary analysis hides the tremendous variability across
loci in the extent and nature of LD. To get a qualitative
view of patterns of LD across the genome, we created pairwise LD plots of all 225 regions in the Gabriel et al.32 ,
Seattle SNP
70 and EGP data sets (see Рис. 1 for examples).
We have found these plots to be extremely valuable for
getting a general sense of LD patterns, and we encourage
readers to scroll through them (available online at the
Pritchard laboratory web site, by following the ‘Data
Archive’ link). What becomes clear from looking at these
plots is that there are some regions that seem to fit the
haplotype-block concept well, and some regions in which
the structure of LD is more complicated and the block
description seems less natural. Another feature of the data
is that in many regions, the overall extent of LD is limited,
so that many or most of the markers are not in identified
haplotype blocks.
So, how do the available data indicate that we should
think about either positional cloning or large-scale associ-ation
studies? Certainly, where there are large and well-defined
haplotype blocks, their presence provides impor-tant
information for mapping studies. In large blocks, a
small number of well-chosen haplotype-tag SNPs can
potentially capture much of the available information
about association across many kilobases47 (of course, the
downside is that within blocks, LD provides no informa-tion
to help localize the actual variants of interest 79 ). But
what of regions in which there are no large well-defined
haplotype blocks? For example, in REF.32, less than half of
the total sequence was assigned to haplotype blocks.
Increasing the marker density would allow much more of
the sequence to be assigned to blocks, but most of the
added blocks would be small (REF. 48; Рис. 4; BOX 4).So,a
mapping strategy that aims to completely cover the
genome by tagging every haplotype block would be
wasteful. Instead, it makes most sense to envision a dual
strategy whereby we use haplotype-tagging SNPs to mark
large haplotype blocks, but elsewhere we need to be more
flexible and make efficient use of multipoint information
with partial LD between markers (BOX 3; REFS 80,81).The
development of analytical methods to do this should be
valuable not only in disease association studies but also in
human evolutionary studies.
Сайт создан в системе
uCoz