Посещений:
Неравновесное сцепление: Гаплотипные Блоки

HAPLOTYPE BLOCKS AND LINKAGE DISEQUILIBRIUM IN THE HUMAN GENOME
Jeffrey D. Wall and Jonathan K. Pritchard (e-mails: jwall@genetics.bsd. uchicago.edu;pritch@uchicago.edu)
NATURE REVIEWS | GENETICS VOLUME 4 | AUGUST 2003 | 595 doi:10.1038/nrg1123

There is great interest in the patterns and extent of linkage disequilibrium (LD) in humans and other species. Characterizing LD is of central importance for gene-mapping studies and can provide insights into the biology of recombination and human demographic history. Here, we review recent developments in this field, including the recently proposed ‘haplotype-block’ model of LD. We describe some of the recent data in detail and compare the observed patterns to those seen in simulations.

BOTTLENECK A temporary reduction in population size that causes the loss of genetic variation.
ADMIXTURE The mixture of two or more genetically distinct populations.
PAI RWI SE LINKAGE DISEQUILIBRIUM (Pairwise LD). The strength of association between alleles at two different markers.
PRE-ASCERTAINED SINGLE NUCLEOTIDE POLYMORPHISMS (Pre-ascertained SNPs). SNPs that have already been detected in previous studies, usually from an extremely small sample of chromosomes.
UNPHASED DIPLOID DATA Sequence data in which the phase of double heterozygotes was not determined.
BAYESIAN APPROACH A statistical approach that, given a set of assumptions about the underlying model, can provide a rigorous assessment of uncertainty.
COALESCENT SIMULATION A method of simulating data under a population genetic model.
ASCERTAINMENT BIAS The bias in patterns of variation that results from using pre-ascertained SNPs.
GENE CONVERSION Recombination that involves the nonreciprocal transfer of information from one sister chromatid to another.



Рис.1.
 |  Pairwise |D'| plots for representative regions from different studies.


Рис.2.
 | The proportion of sequence contained in haplotype blocks of various sizes.


Рис.3.
 | Schematic of the haplotype blocks identified in five genomic regions 32


Рис.4.
 | Schematic of the haplotype blocks found in simulations. The

Табл.1 Simulation results modelled after African data from the Gabriel et al.32 study

Box 1 | Measuring linkage disequilibrium
Many different measures have been proposed for assessing the strength of linkage disequilibrium (LD). Most capture the strength of association between pairs of biallelic sites. Two important pairwise measures of LD are r 2 (sometimes denoted Δ2 ) and |D'| 1,2,82 .Both measures range from 0 (no disequilibrium) to 1 (‘complete’ disequilibrium), but their interpretation is slightly different. |D'| is defined in such a way that it is equal to 1 if just two or three of the possible haplotypes are present, and it is <1 if all four possible haplotypes are present. So, a value of |D'| that is <1 indicates that historical recombination has occurred between two sites 83 (recurrent mutation can also cause |D'| to be <1, but for single nucleotide polymorphisms (SNPs) this is usually regarded as being less likely than recombination). Intermediate values of |D'| are more difficult to interpret (for example, how different is 0.3 from 0.7?), and even in simulations, values of |D'| can be highly variable for pairs of sites that are separated by a given distance 1,38,39 . The measure r 2 represents the statistical correlation between two sites, and takes the value of 1 if only two haplotypes are present. It is arguably the most relevant measure for association mapping, because there is a simple inverse relationship between r 2 and the sample size required to detect association between susceptibility loci and SNPs. For example, suppose that SNP1 is involved in disease susceptibility, but we genotype cases and controls at a nearby site SNP2. Then, to achieve the same power to detect association at SNP2 as we would have at SNP1, we need to increase our sample size by a factor of 1/r 2 (REFS 1,70). These measures are defined for pairs of sites, but for some applications we might instead want to measure how strong LD is across an entire region that contains many polymorphic sites . for example, for testing whether the strength of LD differs significantly among loci or across populations, or whether there is more or less LD in a region than predicted under a particular model. Measuring LD across a region is not straightforward, but one approach is to use the measure ρ ,which was developed in population genetics 1,84,85 .Roughly speaking, ρ measures how much recombination would be required under a particular population model to generate the LD that is seen in the data. The development of methods for estimating ρ is now an active research area 12,39,85.90 . This type of method can potentially also provide a statistically rigorous approach to the problem of determining whether LD data provide evidence for the presence of hotspots 12 .

Box 2 | Definitions of haplotype blocks
A range of methods have been proposed for defining haplotype blocks. Broadly speaking, they can be classified into two main groups: those that define blocks as regions with limited haplotype diversity 31,45,46,91 and those that make use of pairwise disequilibrium (for example, based on |D'|) to identify transition zones in which there is evidence for extensive historical recombination 32,48,72,78 . The details of the proposed algorithms differ from study to study, which makes the comparison of results from different studies challenging. As examples, we describe one particular definition of each type. The first, from Patil et al.45,91,92 ,defines a haplotype block as a region in which a fraction ‘α’ or more of all the observed haplotypes are represented at least n times in the sample. So, for example, Patil et al.45 required that in haplotype blocks, at least 80% of the observed haplotypes should be observed two or more times. Clearly, given this rule, there might be many possible ways of dividing the data into blocks. Patil et al. used the criterion that (roughly speaking) block boundaries should be defined in a way that minimizes the number of single nucleotide polymorphisms (SNPs) that are required to identify all the haplotypes in a region; Zhang et al.91 have provided an efficient algorithm for doing this. A different block definition was proposed by Gabriel et al.32 .The authors focused on |D| and defined haplotype blocks as sets of consecutive sites between which there is little or no evidence of historical recombination. More specifically, for each pair of sites, the data are used to construct a confidence interval on the population value of |D'|. This procedure approximately accounts for the uncertainty owing to finite sample size and UNPHASED DIPLOID DATA, and has the effect of substantially smoothing the estimates of |D'|, which are normally noisy (see REF. 93 for a BAYESIAN APPROACH to the same problem). Values of |D'| are divided into three categories: strong LD (|D'| near 1, which implies little or no evidence of historical recombination); weak LD (|D'| significantly <1, which implies historical recombination); and intermediate/unknown LD. The third category includes pairs of sites with intermediate values of |D'|, as well as pairs for which the confidence intervals are relatively wide. Two or more sites can be grouped together into a block if the outermost pair of sites is in strong LD, and if, for all pairwise comparisons in the block, the number of pairs in strong LD is at least 19-fold greater than the number of pairs in weak LD (for a full version of the original definition, see REF. 32). The authors sought to validate this definition by looking at the properties of sites that were not used to build the blocks, and observed that in blocks, the LD between such sites did not depend on distance. These criteria do not produce a unique assignment of sites to blocks, but in practice the fraction of ambiguous block boundaries is relatively low 71 . Although both approaches have their merits, we prefer the second for several reasons: first, using D' focuses attention directly on the issue of detecting historical recombination, which seems to be central to the concept of haplotype blocks; second, the pairwise methods are more easily applied to diploid genotype data in which haplotype phase is unknown; and third, it is easy to visualize the pairwise disequilibrium coefficients (examples are shown in Рис. 1).

Box 3 | Haplotype blocks and association mapping
The haplotype-block model immediately points to a relatively simple approach to designing mapping studies. First, the main haplotypes could be identified in each haplotype block, followed by the determination of the smallest set of single nucleotide polymorphisms (SNPs) that is needed to distinguish among these haplotypes (the haplotype-tagging SNPs)32,47,92 .It would then be possible to scan across the region of interest by doing a chi-square test of association in each haplotype block, to test for association between phenotype and haplotype status. Gabriel et al.32 estimated that approximately 300,000 and 1,000,000 SNPs would be required to scan the genome in non-African and African populations, respectively, by this approach — an estimate that is surprisingly similar to the theoretical estimate made by Kruglyak in 1999 (REF. 9). Although this chi-square approach is appealing in its simplicity, it is not clear that this is either the most efficient or powerful statistical approach to the problem. In effect, this approach treats each haplotype block as independent, but in practice there might be substantial (although incomplete) LD from one block to the next 31 .Ifthis is the case, further information about the relationships among chromosomes at one position can potentially be gleaned from the relationships among SNPs in neighbouring blocks 94 . Effective use of information from neighbouring blocks might be of particular value for identifying risk alleles that are at modest frequencies (for example, 1–10%), or loci at which there is modest allelic heterogeneity 95,96 .There is a concern that association mapping with haplotype-tag SNPs will have relatively low power to detect low frequency variants 3 .However, such variants are likely to be young, and hence might lie in conserved haplotypes that extend across several haplotype blocks. One potential signal of such risk alleles might be extended multi-block haplotypes that are shared among affected individuals more than among controls. So far, no methods have been published that can make systematic use of this type of information, and there is a need for new statistical techniques in this area. Finally, it is clear that to some extent haplotype blocks are a double-edged sword. Large discrete blocks are a bonus in detecting association (the first phase of association mapping), but once a locus of interest has been narrowed down to a single large haplotype block, the patterns of LD might provide no further information about the actual location of disease variant(s)79 .One possible approach is to first detect association in non-African populations, and then perform fine-mapping in African (or African-American) populations in which LD decays much faster 18,32 , assuming that the same disease loci are polymorphic in both groups.

Box 4 | The effects of study design on haplotype-block patterns
To explore the effect of study design on observed haplotype-block patterns, we ran simulations that were comparable to the Gabriel et al.32 data from sub-Saharan Africa. We chose a model in which the proportion of sequence contained in haplotype blocks roughly matched the proportion in the actual data (small n,small Θ in table below). Using the coalescent with recombination 97 , and assuming a population size of N= 104 ,we simulated 100 replicates of all 50 regions with n = 58 unphased diploids (the same sample size as the sub-Saharan African data from Gabriel et al.) in which the mutation parameter Θ was set to 7.84 Ѓ~10 .5 per bp (chosen to produce, on average, one marker with a minor allele frequency of 0.1 per 6.5 kb, as in the actual data). We also ran simulations with an eight-fold greater sample size (large n,small Θ ), an eight-fold greater marker density (small n,large Θ ), and both an eight-fold greater sample size and marker density (large n,large Θ ). The marker density with large Θ is less than (but close to) the theoretical maximum marker density that could be obtained by complete resequencing. The underlying simulated genealogies were identical for all four study designs. The average recombination rate for each region was estimated from REF. 53, but the local recombination rate varied across the sequence 12,71 so that ~50% of all recombination events happened in randomly distributed 1-kb hotspots. For the table below, all hotspots were of equal intensity, but rates for Рис. 4 were drawn from an exponential distribution. For all simulations, there was an average of one hotspot per 30 kb. To model ASCERTAINMENT BIAS,we only considered polymorphisms that segregated in the first eight chromosomes. With this model, the marker-allele frequencies in the simulations match the actual marker-allele frequencies reasonably well 71 . this is important because different ascertainment schemes can produce different estimates of linkage disequilibrium (LD)98 . We also explored the effect of local variation in the recombination rate on block patterns by running simulations similar to those above, but with uniform recombination rates for each region. These simulations still incorporated variation in recombination rates between regions. Simulation results, averaged across all replicates and all regions, are summarized in the table. We present the range of the middle 90% of simulation replicates for the average marker spacing, sequence coverage, average haplotype-block size and largest haplotype-block size. The values from the actual data are given for comparison. Simulations with uniform recombination rates produce fewer (and shorter) haplotype blocks than are seen in the actual data. Similarly, levels of LD are higher in the actual data than expected under a model with no local variation in recombination rates. As discussed in the text, hotspot models produce more extensive LD (for example, longer haplotype blocks and greater sequence coverage) than comparable uniform recombination models.
Linkage disequilibrium (LD) фактически обозначает то, что определенные аллели в близлежащих сайтах м. появляться вместе в одном и том же гаплотипе более часто, чем это м. ожидать при случайном их появлении1–5 (BOX 1). LD имеет фундаментальное значение для картирования генов, поэтому оно используется при позиционном клонировании, чтобы проследить изменчивость, которая продуцируется сигналом сцепления (linkage signal)6,7 и при изучении ассоциаций, в которых варианты болезни м.б. выявлены благодаря наличию ассоциации соседствующих сайтов8–10. Паттерны LD м.б. также использованы для заключения о распределении событий кроссинговера в короткой шкале, которые трудны для экспериментального изучения11,12, и для изучения конверсии генов, о которых имееются лишь немногочисленные экспериментальные данные у любого вида животного13–16. Наконец, паттерны LD важны для распутывания эволюционной истории человека, которая включает идентификацию демографических эффектов, таких как рост, BOTTLENECKS и ADMIXTURE популяций15,17–23, и для выявления естественного отбора24–26 .
В обзоре основное внимание уделяется последним данным о пространственной структуре LD и ее использования для ассоциативного картирования (association mapping). При ассоциативном картировании целью является идентификация генетических вариантов, которые увеличивают чувствительность к болезням (or other phenotype of interest), и появляются , следовательно, с более высокими частотами у затронутых индивидов по сравнению с контролем10. При определенных предположениях, теоретические аргументы указывают на то, что ассоциативное картирование по всему геному м.б. мощным подходом для для идентификации вариантов, которые вносят вклад в сложные признаки27,28. В настоящее время считается, что генотипирование всех широко распространённых вариантов в геноме будет чрезвычайно дорогостоящим. Однако, т.к. генотипы по близлежащим маркерам обычно скоррелированы (т.е., находятся в LD), то м. оказаться возможным сканирование генома с использованием значительно меньшего набора маркёров, лишь с незначительной потерей эффективности8. Чтобы предложить исследования, пригодные для этой цели, необходимо детально знать структуру и степень неравновесного сцепления по всему геному, и чтобы выбрать набор пригодных маркёров и чтобы подобрать мощные методы статистического анализа. В обзоре описываются данные и модели LD в геноме человека и проводится их сранение с результатами моделирования. Считается, что изменчивость скорости рекомбинации является существенным детерминантом LD у людей11,12,29–32, этот вопрос также обсуждается. issue. Не обсуждается его значение для демографии и экспериментальные данные о степени PAIRWISE LD, т.ек. эти вопросы недавно обсуждались в др. обзорах1,4,5,22.

Linkage disequilibrium


Как хорошо известно паттерны LD с шумами и непредсказуемы. Напр., пары сайтов, которые находятся в десятках kilobases др. от др. м. находится в ‘полном’ LD, в то время как соседние пары сайтов той же самой области м. обнаруживать слобое LD. Сходным образом м. обнаруживаться огромные различия в степени LD между одной и др. геномной областью1,18,33–37. Большая часть этих кажущихся случайностей является предсказуемой в популяционных генетических моделях, которые описывают LD1,38–40, и некоторые м.б. результатом fine-scale гетерогенности по скорости рекомбинации11,12,29,30. Популяционная история также оказывает большое влияние на паттерны LD, с помощью факторов, таких как популяционная структура или малые популяционные размеры, ведущие к увеличению LD1. Напр., постоянно наблюдается, что LD в non-African популяция распространяется на более длинные расстояния, чем в Африканских, это м. отражать популяционное бутылочного горлышко (bottleneck) в то время, когда современные люди впервые покинули Африку15,17,18,22,41. Сходным образом имеются сообщения о том, что определенные изолированные или с примесями популяции обнаруживают LD, распространяющееся на более длинные расстояния19,21,42,43 (но в REF. 44 даны противоречащие данные).
Несмотря на кажущуюся сложность наблюдаемых паттернов, в последних исследованиях предполагается, что лежащая в основе структура LD в геноме человека м.б. описана с использованием относительно простого набора, в котором данные разобраны на серии дискретных гаплотипных блоков31,32,45,46 (BOX 2). Соседние блоки разделены областями многочисленных рекомбинационных событий30–32. Модель гоаплотипныъх блоков является важным применением для ассоциативного картирования, т.к. она показывает просто и рационально, как выбирать single nucleotide polymorphisms (SNPs) для изучения ассоциаций по большой шкале. Основные гаплотипы в каждом блоке м.б. мечены небольшим количеством ‘haplotype-tagging’ SNPs, которые и будут создавать эффективный механизм для скринига ассоциаций каждой haplotype-block области32,45,47 (BOX 3). United States National Human Genome Research Institute недавно предпринял большую попытку, названную International HapMap Project, который имеет целью создать карту LD всего генома и гаплотипных блоков. Целью этого проекта является облегчение широко масштабных association-mapping исследований и positional-cloning исследований путём каталогизации LD в геноме многих популяций.

Haplotype blocks


В 2001 Daly и др.31 сообщили, что структура гаплотипа в области в 500-kb хромосомы 5q31 м.б. разбита на серии дискретных гаплотипных блоков, которые имеют размеры в 3–92 kb. Каждый гаплотипный блок соответствует области, в которой имеется немного общих гаплотипов (2–4 на блок), и для которых данные по LD дают мало доказательств рекомбинации. Упомянутые блоки были разделены областями с несколькими inferred событиями рекомбинации. Почти одновременно, Jeffreys et al.30 сообщили данные о типировании одиночных спермиев, которые показали, что большая часть рекомбинации в области класса II major histocompatability complex (MHC) ограничивается узкими горячими точками рекомбинации. Хотя эти наблюдаения и были ограничены двумя геномными областями, вместе они позволяли предположить интригующую гипотезу, что геном м.б. подразделен на области в высоким LD, которые разделены горячими точками рекомбинации. Затем было опубликовано несколько исследований более масштабных, также показавших, что геном м.б. подразделен на блоки высокого |D'| (BOX 1) или низкого haplotype diversity32,45,46,48 (BOX 2). 3 из этих исследований сообщили LD данные для маркёров, которые располагаются на хромосоме 19 (REF. 48), 21 (REF. 45) и 22 (REF. 46), соотв., тогда как Gabriel et al.32 освидетельствовали 51 разных геномных области для в целом ~13 Mb. Эти исследования или использовали PRE-ASCERTAINED SNPS из опубликованных баз данных32,46,48 , которые ограничивали разрешение в среднем маркерами, разделенными ~5–20 kb или, в случае Patil et al.45, использовали chip-based ресеквенирование на относительно небольшой выборке из 20 хромосом.
Все эти обследования выявили небольшое количество чрезвычайно длинных гаплотипных блоков. Среди опубликованных работ, самым длинным из найденных блоков явилась область низкой haplotype diversity на хромосоме 22, которая у индивидов, выходцев из Европы (данные Centre d’Etude du Polymorphisme Humain), занимала участок в 804 kb46. Такие длинные блоки необъяснимы с помощью популяционных генетических моделей с униформными скоростями рекомбинации1,48,49; самым простым объяснением является то, что эти длинные области с низкой частотой рекомбинации — это ‘coldspots’ по рекомбинации46. Помимо этих немногих длинных гаплотипных блоков большинство обнаруженных блоков значиетльно ментьше (5–20 kb). Т.к. размеры этих блоков сходны со средними расстояниями между последовательными маркёрами (за исключением работы Patil et al.45), то идентификация более мелких блоков находилась за гнаицами разрешения этих исследований. Эти сообщения о гаплотипных блоках вызывали несколько вопросов. Указывают ли эти результаты на то, что большинство рекомбинации в геноме происходит в горячих точках, которые в целом соответствуют границам haplotype-block (или наоборот, что границы гаплотипных блоков являются горячими точками)? До какой степени модель гаплотиповых блоков отражает лежащую в основе структуру LD, в качестве противопоставления существующему подходящему эвристическому описанию? Наконец, учитывая наблюдаемую структуру LD, какой м.б. наилучшая стратегия для выбора SNPs для ассоциативного картирования (BOX 3)?

Experimental evidence for hotspots


Как уже отмечалось раньше, важным компонентом модели гаплотипных блоков является возможность того, что большая часть рекомбинации в геноме м. происходить в узких горячих точках. Хотя горячие точки рекомбинации повсеместрны у дрожжей50 , значительно меньше известно о горячих точках у человека и др. животных. Большинство наших знаний об изменчивости скорости рекомбинации у людей получены для очень длинных шкал — обычно для расстояний в centiMorgan или более. Исследователи традиционно подсчитывали скорость рекомбинации путем сравнения физических карт с генетическими картами, полученными в исследованиях родословных51–53. Имеется колоссальная изменчивость в скорости рекомбинации в centiMorgan шкале внутри хромосом, между хромосомами, между самцами и самками51–53. Разрешение в этих исслпедованиях ограничено и количеством мейозов и плотностью маркёров, которые используются для конструкции генетических карт. Среднее расстояние между последовательными маркерами в большинстве аккуратных генетических карт составляет ~600 kb53. Итак, эти исследования обычно неинформативны об изменчивости в скорости рекомбинации на более коротких шкалах (менее 100 kb), хотя пригоршня небольших областей (менее 20 kb) идентифицирована с помощью этого подхода, как имеющие сильно повышенные скорости рекомбинации54–56.
Изучение изменчивости скорости рекомбинации в малых шкалах в целом нуждается в изучении многих мейозов, т.к. частота рекомбинации в любом узком интервале низкая. Одним из альтеранативных подходов является подсчет скорости рекомбинации путём генотипирования спермиев29,30,57–63. Хотя при этом подсчитывается только скорость рекомбинации у самцов (которая м. существенно отличаться от скорости рекомбинации у самок51,53), однако преимущества исследований по типированию спермиев в том, что они позволяют изучать чрезвычайно большое число мейозов и делают возможным изучение изменчивости скорости рекомбинации в малых шкалах. Некоторые недавние исследования выявили, что рекомбинация обнаруживает тенденцию к кластрированию в горячих точках, которые приблизительно длиной 1–2 kb29,30,61. Однако, т.к. типирование спермиев трудоёмко и технически затруднительно, лишь немногие области были изучены, а изученные области в целом были теми, для которых уже имелись доказательства рекомбинационных горячих точек.
Определение насколько репрезентативна остальная часть генома в отношщении паттернов изменчивости скорости рекомбинации будет важным направлением будущих исследований.
Мало известно о молекулярных механизмах горячих точек рекомбинации и как быстро они появляются и исчезают в ходе эволюции. Имеются доказательства, что некоторые горячие точки у дрожжей и людей являются аллель-специфичными, hotspot аллели легче инициируют разрывы двойной нити64,65. Это в конечном итоге ведет к потере hotspot аллеля, это указывает на механизм, с помощью которого горячие точки м.б. потеряны66. На большой временной шкале скорость рекомбинации м. изменяться существенно: близко родственные виды Drosophila м. иметь разные генетические карты67, a общая длина карты у бабуина ~20% меньше, чем общая длина карты человека68. Однако, некоторые исследования обнаружили негативную корреляцию между уровнями LD и скоростями рекомбинации11,12,29,30,56,61,62,69, это указывает на то, что изменения скоростей рекомбинации медленны на временной шкале N генераций. В одном исследовании выявлены блоки LD в coldspots, которые были разделены с помощью экспериментально-вызыванных горячих точек рекомбинации30. Хотя эти паттерны согласны с моделью гаплоидных блоков, но определенные изученные области (MHC class II) являются объектом строгого diversifying отбора и и необязательно типичны для генома в целом.

Patterns of LD in human data


Трудно сравнивать результаты имеющихся исследований LD непосредственно из-за отличий в дизайне (designs) и ранге методов, использованных для анализа данных (BOX 2). Выборки, которые были рассмотрены, колебались в пределах от одиночной46,48 до множественных популяций32,70 или это были одиночные смешанные выборки (см. REF. 45 и Environmental Genome Project (EGP) SNP study), a средние расстояния между соседствующими маркёрами колебались в пределах от менее 1 kb70 до более 22 kb46. Более того, большинство из этих исследований описывают наборы широкомассштабных данных и трудно понять, чему эти данные больше соответствуют. По этим причинам авт. использовали данные только трёх больших исследований (REFS 32,70 и данные EGP SNP), чтобы выявить некоторые общие свойства и создать зрительные обобщения многих репрезентативных областей. Эти исследования выбраны ещё частично и потому, что каждое из них предоставляет LD информацию по многим различным регионам. В анализе использовано Gabriel et al.32 block definition (детали в BOX 2).

The data. Согласно данным Gabriel et al.32 необходимо иметь доступ к SNP генотипам от 50 геномных областей, которые занимают участок в 12.2 Mb, для European-Americans, African-Americans, East Asians and sub-Saharan Africans. Размеры выборок в 4-х популяциях варьировали в пределах 42–58 независимых индивидов, а средняя плотность маркёров находилась в пределах 1 SNP (с минимальной частотой аллелей 0.1) на 6.1–6.7 kb. В Seattle SNP исследовании70 изучена изменчивость внутри и в соседних генах, которые являются кандидатами на вовлечение в воспалительные заболевания. Авт. проанализировали 85 локусов, которые были загружены с web-сайта University of Washington and Fred Hutchinson Cancer Research Center UW-FHCRC Variation Discovery Resource в October 2002. Эти локусы средние расстояния между маркёрами в 665 bp и покрывали в целом 1.5 Mb последовательностей. Данные были получены в результате ресеквенирования 24 неродственных African-Americans и 23 неродственных European-Americans70. Чтобы сдалать размеры выборок более подходящими для сравнения с др. исследованиями, авт. объединили в пул (pooled) все выборки. Результаты являются сходными, если две популяции рассматриваются в отдельности71. Данные по EGP SNP получены из др. большого исследования по ресеквенированию в лаб. Nickerson в University of Washington. Был получен доступ к 90 локусам из доступного EGP SNPs web сайта в October 2002. Эти локусы занимают последовательность в 1.7 Mb со средними расстояниями между маркёрами в 946 bp. Выборки состоят из 90 неродственных индивидов, различающихся этнически, из DNA Polymorphism Discovery Resource. Вместе эти три исследования представлены разными этническими группами, размерами выборок и плотности маркёров. Рассматривались только сайты с минорной частотой аллелей 0.1 или выше.

Haplotype blocks. Первоначально суммарные данные сводили в таблицы в виде пропорций последовательностей, которые содержатся в гаплотипных блоках разных размеров. Результаты выявили систематические различия в уровнях LD в популяциях и в исследованиях (Рис. 2). В исследовании Gabriel et al.32 как European-America, так и East Asian выборки имели более обширные гаплотипные блоки, чем African-American и sub-Saharan African выборки32 (как уже указывалось ранее), но удивительно, что во всех четырёх популяциях менее половины от всех последовательностей находится в идентифицируемых гаплотипных блоках. Напротив, в двух исследованиях по ресеквенированию, в которых плотность маркёров была выше, больше последовательностей находилось в идентифицируемых гаплотипных блоках. Позднее авт. показали, что плотность маркёров оказывает строгое влияние на способность выявлять малые гаплотипные блоки. Отметим, что пропорция последовательностей, которые содержат длинные блоки в двух исследованиях по ресеквенированию, недооценены из-за ограниченных размеров областей, которые были секвенированы. Этот эффект укорочения был минимальным в данных Gabriel et al.32, в которых большинство областей было более длинными.
Авт. обработали plots, которые дали значения |D'| для всех пар сайтов в области (репрезентативные plots показаны Рис. 1). Каждая пара маркёров оценивалась как имеющая сильное LD (красное), слабое LD (зеленое) или неясное (серое) (см. BOX 2 и REF. 32). В такого типа рисунке гаплотипные блоки д.б. появляться в виде треугольных областей из красных ( или светло-коричневых) квадратиков, которые располагаются по диагонали. Plots для всех 225 доступны online на Pritchard laboratory web сайте (→ ‘Data Archive’). Эти plots показывают обширную гетерогенность LD внутри областей: области со строгим LD, которые прекрасно соответствуют концепции гаплотипных блоков, часто ограничиваются одинаково большими областями с низмими или отсутствующмим LD. Это становится очевидным, когда паттерны LD сравниваются вдоль множественных локусов. Некоторые области имеют расширенные блоки LD, тогда как др. имеют только изолированные маркёры в строгом LD др. с др. Из этих рисунков ясно, что степень выраженности LD (красные квадратики) ниже в African и African-American выборках, чем в non-Africans. Это не является прямолинейным, чтобы сравнивать исследования по ресеквенированию с данными Gabriel et al., т.к. плотность маркёров различна и исследования по ресеквенированию проводились на выборках смешанной этничности. Моделирование и эксперименты по перенабору выборок показали, что в таких смешанных выборках рассматриваемые характеристики блоков имеют тенденцию быть более сходными с помпуляциями с наинизшим LD (Africans и African-Americans, в данном случае). Чтобы получить более наглядное представление соответствия гаплотиповых блоков и границ блоков среди разных популяций, авт. строили график (plotted) частей каждой области, которая содержала гаплотипные блоки для каждой из 4-х популяций, изученных Gabriel et al.32. Результаты для 5 репрезентативных геномных областей показаны на Рис. 3. Как можно было ожидать, имеется обратная корреляция между пропорцией последовательностей, которые содержатся в гаплотипных блоках, и подсчитанными скоростями рекомбинации в REF. 53, с относительно небольшими и малыми блоками, идентифицированными в областях с высокой рекомбинацие (напр., см. Region 53a на Рис. 3). Границы блоков часто располагаются в нужном порядке в популяциях; это, по-видмому, отражает частично общее происхождение популяций человека, но до некоторой степени это м.б. также отражением непрямого эффекта неровного распределения маркёров (сходные рисунки для всех областей доступны на Pritchard laboratory web сайте ‘Data Archive’).

How ‘block-like’ is LD? Принимая во внимание, что любые генотипические данные, которые показывают LD, потенциально м.б. разобраны на гаплотипные блоки72, то возникает вопрос, до какой степени концепция гаплотипных блоков м. давать естественное описание лежащей в основе структуры LD у людей? Ранее уже были предложены три критерия, чтобы понять, как возникает блок-подобная структура LD71. Эти критерии измеряют пропорцию последовательностей, которые содержатся в гаплотипных блоках (называемых здесь ‘coverage’), степень, с которой гаплотипные блоки являются внутренне согласующимися (consistent) и степень перекрывания или неопределенности в границах гаплоидных блоков.
Для гаплотипных блоков, чтобы дать подходящее описание LD вдоль области, следует ожидать, что идентифицируемые блоки будут дискретными, соответствующими и будут покрывать большую часть области. Как отмечалось выше, в имеющихся данных гапотипный блок покрывает обычно не много48 (Рис. 2), но покрытие м.б. потенциально улучшено при использовании маркёров с высокой плотностью (точный уровень haplotype-block coverage зависит также от определения блока). Авт. также нашли средние уровни внутренней несогласованности71: если рассматривать два маркёра при строгой LD между ними, то существенная фракция маркёров, которые находятся между ними, обнаруживает исторические доказательства рекомбинации32 с одним из концевых маркёроы (они показаны как зеленые квадратики в областях с красным на Рис. 1). По контрасту авт. нашли, что величина перекрывания или неопределенности между блоками была низкой (однако, исследование с использованием др. методологии приводи к заключению, что неопределенность границ блоков является более серьёзной73). Взятые все вместе эти результаты указывают на то, что модель гаплотипных блоков м. фиксировать некоторые из выдающихся свойств LD простым и интуитивным образом, но имеются также пределы для разработки более сложных и аккуратных моделей LD, которые м.б. дать большую силу исследованиям ассоциаций и др приложениям (напр., REF. 12).

LD and local recombination rates. Как указывалось выше важным компонентом модели гаплотипных блоков является гипотеза, что большинство рекомбинаций в геноме происходит в узких горячих точках. Для изучения этого вопроса авт. предприняли COALESCENT SIMULATIONS паттернов LD в моделях с и без горячих точке рекомбинации. При проверке модели с горячими точками обнаруживалоь больше соотвествия известным константам средних скоростей рекомбинации (so that the average rate matches pedigree estimates), но этого недостаточно, чтобы предположить, что многие или большинство событий рекомбинации концентрируются в регионах горячих точек. Это указывает на то, что согласно модели горячих точек фоновые скорости рекомбинации — для большинства последовательностей, которые расположены вне горячих точек - будут ниже, чем в среднем по геному, а средняя протяженность LD будет длиннее. Даже для данных, которые получены в модели в отстутствие горячих точек, возможна идентификация гаплотипных блоков48,71,72, но они будут в целом меньше и будут иметь низкое покрытие (coverage), чем при проверке модели с рекомбинациями в горячих точках. Предыдушие исследования показали, что паттерны LD хромосомы 19 м.б. согласны с моделью униформной рекомбинации в разумных предалах с небольшим избытком больших гаплотипных блоков, указывающих на длинные рекомбинационные холодные точки (coldspots)48. По контрасту, используя нескольго др. методы (BOX 4), собственное моделировани авт.71 показало, что модели с рекомбинационными горяими точками существенно лучше согласуются с данными Gabriel et al. data32. Если посмотреть на пропорцию последовательностей, содержащихся в гаплотипных блоках, и длины распространения гаплотипных блоков, как глобальную меру LD, то выяснится, что больше LD в действительных данных, чем ожидалось согласно модели с отсутствием изменчивости в скорости рекомбинации. Этот результат обнаруживается даже в sub-Saharan African популяциях, которые лучше всего согласуются с простой демографической моделью, используемой для моделирования15,74. Напротив проверка модели, согласно которой большинство рекомбинации происходит в грячих точках, дает лучшее согласие с наблюдаемыми данными по LD71. К сходному выводу пришли и Reich et al.37, используя корреляции величин полиморфизма вдоль генома.
Если это верно, что рекомбинационные горячие точки являются основным свойством генома, тогда естественне вопрос, появляются ли границы между гаплотипными блоками обычно в горячих точках. Чтобы ответить на этот вопрос авт. симулировали даныне с той же самой длиной и средней скоростю рекомбирнации как и в области 23a (REF. 32), в которой средняя скорость рекомбинации (1.05 cM/Mb) наиболее близка к средней геномной. Авт. предожили модель с локальной изменчивостью скоростей рекомбинации, которая обнаруживала хорошее согласие71 с African данными of Gabriel et al.32 — 50% всех рекомбинационных событий происходило в горячих точках. В моделировании, где 6 горячих точек приходилось на 175 kb. Для простоты не учитывалась GENE CONVERSION, которая как полагают является важным признаком нарушения паттернов LD на короткой шкале15 (см. BOX 4). Необходимо отметить, что т.к. моделирование предназначалось для более тесного сравнения с African данными, то скорее всего гаплотипные блоки у non-Africans будут длиннее и легче обнаружимы, чем в данной модели.
Рис.4 показывает распределение гаплотипных блоков для 4-х разных реплик (replicates) вместе с графиками относительных частот рекомбинации для областей (графики дополнительных replicates доступны online на Pritchard laboratory web сайте). Для каждой реплики, четыре линии соответствут различным designs исследованиям с теми же самыми лежащими в основе данными (описаны в BOX 4 как simulations 1–4). Из этого и др. моделирований48,71,72 становится ясным, что большинство границ гаплотипных блоков не совпадает с горячими точками, даже если фоновые скорости рекомбинации низки (но не нулевые). Однако, обратное верно более часто: в этих примерах моделирования, строгая горячая точка (самая левая) создает границы блока в каждом случае, тогда как более слабые горячие точки создают границы блоков только иногда. Итак, идентификация границ гаплотипных блоков вряд ли м. служить правильным путём идентификции горячих точек, хотя это м.б. возможным при идентификации их использованием более детального анализа паттернов LD12.
Моделирование м. также пролить свет на роль различий в оформлении (design) исследований (BOX 4). Некоторые длинные гаплотиповые блоки в моделировании 3 и 4 в BOX 4, которые имели в 8-раз более высокую плотность маркёров, отсутствовали полностью, когда использовали маркёры с редким распределением. В целом в 8 раз большая по размеру выборка увеличивает уровни haplotype-block coverage лишь слегка, тогда как в в 8 раз большая плотность маркёров более чем вдвое увеличивает уровени охвата (coverage) — это согласуется с результатами реальных данных, предсталвенных на Рис. 2. Большая часть увеличения такого охвата возникает за счет идентификации более мелких блоков, которые не выявляются при низкой плотности маркеров. BOX 4 показывает, что средние размеры блоков снижаются ~30%, когда плотность маркёров увеличивается в 8 раз48,71 . Контраст между разными моделированиями в BOX 4 подчеркивает строгие эффекты study design на очевидное согласие с моделью гаплотипных блоков. Даже зная, что в каждой группе 4 линии на Рис. 4 получены при моделирроовани одних и тех же базовых данных, интерпретация структур гаплотипных блоков для этой области будет различной в зависимости от размера выборки и плотности используемых маркёров.

Conclusions


Understanding the structure of LD across the human genome is a vital task on the road to unravelling the genetics of complex traits in humans. Interpreting pat-terns of LD is important both for large-scale association mapping and for the final stages of positional-cloning studies. Just a few years ago, there were few empirical data on the average extent of LD and our best informa-tion came from simulation studies9 .Since then, a series of large empirical studies have greatly augmented our knowledge of the extent and structure of LD18,32,45,46,48. Some of the key observations on the LD patterns are as follows. First, the average extent of LD in non-African populations is much greater than in Africans15,17,18,32. LD in non-Africans also extends further than expected from simple models1,9,15,18 ,which possibly reflects the impact of a population bottleneck associated with the founding and spread of fully modern humans from Africa17,18,75–77,whereas LD in Africans seems to fit a sim-ple demographic model more closely15,71 (it should be noted that most of these results are based on samples from just a handful of populations: Europeans, East Asians, African Americans and two west-African popula-tions). Second, the level of LD varies a great deal among different regions of the genome 18,46 .Part of this variabil-ity can be explained by variation in large-scale recombi-nation rates derived from genetic maps (see Рис. 3 for example), or other genomic features 18,46 ,but much of the variability is not yet accounted for. Some of the remaining variability presumably stems from fine-scale variation in recombination rates that is not detectable by genetic maps, and some from the inherent stochastic nature 1 of LD. Third, all of the large-scale studies have detected some large blocks of LD (for example, 804 kb 46 ). These probably reflect large coldspots of recombination (alter-natively, if it is true that most recombination in the genome occurs in hotspots, these might be large regions without hotspots). Fourth, there are a handful of well-characterized recombination hotspots, especially in the class-II MHC region 30 , in which most recombination occurs in just a handful of narrow hotspots. It is not yet clear whether this region is typical of the genome as a whole and conclusions drawn from studies of LD are inconsistent37,48,71.
This brings us to the question of whether the haplotype-block model provides a 'good' description of LD in the human genome? This is not a completely well-posed question: first, because the idea of haplotype blocks has been interpreted in many ways31,32,45,46,48,72,73,78; and second, as no model is perfect, it is unclear what represents an acceptable fit between model and data. Undaunted, we offer the following observations. One way forward is to define formal criteria that can be used to decide whether haplotype blocks accurately describe LD data. One choice of criteria is described above (see also REF. 71). According to these criteria, the available data show non-trivial departures from the haplotype-block model, but they still fit the criteria sub-stantially better than expected under models of uniform recombination. Whether the observed departures are large enough to invalidate the haplotype-block model is a matter of personal choice.
Application of these criteria provides an overall view of the structure of LD across many regions. However, this summary analysis hides the tremendous variability across loci in the extent and nature of LD. To get a qualitative view of patterns of LD across the genome, we created pairwise LD plots of all 225 regions in the Gabriel et al.32 , Seattle SNP70 and EGP data sets (see Рис. 1 for examples). We have found these plots to be extremely valuable for getting a general sense of LD patterns, and we encourage readers to scroll through them (available online at the Pritchard laboratory web site, by following the ‘Data Archive’ link). What becomes clear from looking at these plots is that there are some regions that seem to fit the haplotype-block concept well, and some regions in which the structure of LD is more complicated and the block description seems less natural. Another feature of the data is that in many regions, the overall extent of LD is limited, so that many or most of the markers are not in identified haplotype blocks.
So, how do the available data indicate that we should think about either positional cloning or large-scale associ-ation studies? Certainly, where there are large and well-defined haplotype blocks, their presence provides impor-tant information for mapping studies. In large blocks, a small number of well-chosen haplotype-tag SNPs can potentially capture much of the available information about association across many kilobases47 (of course, the downside is that within blocks, LD provides no informa-tion to help localize the actual variants of interest 79 ). But what of regions in which there are no large well-defined haplotype blocks? For example, in REF.32, less than half of the total sequence was assigned to haplotype blocks. Increasing the marker density would allow much more of the sequence to be assigned to blocks, but most of the added blocks would be small (REF. 48; Рис. 4; BOX 4).So,a mapping strategy that aims to completely cover the genome by tagging every haplotype block would be wasteful. Instead, it makes most sense to envision a dual strategy whereby we use haplotype-tagging SNPs to mark large haplotype blocks, but elsewhere we need to be more flexible and make efficient use of multipoint information with partial LD between markers (BOX 3; REFS 80,81).The development of analytical methods to do this should be valuable not only in disease association studies but also in human evolutionary studies.
Сайт создан в системе uCoz