EGP | LD | SNPs |

Linkage disequilibrium (LD) фактически обозначает то, что определенные аллели в близлежащих сайтах м. появляться вместе в одном и том же гаплотипе более часто, чем это м. ожидать при случайном их появлении^1–5 (BOX 1). LD имеет фундаментальное значение для картирования генов, поэтому оно используется при позиционном клонировании, чтобы проследить изменчивость, которая продуцируется сигналом сцепления (linkage signal)^6,7 и при изучении ассоциаций, в которых варианты болезни м.б. выявлены благодаря наличию ассоциации соседствующих сайтов^8–10. Паттерны LD м.б. также использованы для заключения о распределении событий кроссинговера в короткой шкале, которые трудны для экспериментального изучения^11,12, и для изучения конверсии генов, о которых имееются лишь немногочисленные экспериментальные данные у любого вида животного^13–16. Наконец, паттерны LD важны для распутывания эволюционной истории человека, которая включает идентификацию демографических эффектов, таких как рост, BOTTLENECKS и ADMIXTURE популяций^15,17–23, и для выявления естественного отбора^24–26.

В обзоре основное внимание уделяется последним данным о пространственной структуре LD и ее использования для ассоциативного картирования (association mapping). При ассоциативном картировании целью является идентификация генетических вариантов, которые увеличивают чувствительность к болезням (or other phenotype of interest), и появляются , следовательно, с более высокими частотами у затронутых индивидов по сравнению с контролем¹⁰. При определенных предположениях, теоретические аргументы указывают на то, что ассоциативное картирование по всему геному м.б. мощным подходом для для идентификации вариантов, которые вносят вклад в сложные признаки^27,28. В настоящее время считается, что генотипирование всех широко распространённых вариантов в геноме будет чрезвычайно дорогостоящим. Однако, т.к. генотипы по близлежащим маркерам обычно скоррелированы (т.е., находятся в LD), то м. оказаться возможным сканирование генома с использованием значительно меньшего набора маркёров, лишь с незначительной потерей эффективности⁸. Чтобы предложить исследования, пригодные для этой цели, необходимо детально знать структуру и степень неравновесного сцепления по всему геному, и чтобы выбрать набор пригодных маркёров и чтобы подобрать мощные методы статистического анализа. В обзоре описываются данные и модели LD в геноме человека и проводится их сранение с результатами моделирования. Считается, что изменчивость скорости рекомбинации является существенным детерминантом LD у людей^{11,12,29–32}, этот вопрос также обсуждается. issue. Не обсуждается его значение для демографии и экспериментальные данные о степени PAIRWISE LD, т.ек. эти вопросы недавно обсуждались в др. обзорах^1,4,5,22.

Linkage disequilibrium

Как хорошо известно паттерны LD с шумами и непредсказуемы. Напр., пары сайтов, которые находятся в десятках kilobases др. от др. м. находится в ‘полном’ LD, в то время как соседние пары сайтов той же самой области м. обнаруживать слобое LD. Сходным образом м. обнаруживаться огромные различия в степени LD между одной и др. геномной областью^1,18,33–37. Большая часть этих кажущихся случайностей является предсказуемой в популяционных генетических моделях, которые описывают LD^1,38–40, и некоторые м.б. результатом fine-scale гетерогенности по скорости рекомбинации^11,12,29,30. Популяционная история также оказывает большое влияние на паттерны LD, с помощью факторов, таких как популяционная структура или малые популяционные размеры, ведущие к увеличению LD¹. Напр., постоянно наблюдается, что LD в non-African популяция распространяется на более длинные расстояния, чем в Африканских, это м. отражать популяционное бутылочного горлышко (bottleneck) в то время, когда современные люди впервые покинули Африку^{15,17,18,22,41}. Сходным образом имеются сообщения о том, что определенные изолированные или с примесями популяции обнаруживают LD, распространяющееся на более длинные расстояния^19,21,42,43 (но в REF. 44 даны противоречащие данные).

Несмотря на кажущуюся сложность наблюдаемых паттернов, в последних исследованиях предполагается, что лежащая в основе структура LD в геноме человека м.б. описана с использованием относительно простого набора, в котором данные разобраны на серии дискретных гаплотипных блоков^31,32,45,46 (BOX 2). Соседние блоки разделены областями многочисленных рекомбинационных событий^30–32. Модель гоаплотипныъх блоков является важным применением для ассоциативного картирования, т.к. она показывает просто и рационально, как выбирать single nucleotide polymorphisms (SNPs) для изучения ассоциаций по большой шкале. Основные гаплотипы в каждом блоке м.б. мечены небольшим количеством ‘haplotype-tagging’ SNPs, которые и будут создавать эффективный механизм для скринига ассоциаций каждой haplotype-block области^32,45,47 (BOX 3). United States National Human Genome Research Institute недавно предпринял большую попытку, названную International HapMap Project, который имеет целью создать карту LD всего генома и гаплотипных блоков. Целью этого проекта является облегчение широко масштабных association-mapping исследований и positional-cloning исследований путём каталогизации LD в геноме многих популяций.

Haplotype blocks

В 2001 Daly и др.³¹ сообщили, что структура гаплотипа в области в 500-kb хромосомы 5q31 м.б. разбита на серии дискретных гаплотипных блоков, которые имеют размеры в 3–92 kb. Каждый гаплотипный блок соответствует области, в которой имеется немного общих гаплотипов (2–4 на блок), и для которых данные по LD дают мало доказательств рекомбинации. Упомянутые блоки были разделены областями с несколькими inferred событиями рекомбинации. Почти одновременно, Jeffreys et al.³⁰ сообщили данные о типировании одиночных спермиев, которые показали, что большая часть рекомбинации в области класса II major histocompatability complex (MHC) ограничивается узкими горячими точками рекомбинации. Хотя эти наблюдаения и были ограничены двумя геномными областями, вместе они позволяли предположить интригующую гипотезу, что геном м.б. подразделен на области в высоким LD, которые разделены горячими точками рекомбинации. Затем было опубликовано несколько исследований более масштабных, также показавших, что геном м.б. подразделен на блоки высокого |D'| (BOX 1) или низкого haplotype diversity^32,45,46,48 (BOX 2). 3 из этих исследований сообщили LD данные для маркёров, которые располагаются на хромосоме 19 (REF. 48), 21 (REF. 45) и 22 (REF. 46), соотв., тогда как Gabriel et al.³² освидетельствовали 51 разных геномных области для в целом ~13 Mb. Эти исследования или использовали PRE-ASCERTAINED SNPS из опубликованных баз данных^32,46,48, которые ограничивали разрешение в среднем маркерами, разделенными ~5–20 kb или, в случае Patil et al.⁴⁵, использовали chip-based ресеквенирование на относительно небольшой выборке из 20 хромосом.

Все эти обследования выявили небольшое количество чрезвычайно длинных гаплотипных блоков. Среди опубликованных работ, самым длинным из найденных блоков явилась область низкой haplotype diversity на хромосоме 22, которая у индивидов, выходцев из Европы (данные Centre d’Etude du Polymorphisme Humain), занимала участок в 804 kb⁴⁶. Такие длинные блоки необъяснимы с помощью популяционных генетических моделей с униформными скоростями рекомбинации^1,48,49; самым простым объяснением является то, что эти длинные области с низкой частотой рекомбинации — это ‘coldspots’ по рекомбинации⁴⁶. Помимо этих немногих длинных гаплотипных блоков большинство обнаруженных блоков значиетльно ментьше (5–20 kb). Т.к. размеры этих блоков сходны со средними расстояниями между последовательными маркёрами (за исключением работы Patil et al.⁴⁵), то идентификация более мелких блоков находилась за гнаицами разрешения этих исследований. Эти сообщения о гаплотипных блоках вызывали несколько вопросов. Указывают ли эти результаты на то, что большинство рекомбинации в геноме происходит в горячих точках, которые в целом соответствуют границам haplotype-block (или наоборот, что границы гаплотипных блоков являются горячими точками)? До какой степени модель гаплотиповых блоков отражает лежащую в основе структуру LD, в качестве противопоставления существующему подходящему эвристическому описанию? Наконец, учитывая наблюдаемую структуру LD, какой м.б. наилучшая стратегия для выбора SNPs для ассоциативного картирования (BOX 3)?

Experimental evidence for hotspots

Как уже отмечалось раньше, важным компонентом модели гаплотипных блоков является возможность того, что большая часть рекомбинации в геноме м. происходить в узких горячих точках. Хотя горячие точки рекомбинации повсеместрны у дрожжей⁵⁰, значительно меньше известно о горячих точках у человека и др. животных. Большинство наших знаний об изменчивости скорости рекомбинации у людей получены для очень длинных шкал — обычно для расстояний в centiMorgan или более. Исследователи традиционно подсчитывали скорость рекомбинации путем сравнения физических карт с генетическими картами, полученными в исследованиях родословных^51–53. Имеется колоссальная изменчивость в скорости рекомбинации в centiMorgan шкале внутри хромосом, между хромосомами, между самцами и самками^51–53. Разрешение в этих исслпедованиях ограничено и количеством мейозов и плотностью маркёров, которые используются для конструкции генетических карт. Среднее расстояние между последовательными маркерами в большинстве аккуратных генетических карт составляет ~600 kb⁵³. Итак, эти исследования обычно неинформативны об изменчивости в скорости рекомбинации на более коротких шкалах (менее 100 kb), хотя пригоршня небольших областей (менее 20 kb) идентифицирована с помощью этого подхода, как имеющие сильно повышенные скорости рекомбинации^54–56.

Изучение изменчивости скорости рекомбинации в малых шкалах в целом нуждается в изучении многих мейозов, т.к. частота рекомбинации в любом узком интервале низкая. Одним из альтеранативных подходов является подсчет скорости рекомбинации путём генотипирования спермиев^{29,30,57–63}. Хотя при этом подсчитывается только скорость рекомбинации у самцов (которая м. существенно отличаться от скорости рекомбинации у самок^51,53), однако преимущества исследований по типированию спермиев в том, что они позволяют изучать чрезвычайно большое число мейозов и делают возможным изучение изменчивости скорости рекомбинации в малых шкалах. Некоторые недавние исследования выявили, что рекомбинация обнаруживает тенденцию к кластрированию в горячих точках, которые приблизительно длиной 1–2 kb^29,30,61. Однако, т.к. типирование спермиев трудоёмко и технически затруднительно, лишь немногие области были изучены, а изученные области в целом были теми, для которых уже имелись доказательства рекомбинационных горячих точек.

Определение насколько репрезентативна остальная часть генома в отношщении паттернов изменчивости скорости рекомбинации будет важным направлением будущих исследований.

Мало известно о молекулярных механизмах горячих точек рекомбинации и как быстро они появляются и исчезают в ходе эволюции. Имеются доказательства, что некоторые горячие точки у дрожжей и людей являются аллель-специфичными, hotspot аллели легче инициируют разрывы двойной нити^64,65. Это в конечном итоге ведет к потере hotspot аллеля, это указывает на механизм, с помощью которого горячие точки м.б. потеряны⁶⁶. На большой временной шкале скорость рекомбинации м. изменяться существенно: близко родственные виды Drosophila м. иметь разные генетические карты⁶⁷, a общая длина карты у бабуина ~20% меньше, чем общая длина карты человека⁶⁸. Однако, некоторые исследования обнаружили негативную корреляцию между уровнями LD и скоростями рекомбинации^{11,12,29,30,56,61,62,69}, это указывает на то, что изменения скоростей рекомбинации медленны на временной шкале N генераций. В одном исследовании выявлены блоки LD в coldspots, которые были разделены с помощью экспериментально-вызыванных горячих точек рекомбинации³⁰. Хотя эти паттерны согласны с моделью гаплоидных блоков, но определенные изученные области (MHC class II) являются объектом строгого diversifying отбора и и необязательно типичны для генома в целом.

Patterns of LD in human data

Трудно сравнивать результаты имеющихся исследований LD непосредственно из-за отличий в дизайне (designs) и ранге методов, использованных для анализа данных (BOX 2). Выборки, которые были рассмотрены, колебались в пределах от одиночной^46,48 до множественных популяций^32,70 или это были одиночные смешанные выборки (см. REF. 45 и Environmental Genome Project (EGP) SNP study), a средние расстояния между соседствующими маркёрами колебались в пределах от менее 1 kb⁷⁰ до более 22 kb⁴⁶. Более того, большинство из этих исследований описывают наборы широкомассштабных данных и трудно понять, чему эти данные больше соответствуют. По этим причинам авт. использовали данные только трёх больших исследований (REFS 32,70 и данные EGP SNP), чтобы выявить некоторые общие свойства и создать зрительные обобщения многих репрезентативных областей. Эти исследования выбраны ещё частично и потому, что каждое из них предоставляет LD информацию по многим различным регионам. В анализе использовано Gabriel et al.32 block definition (детали в BOX 2).

The data. Согласно данным Gabriel et al.³² необходимо иметь доступ к SNP генотипам от 50 геномных областей, которые занимают участок в 12.2 Mb, для European-Americans, African-Americans, East Asians and sub-Saharan Africans. Размеры выборок в 4-х популяциях варьировали в пределах 42–58 независимых индивидов, а средняя плотность маркёров находилась в пределах 1 SNP (с минимальной частотой аллелей 0.1) на 6.1–6.7 kb. В Seattle SNP исследовании⁷⁰ изучена изменчивость внутри и в соседних генах, которые являются кандидатами на вовлечение в воспалительные заболевания. Авт. проанализировали 85 локусов, которые были загружены с web-сайта University of Washington and Fred Hutchinson Cancer Research Center UW-FHCRC Variation Discovery Resource в October 2002. Эти локусы средние расстояния между маркёрами в 665 bp и покрывали в целом 1.5 Mb последовательностей. Данные были получены в результате ресеквенирования 24 неродственных African-Americans и 23 неродственных European-Americans⁷⁰. Чтобы сдалать размеры выборок более подходящими для сравнения с др. исследованиями, авт. объединили в пул (pooled) все выборки. Результаты являются сходными, если две популяции рассматриваются в отдельности⁷¹. Данные по EGP SNP получены из др. большого исследования по ресеквенированию в лаб. Nickerson в University of Washington. Был получен доступ к 90 локусам из доступного EGP SNPs web сайта в October 2002. Эти локусы занимают последовательность в 1.7 Mb со средними расстояниями между маркёрами в 946 bp. Выборки состоят из 90 неродственных индивидов, различающихся этнически, из DNA Polymorphism Discovery Resource. Вместе эти три исследования представлены разными этническими группами, размерами выборок и плотности маркёров. Рассматривались только сайты с минорной частотой аллелей 0.1 или выше.

Haplotype blocks. Первоначально суммарные данные сводили в таблицы в виде пропорций последовательностей, которые содержатся в гаплотипных блоках разных размеров. Результаты выявили систематические различия в уровнях LD в популяциях и в исследованиях (Рис. 2). В исследовании Gabriel et al.³² как European-America, так и East Asian выборки имели более обширные гаплотипные блоки, чем African-American и sub-Saharan African выборки³² (как уже указывалось ранее), но удивительно, что во всех четырёх популяциях менее половины от всех последовательностей находится в идентифицируемых гаплотипных блоках. Напротив, в двух исследованиях по ресеквенированию, в которых плотность маркёров была выше, больше последовательностей находилось в идентифицируемых гаплотипных блоках. Позднее авт. показали, что плотность маркёров оказывает строгое влияние на способность выявлять малые гаплотипные блоки. Отметим, что пропорция последовательностей, которые содержат длинные блоки в двух исследованиях по ресеквенированию, недооценены из-за ограниченных размеров областей, которые были секвенированы. Этот эффект укорочения был минимальным в данных Gabriel et al.³², в которых большинство областей было более длинными.

Авт. обработали plots, которые дали значения |D'| для всех пар сайтов в области (репрезентативные plots показаны Рис. 1). Каждая пара маркёров оценивалась как имеющая сильное LD (красное), слабое LD (зеленое) или неясное (серое) (см. BOX 2 и REF. 32). В такого типа рисунке гаплотипные блоки д.б. появляться в виде треугольных областей из красных ( или светло-коричневых) квадратиков, которые располагаются по диагонали. Plots для всех 225 доступны online на Pritchard laboratory web сайте (→ ‘Data Archive’). Эти plots показывают обширную гетерогенность LD внутри областей: области со строгим LD, которые прекрасно соответствуют концепции гаплотипных блоков, часто ограничиваются одинаково большими областями с низмими или отсутствующмим LD. Это становится очевидным, когда паттерны LD сравниваются вдоль множественных локусов. Некоторые области имеют расширенные блоки LD, тогда как др. имеют только изолированные маркёры в строгом LD др. с др. Из этих рисунков ясно, что степень выраженности LD (красные квадратики) ниже в African и African-American выборках, чем в non-Africans. Это не является прямолинейным, чтобы сравнивать исследования по ресеквенированию с данными Gabriel et al., т.к. плотность маркёров различна и исследования по ресеквенированию проводились на выборках смешанной этничности. Моделирование и эксперименты по перенабору выборок показали, что в таких смешанных выборках рассматриваемые характеристики блоков имеют тенденцию быть более сходными с помпуляциями с наинизшим LD (Africans и African-Americans, в данном случае). Чтобы получить более наглядное представление соответствия гаплотиповых блоков и границ блоков среди разных популяций, авт. строили график (plotted) частей каждой области, которая содержала гаплотипные блоки для каждой из 4-х популяций, изученных Gabriel et al.³². Результаты для 5 репрезентативных геномных областей показаны на Рис. 3. Как можно было ожидать, имеется обратная корреляция между пропорцией последовательностей, которые содержатся в гаплотипных блоках, и подсчитанными скоростями рекомбинации в REF. 53, с относительно небольшими и малыми блоками, идентифицированными в областях с высокой рекомбинацие (напр., см. Region 53a на Рис. 3). Границы блоков часто располагаются в нужном порядке в популяциях; это, по-видмому, отражает частично общее происхождение популяций человека, но до некоторой степени это м.б. также отражением непрямого эффекта неровного распределения маркёров (сходные рисунки для всех областей доступны на Pritchard laboratory web сайте ‘Data Archive’).

How ‘block-like’ is LD? Принимая во внимание, что любые генотипические данные, которые показывают LD, потенциально м.б. разобраны на гаплотипные блоки⁷², то возникает вопрос, до какой степени концепция гаплотипных блоков м. давать естественное описание лежащей в основе структуры LD у людей? Ранее уже были предложены три критерия, чтобы понять, как возникает блок-подобная структура LD⁷¹. Эти критерии измеряют пропорцию последовательностей, которые содержатся в гаплотипных блоках (называемых здесь ‘coverage’), степень, с которой гаплотипные блоки являются внутренне согласующимися (consistent) и степень перекрывания или неопределенности в границах гаплоидных блоков.

Для гаплотипных блоков, чтобы дать подходящее описание LD вдоль области, следует ожидать, что идентифицируемые блоки будут дискретными, соответствующими и будут покрывать большую часть области. Как отмечалось выше, в имеющихся данных гапотипный блок покрывает обычно не много⁴⁸ (Рис. 2), но покрытие м.б. потенциально улучшено при использовании маркёров с высокой плотностью (точный уровень haplotype-block coverage зависит также от определения блока). Авт. также нашли средние уровни внутренней несогласованности⁷¹: если рассматривать два маркёра при строгой LD между ними, то существенная фракция маркёров, которые находятся между ними, обнаруживает исторические доказательства рекомбинации³² с одним из концевых маркёроы (они показаны как зеленые квадратики в областях с красным на Рис. 1). По контрасту авт. нашли, что величина перекрывания или неопределенности между блоками была низкой (однако, исследование с использованием др. методологии приводи к заключению, что неопределенность границ блоков является более серьёзной⁷³). Взятые все вместе эти результаты указывают на то, что модель гаплотипных блоков м. фиксировать некоторые из выдающихся свойств LD простым и интуитивным образом, но имеются также пределы для разработки более сложных и аккуратных моделей LD, которые м.б. дать большую силу исследованиям ассоциаций и др приложениям (напр., REF. 12).

LD and local recombination rates. Как указывалось выше важным компонентом модели гаплотипных блоков является гипотеза, что большинство рекомбинаций в геноме происходит в узких горячих точках. Для изучения этого вопроса авт. предприняли COALESCENT SIMULATIONS паттернов LD в моделях с и без горячих точке рекомбинации. При проверке модели с горячими точками обнаруживалоь больше соотвествия известным константам средних скоростей рекомбинации (so that the average rate matches pedigree estimates), но этого недостаточно, чтобы предположить, что многие или большинство событий рекомбинации концентрируются в регионах горячих точек. Это указывает на то, что согласно модели горячих точек фоновые скорости рекомбинации — для большинства последовательностей, которые расположены вне горячих точек - будут ниже, чем в среднем по геному, а средняя протяженность LD будет длиннее. Даже для данных, которые получены в модели в отстутствие горячих точек, возможна идентификация гаплотипных блоков^48,71,72, но они будут в целом меньше и будут иметь низкое покрытие (coverage), чем при проверке модели с рекомбинациями в горячих точках. Предыдушие исследования показали, что паттерны LD хромосомы 19 м.б. согласны с моделью униформной рекомбинации в разумных предалах с небольшим избытком больших гаплотипных блоков, указывающих на длинные рекомбинационные холодные точки (coldspots)⁴⁸. По контрасту, используя нескольго др. методы (BOX 4), собственное моделировани авт.⁷¹ показало, что модели с рекомбинационными горяими точками существенно лучше согласуются с данными Gabriel et al. data³². Если посмотреть на пропорцию последовательностей, содержащихся в гаплотипных блоках, и длины распространения гаплотипных блоков, как глобальную меру LD, то выяснится, что больше LD в действительных данных, чем ожидалось согласно модели с отсутствием изменчивости в скорости рекомбинации. Этот результат обнаруживается даже в sub-Saharan African популяциях, которые лучше всего согласуются с простой демографической моделью, используемой для моделирования^15,74. Напротив проверка модели, согласно которой большинство рекомбинации происходит в грячих точках, дает лучшее согласие с наблюдаемыми данными по LD⁷¹. К сходному выводу пришли и Reich et al.³⁷, используя корреляции величин полиморфизма вдоль генома.

Если это верно, что рекомбинационные горячие точки являются основным свойством генома, тогда естественне вопрос, появляются ли границы между гаплотипными блоками обычно в горячих точках. Чтобы ответить на этот вопрос авт. симулировали даныне с той же самой длиной и средней скоростю рекомбирнации как и в области 23a (REF. 32), в которой средняя скорость рекомбинации (1.05 cM/Mb) наиболее близка к средней геномной. Авт. предожили модель с локальной изменчивостью скоростей рекомбинации, которая обнаруживала хорошее согласие⁷¹ с African данными of Gabriel et al.³² — 50% всех рекомбинационных событий происходило в горячих точках. В моделировании, где 6 горячих точек приходилось на 175 kb. Для простоты не учитывалась GENE CONVERSION, которая как полагают является важным признаком нарушения паттернов LD на короткой шкале¹⁵ (см. BOX 4). Необходимо отметить, что т.к. моделирование предназначалось для более тесного сравнения с African данными, то скорее всего гаплотипные блоки у non-Africans будут длиннее и легче обнаружимы, чем в данной модели.

Рис.4 показывает распределение гаплотипных блоков для 4-х разных реплик (replicates) вместе с графиками относительных частот рекомбинации для областей (графики дополнительных replicates доступны online на Pritchard laboratory web сайте). Для каждой реплики, четыре линии соответствут различным designs исследованиям с теми же самыми лежащими в основе данными (описаны в BOX 4 как simulations 1–4). Из этого и др. моделирований^48,71,72 становится ясным, что большинство границ гаплотипных блоков не совпадает с горячими точками, даже если фоновые скорости рекомбинации низки (но не нулевые). Однако, обратное верно более часто: в этих примерах моделирования, строгая горячая точка (самая левая) создает границы блока в каждом случае, тогда как более слабые горячие точки создают границы блоков только иногда. Итак, идентификация границ гаплотипных блоков вряд ли м. служить правильным путём идентификции горячих точек, хотя это м.б. возможным при идентификации их использованием более детального анализа паттернов LD¹².

Моделирование м. также пролить свет на роль различий в оформлении (design) исследований (BOX 4). Некоторые длинные гаплотиповые блоки в моделировании 3 и 4 в BOX 4, которые имели в 8-раз более высокую плотность маркёров, отсутствовали полностью, когда использовали маркёры с редким распределением. В целом в 8 раз большая по размеру выборка увеличивает уровни haplotype-block coverage лишь слегка, тогда как в в 8 раз большая плотность маркёров более чем вдвое увеличивает уровени охвата (coverage) — это согласуется с результатами реальных данных, предсталвенных на Рис. 2. Большая часть увеличения такого охвата возникает за счет идентификации более мелких блоков, которые не выявляются при низкой плотности маркеров. BOX 4 показывает, что средние размеры блоков снижаются ~30%, когда плотность маркёров увеличивается в 8 раз^48,71. Контраст между разными моделированиями в BOX 4 подчеркивает строгие эффекты study design на очевидное согласие с моделью гаплотипных блоков. Даже зная, что в каждой группе 4 линии на Рис. 4 получены при моделирроовани одних и тех же базовых данных, интерпретация структур гаплотипных блоков для этой области будет различной в зависимости от размера выборки и плотности используемых маркёров.

Conclusions

Understanding the structure of LD across the human genome is a vital task on the road to unravelling the genetics of complex traits in humans. Interpreting pat-terns of LD is important both for large-scale association mapping and for the final stages of positional-cloning studies. Just a few years ago, there were few empirical data on the average extent of LD and our best informa-tion came from simulation studies⁹ .Since then, a series of large empirical studies have greatly augmented our knowledge of the extent and structure of LD^{18,32,45,46,48}. Some of the key observations on the LD patterns are as follows. First, the average extent of LD in non-African populations is much greater than in Africans^15,17,18,32. LD in non-Africans also extends further than expected from simple models^1,9,15,18 ,which possibly reflects the impact of a population bottleneck associated with the founding and spread of fully modern humans from Africa^{17,18,75–77},whereas LD in Africans seems to fit a sim-ple demographic model more closely^15,71 (it should be noted that most of these results are based on samples from just a handful of populations: Europeans, East Asians, African Americans and two west-African popula-tions). Second, the level of LD varies a great deal among different regions of the genome 18,46 .Part of this variabil-ity can be explained by variation in large-scale recombi-nation rates derived from genetic maps (see Рис. 3 for example), or other genomic features ^18,46,but much of the variability is not yet accounted for. Some of the remaining variability presumably stems from fine-scale variation in recombination rates that is not detectable by genetic maps, and some from the inherent stochastic nature 1 of LD. Third, all of the large-scale studies have detected some large blocks of LD (for example, 804 kb 46 ). These probably reflect large coldspots of recombination (alter-natively, if it is true that most recombination in the genome occurs in hotspots, these might be large regions without hotspots). Fourth, there are a handful of well-characterized recombination hotspots, especially in the class-II MHC region 30 , in which most recombination occurs in just a handful of narrow hotspots. It is not yet clear whether this region is typical of the genome as a whole and conclusions drawn from studies of LD are inconsistent^37,48,71.

This brings us to the question of whether the haplotype-block model provides a 'good' description of LD in the human genome? This is not a completely well-posed question: first, because the idea of haplotype blocks has been interpreted in many ways^{31,32,45,46,48,72,73,78}; and second, as no model is perfect, it is unclear what represents an acceptable fit between model and data. Undaunted, we offer the following observations. One way forward is to define formal criteria that can be used to decide whether haplotype blocks accurately describe LD data. One choice of criteria is described above (see also REF. 71). According to these criteria, the available data show non-trivial departures from the haplotype-block model, but they still fit the criteria sub-stantially better than expected under models of uniform recombination. Whether the observed departures are large enough to invalidate the haplotype-block model is a matter of personal choice.

Application of these criteria provides an overall view of the structure of LD across many regions. However, this summary analysis hides the tremendous variability across loci in the extent and nature of LD. To get a qualitative view of patterns of LD across the genome, we created pairwise LD plots of all 225 regions in the Gabriel et al.32 , Seattle SNP⁷⁰ and EGP data sets (see Рис. 1 for examples). We have found these plots to be extremely valuable for getting a general sense of LD patterns, and we encourage readers to scroll through them (available online at the Pritchard laboratory web site, by following the ‘Data Archive’ link). What becomes clear from looking at these plots is that there are some regions that seem to fit the haplotype-block concept well, and some regions in which the structure of LD is more complicated and the block description seems less natural. Another feature of the data is that in many regions, the overall extent of LD is limited, so that many or most of the markers are not in identified haplotype blocks.

So, how do the available data indicate that we should think about either positional cloning or large-scale associ-ation studies? Certainly, where there are large and well-defined haplotype blocks, their presence provides impor-tant information for mapping studies. In large blocks, a small number of well-chosen haplotype-tag SNPs can potentially capture much of the available information about association across many kilobases⁴⁷ (of course, the downside is that within blocks, LD provides no informa-tion to help localize the actual variants of interest 79 ). But what of regions in which there are no large well-defined haplotype blocks? For example, in REF.³², less than half of the total sequence was assigned to haplotype blocks. Increasing the marker density would allow much more of the sequence to be assigned to blocks, but most of the added blocks would be small (REF. 48; Рис. 4; BOX 4).So,a mapping strategy that aims to completely cover the genome by tagging every haplotype block would be wasteful. Instead, it makes most sense to envision a dual strategy whereby we use haplotype-tagging SNPs to mark large haplotype blocks, but elsewhere we need to be more flexible and make efficient use of multipoint information with partial LD between markers (BOX 3; REFS 80,81).The development of analytical methods to do this should be valuable not only in disease association studies but also in human evolutionary studies.

HAPLOTYPE BLOCKS AND LINKAGE DISEQUILIBRIUM IN THE HUMAN GENOMEJeffrey D. Wall and Jonathan K. Pritchard (e-mails: jwall@genetics.bsd. uchicago.edu;pritch@uchicago.edu)NATURE REVIEWS | GENETICS VOLUME 4 | AUGUST 2003 | 595 doi:10.1038/nrg1123

HAPLOTYPE BLOCKS AND LINKAGE DISEQUILIBRIUM IN THE HUMAN GENOME
Jeffrey D. Wall and Jonathan K. Pritchard (e-mails: jwall@genetics.bsd. uchicago.edu;pritch@uchicago.edu)
NATURE REVIEWS | GENETICS VOLUME 4 | AUGUST 2003 | 595 doi:10.1038/nrg1123