MARK T. ROSS, DARREN V. GRAFHAM, ALISON J. COFFEY, STEVEN SCHERER, KIRSTEN MCLAY, DONNA MUZNY, MATTHIAS PLATZER, GARETH R. HOWELL, CHRISTINE BURROWS, CHRISTINE P. BIRD, ADAM FRANKISH, FRANCES L. LOVELL, KEVIN L. HOWE, JENNIFER L. ASHURST, ROBERT S. FULTON, RALF SUDBRAK, GAIPING WEN, MATTHEW C. JONES, MATTHEW E. HURLES, T. DANIEL ANDREWS, CAROL E. SCOTT, STEPHEN SEARLE, JULIANE RAMSER, ADAM WHITTAKER, REBECCA DEADMAN, NIGEL P. CARTER, SARAH E. HUNT, RUI CHEN, ANDREW CREE, PREETHI GUNARATNE, PAUL HAVLAK, ANNE HODGSON, MICHAEL L. METZKER, STEPHEN RICHARDS, GRAHAM SCOTT, DAVID STEFFEN, ERICA SODERGREN, DAVID A. WHEELER, KIM C. WORLEY, RACHAEL AINSCOUGH, KERRIE D. AMBROSE, M. ALI ANSARI-LARI, SWAROOP ARADHYA, ROBERT I. S. ASHWELL, ANNE K. BABBAGE, CLAIRE L. BAGGULEY, ANDREA BALLABIO, RUBY BANERJEE, GARY E. BARKER, KAREN F. BARLOW, IAN P. BARRETT, KAREN N. BATES, DAVID M. BEARE, HELEN BEASLEY, OLIVER BEASLEY, ALFRED BECK, GRAEME BETHEL, KARIN BLECHSCHMIDT, NICOLA BRADY, SARAH BRAY-ALLEN, ANNE M. BRIDGEMAN, ANDREW J. BROWN, MARY J. BROWN, DAVID BONNIN, ELSPETH A. BRUFORD, CHRISTIAN BUHAY, PAULA BURCH, DEBORAH BURFORD, JOANNE BURGESS, WAYNE BURRILL, JOHN BURTON, JACKIE M. BYE, CAROL CARDER, LAURA CARREL9, JOSEPH CHAKO, JOANNE C. CHAPMAN, DEAN CHAVEZ, ELLSON CHEN, GUAN CHEN, YUAN CHEN, ZHIJIAN CHEN, CRAIG CHINAULT, ALFREDO CICCODICOLA, SUE Y. CLARK, GRAHAM CLARKE, CHRIS M. CLEE, SHEILA CLEGG, KERSTIN CLERC-BLANKENBURG, KAREN CLIFFORD, VICKY COBLEY, CHARLOTTE G. COLE, JEN S. CONQUER, NICOLE CORBY, RICHARD E. CONNOR, ROBERT DAVID, JOY DAVIES, CLAY DAVIS, JOHN DAVIS, OLIVER DELGADO, DENISE DESHAZO, PAWANDEEP DHAMI, YAN DING, HUYEN DINH, STEVE DODSWORTH, HEATHER DRAPER, SHANNON DUGAN-ROCHA, ANDREW DUNHAM, MATTHEW DUNN, K. JAMES DURBIN, IREENA DUTTA, TAMSIN EADES, MATTHEW ELLWOOD, ALEXANDRA EMERY-COHEN, HELEN ERRINGTON, KATHRYN L. EVANS, LOUISA FAULKNER, FIONA FRANCIS, JOHN FRANKLAND, AUDREY E. FRASER, PETRA GALGOCZY, JAMES GILBERT, RACHEL GILL, GERNOT GLOCKNER, SIMON G. GREGORY, SUSAN GRIBBLE, COLINE GRIFFITHS, RUSSELL GROCOCK, YANGHONG GU, RHIAN GWILLIAM, CERISSA HAMILTON, ELIZABETH A. HART, ALICIA HAWES, PAUL D. HEATH, KATJA HEITMANN, STEFFEN HENNIG, JUDITH HERNANDEZ, BERND HINZMANN, SARAH HO, MICHAEL HOFFS, PHILLIP J. HOWDEN, ELIZABETH J. HUCKLE, JENNIFER HUME, PAUL J. HUNT, ADRIENNE R. HUNT, JUDITH ISHERWOOD, LENI JACOB, DAVID JOHNSON, SALLY JONES, PIETER J. DE JONG, SHIRIN S. JOSEPH, STEPHEN KEENAN, SUSAN KELLY, JOANNE K. KERSHAW, ZIAD KHAN, PETRA KIOSCHIS, SVEN KLAGES, ANDREW J. KNIGHTS, ANNA KOSIURA, CHRISTIE KOVAR-SMITH, GAVIN K. LAIRD, CORDELIA LANGFORD, STEPHANIE LAWLOR, MARGARET LEVERSHA, LORA LEWIS, WEN LIU, CHRISTINE LLOYD, DAVID M. LLOYD, HERMELA LOULSEGED, JANE E. LOVELAND, JAMIESON D. LOVELL, RYAN LOZADO, JING LU, RACHAEL LYNE, JIE MA, MANJULA MAHESHWARI, LUCY H. MATTHEWS, JENNIFER MCDOWALL, STUART MCLAREN, AMANDA MCMURRAY, PATRICK MEIDL, THOMAS MEITINGER, SARAH MILNE, GEORGE MINER, SHAILESH L. MISTRY, MARGARET MORGAN, SIDNEY MORRIS, INES MULLER, JAMES C. MULLIKIN, NGOC NGUYEN, GABRIELE NORDSIEK, GERALD NYAKATURA, CHRISTOPHER N. O'DELL, GEOFFERY OKWUONU, SOPHIE PALMER, RICHARD PANDIAN, DAVID PARKER, JULIA PARRISH, SHIRAN PASTERNAK, DINA PATEL, ALEX V. PEARCE, DANITA M. PEARSON, SARAH E. PELAN, LESETTE PEREZ, KEITH M. PORTER, YVONNE RAMSEY, KATHRIN REICHWALD, SUSAN RHODES, KERRY A. RIDLER, DAVID SCHLESSINGER, MARY G. SCHUELER, HARMINDER K. SEHRA, CHARLES SHAW-SMITH, HUA SHEN, ELIZABETH M. SHERIDAN, RATNA SHOWNKEEN, CARL D. SKUCE, MICHELLE L. SMITH, ELIZABETH C. SOTHERAN, HELEN E. STEINGRUBER, CHARLES A. STEWARD, ROY STOREY, R. MARK SWANN, DAVID SWARBRECK, PAUL E. TABOR, STEFAN TAUDIEN, TINEACE TAYLOR, BRIAN TEAGUE, KAREN THOMAS, ANDREA THORPE, KIRSTEN TIMMS, ALAN TRACEY, STEVE TREVANION, ANTHONY C. TROMANS, MICHELE D'URSO, DANIEL VERDUZCO, DONNA VILLASANA, LENEE WALDRON, MELANIE WALL, QIAOYAN WANG, JAMES WARREN, GEORGINA L. WARRY, XUEHONG WEI, ANTHONY WEST, SIOBHAN L. WHITEHEAD, MATHEW N. WHITELEY, JANE E. WILKINSON, DAVID L. WILLEY, GABRIELLE WILLIAMS, LEANNE WILLIAMS, ANGELA WILLIAMSON, HELEN WILLIAMSON, LAURENS WILMING, REBECCA L. WOODMANSEY, PAUL W. WRAY, JENNIFER YEN, JINGKUN ZHANG, JIANLING ZHOU, HUDA ZOGHBI, SARA ZORILLA, DAVID BUCK, RICHARD REINHARDT, ANNEMARIE POUSTKA, ANDRE ROSENTHAL, HANS LEHRACH, ALFONS MEINDL, PATRICK J. MINX, LADEANA W. HILLIER, HUNTINGTON F. WILLARD, RICHARD K. WILSON, ROBERT H. WATERSTON, CATHERINE M. RICE, MARK VAUDIN, ALAN COULSON, DAVID L. NELSON, GEORGE WEINSTOCK, JOHN E. SULSTON, RICHARD DURBIN, TIM HUBBARD, RICHARD A. GIBBS, STEPHAN BECK, JANE ROGERS & DAVID R. BENTLEY
Correspondence and requests for materials should be addressed to M.T.R. (mtr@sanger.ac.uk). All DNA sequences reported in this study have been deposited in the EMBL or GenBank databases, and accession numbers are given in Supplementary Fig. 1 Nature434, 325 - 337 (17 March 2005); doi:10.1038/nature03440
Х хромосома человека обладает уникальной биологией, которая задана её эволюцией в качестве половой хромосомы, общей мужчинам и женщинам. Определено 99.3% эухроматиновых последовательностей Х хромосомы. Наш анализ иллюстрирует аутосомное происхождение половых хромосом млекопитающих, ступенчатый процесс, который привел к прогрессивной потере рекомбинации между X и Y, и к определенной степень последующей деградации Y хромосомы. LINE1 повторяющиеся элементы покрывают треть Х хромосомы с распределением, которое согласуется с их предполагаемой ролью в качествае дорожных станций в процессе инактивации X хромосомы. Выявлено 1,098 генов в последовательностях, из которых 99 кодируют белки, экспрессирующиеся в семенниках и различных типах опухолей. Непропорционально высокое количество менделирующих заболеваний задокументировано для Х хромосомы. Из этого количества 168 объясняются мутациями в в 113 X-сцепленных генах, которые во многих случаях были охарактеризованы в отношении последовательностей ДНК.
Х хромосома облает главными свойствами, которые уникальны для генома человека. Женщины наследуют Х хромосомы от каждого из родителей, тогда как мужчины наследуют единственную, материнскую Х хромосому. Экспрессия генов одной из Х хромосом у женщин переводится в молчащее состояние в раннем развитии с помощью процесса X-chromosome inactivation (XCI) и эта хромосома остается неактивной в соматических тканях. У женщин в зародышевой линии неактивная хромосома снова активируется и подвергается мейотической рекомбинации со второй Х хромосомой. X хромосома мужчин не способна рекомбинировать вдоль практически всей её длины во время мейоза: рекомбинация ограничивается короткими областями на кончиках плеч Х хромосомы, которые рекомбинируют с эквивалентными сегментами Y хромосомы. Гены внутри этих областей одинаковы в половых хромосомах и их поведение описывается как 'псевдоаутосомное'. Гены вне этих областей Х хромосомы строго Х-сцеплены и огромное их большинство представлено одиночной копией в геноме мужчин.
Уникальные свойства Х хромосомы являются следствием эволюции половых хромосом у млекопитающих. Половые хромосомы произошли из пары аутосом в течение последних 300 миллионов лет1. В этом процессе исходные функциональные элементы оказались законсервированными на Х хромосоме, а Y хромосома потеряла почти все следы родоначальной хромосомы, включая и гены, которые сначала были общи с Х хромосомой. Гемизиготность самцов почти по всем Х-хромосомным генам обусловливает рецессивные фенотипы, чем и объясняется огромное количество болезней, ассоциированных с Х хромосомой2. Характерный паттерн Х-сцепленного наследования (затрагивает мужчин и отсутствует передача от отца-к-сыну) выявлен еще в 18-столетии для некоторых случаев гемофилии и это дало толчок к самому раннему успешному позиционному cloning - генов для chronic granulomatous 3 и Duchenne muscular dystrophy4. Для женщин основным следствием потери генов из Y хромосомы является XCI, которая уравнивает дозы Х-сцепленных генов между полами.
Биологическими последствиями эволюции половых хромосом объясняется высокий интерес к человеческой Х хромосоме в последние декады. Эволюционные процессы скорее всего обеспечили поведение и структуру Х хромосомы за счет множества разных путей, влияющих на такие признаки, как содержание повторов, скорость мутирования, генное содержимое и структура гаплотипа.
The X chromosome sequence
мы сконструировали карту Х хромосомы, используя преимущественно клоны P1-artificial chromosome (PAC) и bacterial artificial chromosome (BAC)(Supplementary Table 1), которые были собраны в непрерывную последовательность с использованием restriction-enzyme fingerprinting и были интегрированы с более ранними картами, полученными с помощью анализа содержимого sequence-tagged site (STS) 5. Пробелы были закрыты с помощью целенаправленного скринирования библиотек клонов у бактерий или дрожжей и с помощью оценки BAC и данных концевых последовательностей fosmid для доказательства spanning клонов. 40 эухроматических пробелов остались неподдатливыми несмотря на использование библиотек с комбинированным 80-кратным перекрыванием хромосомы. 5 из этих пробелов внутри 2.7 megabase (Mb) псевдоаутосомной области на кончике короткого плеча хромосомы (PAR1). Это напоминает ситуацию в др. суб-теломерных областях человека6 и м. отражать трудности клонирования в области с высоким содержанием (G + C) нуклеотидов и мини-сателлитных повторов.
Мы отобрали 1,832 клонов из карты для дробного (shotgun) секвенирования и управляемого финиширования с использованием установленных процедур7. Конечные последовательности были подсчитаны более чем с 99.99% аккуратностью с помощью независимых оценок8. Последовательность Х хромосомы была собрана из последовательностей индивидуальных клонов и включает в себя 16 непрерывных последовательностей (contigs). Они распространяются в теломерные массивы (TTAGGG)n повторов на концах хромосомных плеч и включают обе pseudoautosomal regions (PARs). Данные были заморожены для анализа. описанного ниже, с помощью которого мы определили последовательность из 150396262 base pairs (bp) (Supplementary Table 2). Затем мы получили дальнейшую последовательность в 609664 bp. 14 эухроматических пробела, как было установлено, имеют общий размер менее 1 Mb (see Methods and Supplementary Table 2), следовательно, последовательность покрывает, по крайней мере, 99.3% эухроматина Х хромосомы. Имеется также одиночный гетерохроматиновый пробел, соответствующий полиморфному массиву в 3.0 + 0.4) Mb9 alpha сателлитной ДНК в центромере. На этом основании мы пришли к выводу, что Х хромосома приблизительно длиной в 155 Mb.
Полнота охвата и качество finished последовательностей оценивалась с использованием независимых данных. Все маркеры из deCODE генетической карты10 найдены в последовательностях и в соответствующем порядке маркеров за одним исключением. DXS6807 является наиболее дистальным Xp маркером на карте deCODE (4.39 cM), но в последовательности этот маркер находится проксимальнее трех др. с генетическим расположением 9-11 cM на карте deCODE. Из 788 X хромосомных RefSeq11 мРНК, которые были оценены, 783 были найдены полностью в последовательности и части из 4-х др. (T. Furey, personal communication). Отсутствующие сегменты из GTPBP6, CRLF2, DHRSX и FGF16 расположены внутри пробелов 1, 4, 5 и 10 соотв., a GAGE3 ген находится в пробеле 7 (Supplementary Table 2). Сборка последовательностей была оценена с использованием пар концевых последовательностей fosmid, которые соответствовали Х хромосомной последовательности. Ориентация и разделение концевых пар (end-pairs) более чем 17,000 fosmids согласовались с собранной последовательностью. В двух случаях последовательности оказались собранными неправильно из-за длинных и очень сходных повторов. Выявлено 6 случаев крупных делеций в секвенируемых клонах, которые были заполнены с помощью определения последовательностей fosmid над делетированными областями. Наконец, было два случая очевидной изменчивости длины между референс-последовательностями и ДНК, использованной для библиотеки fosmid.
Features of the X chromosome sequence
Аннотированные последовательности Х хромосомы представлены на Supplementary Fig. 1, a обновления содержатся в Vertebrate Genome Annotation (VEGA) database (http://vega.sanger.ac.uk/Homo_sapiens/). Распределение ряда последовательностей на хромосоме представлено на Рис. 1. Анализ последовательностей выявил бедную генами хромосому, которая богата разбросанными повторами и имеет низкое содержание (G + C) (39%) по сравнению со средним в геноме (41%).
Genes
Базируясь на ручной оценке всех доступных публикаций экспрессирующихся последовательностей человека и генов от др. организмов мы насчитали 1,098 genes (7.1 генов на Mb) среди них 4 разные категории (см. Methods): известные гены (699), новые кодирующие последовательности (132), новые транскрипты (166) и предполагаемые транскрипты (101). Мы идентифицировали также 700 псевдогенов в последовательности (4.6 псевдогена на Mb), из которых 644 были классифицированы как подвергающиеся и 56 как не подвергающиеся процессингу. Плотность генов (исключая псевдогены) на Х хромосоме была самой низкой из хромосом, которые имеют аннотировнные данные. Это м. просто отражать низкую плотность генов в родоначальной аутосоме. Или отбор способствовал транспозиции определенных классов генов из Х хромосомы на аутосомы во время эволюции млекопитающих. Сюда м.б. включены онтогенетические гены, для которых белковые продукты необходимы в двойной дозе у самцов (или у самок послеr XCI), или гены, мутации которых в соматической ткани самцов летальны.
Физические характеристики генов и псевдогенов суммированы в Supplementary Table 3. Экзоны 1,098 генов соответствуют только 1.7% последовательности Х хромосомы. На основании длин этих генных локусов транскрибируется 33% хромосомы. Это существенно ниже последних подсчетов для хромосом 6 (ref. 12), 9 (ref. 6), 10 (ref. 13) and 13 (ref. 14), для которых была использована эквивалентная процедура аннотации (Supplementary Table 4) и это является отражением не только низкой плотности генов на Х хромосоме, но и также меньшей длины генов. Напр., средняя дляна генов составляет 49 kilobases (kb) на хромосоме Х по сравнению с 57 kb на хромосоме 13. Тем не менее Х хромосома содержит самый большой из известных генов в геноме человека, локус dystrophin (DMD) в Xp21.1, который занимает 2220223 bp. В согласии с низкой плотностью генов и частоты предполагаемых CpG островков, их на Х хромосоме только 5.25 на Mb, это наполовину от подсчитанного в среднем для всего генома7. Выявлена ассоциация с CpG островками для 49% известных генов, категория, для которой ожидается наиболее полная генная структура согласно сегодняшней аннотации.
Мы идентифицировали evolutionarily conserved regions (ECRs) путём сравнения последовательности Х хромосомы и геномом мышей, крыс. рыбок данио и pufferfishes Tetraodon nigroviridis и Fugu rubripes (Supplementary Table 5). Имеется 4,493 ECRs, которые консервативны для Х хромосом со всеми др. видами. Из них 4,393 перекрываются с 4,373 аннотированными экзонами. Остальные 100 ECRs скорее всего являются не-аннотированными экзонами, хотя некоторые м.б. высоко консервативными контролирующими или структурными элементами. На основании этих данных мы пришли к выводу, что мы описали 97.8% белок-кодирующих экзонов Х хромосомы ([4,373/(4,373 + 100)] × 100).
Non-coding RNA genes
Набор генов, описанный выше, включает и не-кодирующие РНК (ncRNA) гены только если имеются подтверждающие доказательства экспрессии с комплементарной ДНК или expressed-sequence-tag (EST) источников. Используя комплементарный подход, мы проанализировали последовательность Х хромосомы с помощью Rfam15 базы данных структурных РНК блоков (alignments) и предсказали 173 ncRNA генов и/или псевдогенов (Supplementary Fig. 1 и Supplementary Table 6). Они физически отделены от генов, описанных в предыдущем разделе, и не включены в общее число генов из-за трудностей отличия генов и псевдогенов для этих предполагаемых ncRNA. Используя tRNAscan-SE16, мы предсказали только два transfer RNA гена на Х хромосоме (Supplementary Table 6), из нескольких сотен, предсказанных для генома человека7. 13 microRNAs из microRNA регистра17 также были картированы в последовательности (Supplementary Table 7).
Наиболее интересным из ncRNA генов Х хромосомы является XIST (X (inactive)-specific transcript)18, который является критическим для XCI. Локус XIST занимает 32103 bp в Xq13 и его нетранслируемые транскрипты покрывают оболочкой транскрипционно молчащую одну из Х хромосом в cis-положении. Транскрипт RefSeq11XIST является РНК из 19275 bases, которая включает крупнейший экзон хромосомы (exon 1: 11372 bp). Имеются также доказательства для самого корокого из XIST транскриптов. генерируемого с помощью альтернативного сплайсинга, в частности в 3' области гена19. У мышей Tsix является антисмысловым по отношению к Xist20, a его транскрипт (или процесс его транскрипции) как полагают, репрессирует накопление Xist РНК. Имеются доказательства транскрипции антисмыслового XIST у людей21,22, но мы оказались неспособны описать ген TSIX человека, т.к. отсутствуют соотв. экспрессирующиеся последовательности в публичных базах данных и т.к. отсутствует консервация первичных последовательностей между соотв. областями мыши и человека. В последовательности человека два др. гена ncRNA описаны в области в 400 kb дистальнее XIST, которые являются ортологами мышиных генов, описанных ранее как Jpx и Ftx (ref. 23). У мышей Xist, Jpx и Ftx расположены внутри небольшой области примерно в 200 kb23.
The cancer-testis antigen genes
При оценке предполагаемого протеома Х хромосомы для Pfam24 доменов наиболее впечатляющей находкой явилось присутствие MAGE домена (IPR002190) у 32 генов (Supplementary Table 8). При сравнении только 4 др. MAGE гена обнаружены в остальной части генома: MAGEF1 на хромосоме 3 и MAGEL2, NDN и NDNL2 на хромосоме 15. Продукты генов MAGE являются членами cancer-testis (CT) группы антигенов, которые характеризуются своей экспрессией в ряде типов раковых опухолей, тогда как их экспрессия в нормальных тканях наблюдается исключительно или преимущественно в семенниках. Такой профиль экспрессии ведет к предположению, что CT антигены являются потенциальными мишенями опухолевой иммунотерапии. В недавнем сообщении перечислено 84 гена CT антигенов в геноме человека25. Х-хромосомный набор генов, описанный выше, содержит 99 генов CT антигенов и включает новых членов MAGE, GAGE, SSX, LAGE, CSAGE aи NXF семейств (Supplementary Table 9). Оценка большей части оставшейся RefSeq11 информации показала, что этот набор не включает два известных MAGE гена(MAGEA5 и MAGEA7) и 7 GAGE генов (GAGE3-7, 7B и 8), которые как полагают приходятся на пробелы 14 и 7, соотв. (Supplementary Table 2). Более того, пробелы 6 и 9 также приходятся на области удвоений генов CT антигенов. Следовательно, мы предсказываем, что примерно 10% от генов на Х хромосоме кодируют антигены CT.
Данные о нормальной функции CT антигенов и о их участии в болезненных состояниях очень ограничены. однако, удивительное богатство генов CT антигенов на Х хромосоме по сравнению с остальным геномом м. указывать на преимущества для мужчин, ассоциированные с этими генами. Рецессивные аллели, которые дают преимущества мужчинам, как полагают, фиксируются быстрее на Х хромосоме, чем на аутосомах26. Если эти аллели являются вредными для женщин, то их экспрессия д.б. ограничена мужскими тканями, что способствует их фиксации. И концентрация генов CT антигенов на Х хромосоме и профили их экспрессии согласуются с моделью преимуществ для мужчин. Гены CT антигенов на Х хромосоме также примечательны для экспансии различных семейств генов с помощью дупликаций. Эта степень дупликаций вообще-то указывает на отбор у самцов повышенных количеств копий. В этом контексте интересно, что семейство MAGE независимо увеличивается на Х хромосоме и у людей и у мышей27.
Repetitive sequences
Разбросанные повторы объясняют 56% эухроматических последовательностей Х хромосомы по сравнению в среднем с 45% (Supplementary Table 10). Среди них Alu семейство коротких short interspersed nuclear elements (SINEs) ниже среднего, учитывая бедную генами природу хромосомы. Напротив, ретропозоны long terminal repeat (LTR) встречаются чаще, чем в среднем; но наиболее удивительно богатство long interspersed nuclear elements (LINEs) из L1 семейства, которые составляют 29% последовательностей Х хромосомы по сравнению в среднем по геному только 17%.
Используя критерий, по крайней мере, 90% идентичных последовательностей в 5 kb (ref. 28), мы подсчитали, что внутрихромосомные сегментные дупликации составляют 2.59% в X хромосоме (Supplementary Table 11 и Supplementary Fig. 2). Напротив, внутрихромосомные сегментные дупликации в аутосомах составляют значительно меньшую фракцию (0.24%)(Supplementary Table 12). 6 пробелов на карте Х хромосомы или фланкируются или находятся внутри внутрихромосомно удвоенных сегментов (пробелы 2, 3, 6, 7, 9 и 14 в Supplementary Table 2), это м. вызывать нестабильность клонов или ставить в тупик прогресс картирования. Внутрихромосомные дупликации поразительны по своей близости. Помимо двух сегментов, содержащих копии SSX гена, которые разделены только 4.5 Mb, только 6 из 229 разделены более чем 1 Mb. Среди этих удвоений имеются хорошо описанные случаи, которые ассоциируют геномными нарушениями29. В Xp22.32 делеции steroid sulphatase (STS) гена, вызывающие X-сцепленный ихтиоз (Online Mendelian Inheritance in Man (OMIM)2 308100), возникают в результате рекомбинации между фланкирующими дупликациями, которые содержат копии гена VCX. Также некоторые примеры Hunter syndrome (OMIM 309900), red-green colour blindness (OMIM 303800), Emery-Dreifuss muscular dystrophy (OMIM 310300), incontinentia pigmenti (OMIM 308300) и haemophilia A (OMIM 306700) возникают в результате перестроек с вовлечением удвоенных последовательностей в Xq28. При haemophilia A, мутации часто являются результатом инверсий между последовательностью в интроне 22 гена F8 и одной из двух более дистально локализованных копий. Новой находкой при нашем анализе последовательностей Х хромосомы являются две дистальные копии с противоположной ориентацией. Следовательно, крупная делеция, затрагивающая F8 и несколько более дистальных генов м.б. альтернативой инверсионной перестройки. Делеция согласуется с этим предсказанием, т.к. описана семья, в которой носительницы женщины имеют высокие показатели спонтанных абортов при беременности30.
The X chromosome centromere
Х-хромосомная последовательность переходит из обоих плеч в центромерную, высоко-упорядоченную повторяющуюся последовательность, которая, как известно, ассоциирует функционально с центромерой X31-33. Наиболее проксимальные 494 kb и 360 kb из Xp и Xq последовательностей, соотв., представлены обширными областями сателлитной ДНК, соседствующей с эухроматином хромосомных плеч, которые исключительно богаты L1 содержимым (Рис. 2). Сателлитная область Xp содержит небольшие количества др. сателлитных семейств 31, тогда как подобная область Xq состоит целиком из alpha сателлитов. Как и во всех др. хромосомных плечах человека, которые были изучены33,34, эти переходные области состоят из мономерных alpha сателлитов, которые не ассоциированы с центромерной функцией. И Xp и Xq contigs, описанные здесь, как полагают, распространяются более проксимально и достигают высоко гомогенных, высшего порядка повторов alpha сателлитов (DXZ1). Критическим является то, что Xp и Xq contig копии повторов DXZ1 являются сами по себе на 98-100% идентичными последовательностями и ориентированы в том же самом направлении вдоль хромосомы (Рис. 2). На этой основе два contigs достигают 'конца' каждого из хромосомных плеч и т.о. достигают центромерного локуса с каждой стороны. Это представляет собой логическую конечную точку в попытке завершить последовательности хромосомных плеч в геноме человека и впервые такая демонстрация этой конечной точки показана на последовательностях Х хромосомы.
Single-nucleotide polymorphisms
153146 кандидатов на single-nucleotide polymorphisms (SNPs) было картировано в последовательности Х хромосомы и они собраны в VEGA базе данных. Они включают 901 SNPs, которые обусловливают не-синонимные изменения в белок-кодирующих областях и , следовательно, являются кандидатами на функциональные белковые варианты. Уровень гетерозиготности по Х хромосоме, хорошо известно, ниже, чем в аутосомах и эти различия м.б. объяснены частично или целиком популяционными генетическими факторами35. Среди картированных SNPs 62,334 идентифицированы с помощью сравнения flow-sorted X chromosome shotgun считываемых последовательностей с reference последовательностями Х хромосомы. Используя сравнимые данные последовательностей для хромосомы 20 мы подсчитали, что уровень гетерозиготности в Х хромосоме составляет примерно 57% от наблюдаемого в аутосомах.
Evolution of the human X chromosome
Самцы трех групп Eutheria ('placental' млекопитающие), Metatheria (сумчатые) и Prototheria (яйце-кладущие млекопитающие)- имеют X и Y половые хромосомы. Ohno предположил в 1967, что половые хромосомы млекопитающих возникли из аутосомной пары вследствие их привлечения в хромосомную систему для предопределения пола1. Возникает барьер для рекомбинации, развившийся между этими 'proto' половыми хромосомами, изоляция областей, предопределяющих пол, и в конечном итоге происходит распространение повсюду двух гомологов. В отсутствие рекомбинации, события накопления мутаций постепенно приводят к дегенерации Y хромосомы. Половые хромосомы птиц не гомологичны тем, что у млекопитающих. Система половых хромосом птиц развивалась независимо в течение последних 300 Myr, и привела к возникновению гомогаметных (ZZ) самцов птиц и гетерогаметных (ZW) самок птиц, в противоположность системе XY самцов и XX самок у млекопитающих.
Аутосомное происхождение половых хромосом у млекопитающих прекрасно иллюстрируется путем сравнения полных геномных последовательностей кур и Х хромсомы человека (Рис. 3a). Ортологи некоторых генов Х хромосомы человека были картированы ранее в в хромосомах 1q13-q21 и 4p11-p14 кур (ref. 36). Используя сравнение геномных последовательностей, мы идентифицировали примерно 30 регионов гомологии, которые совместно покрывают большую часть Xq человека и нашли одиночную область примерно в 20 Mb на конце 4p хромосомы кур (Рис. 3a). Напротив, большая часть короткого плеча (Xp11.3-pter), включает псевдоаутосомную область PAR1, соответствующая одиночному блоку хромосомы кур 1q. Не выявляется четкой картины происхождения оставшейся части короткого плеча (Xcen-p11.3). Мы оказались неспособны определить крупные области консервативной synteny при сравнении последовательностей, а гены из этой области имеют ортологов в нескольких аутосомах кур, включая хромосомы 12, 1 и 4 (ref. 37). Эта область характеризуется также экспансией некоторых семейств генов CT антигенов (Рис. 1), которые не имеют обнаружимых ортологов у кур. Данный анализ подтверждает мнение о 'X-conserved region' (XCR) у млекопитающих38, которая включает длинное плечо и является производным proto-X хромосомы. Подтверждено также существование отдельного, крупного добавления ('X-added region' или XAR38) к возникшей Х хромосоме с помощью транслокации из второй аутосомы, которая произошла у eutherian млекопитающих до их радиации (~ 105 Myr тому назад). В противоположность более ранним гипотезам, однако, кажется, что наиболее проксимальная часть короткого плеча (Xcen-p11.3) не д. больше рассматриваться как часть XCR.
Присутствие мест расположения генов, которые демаркируют XAR, подтверждает возможный механизм добавления. Гены, описанные на на краях концов 47 Mb XAR, являются PLCXD1 (cU136G2.1 in Supplementary Fig. 1) вблизи Xpter, и RGN в Xp11.3. Мы также нашли не подвергающийся процессингу RGN псевдоген (RGN2P) на Xpter, дистальнее PLCXD1. Ортологи этих трех локусов находятся вместе не хромосоме 1 кур в последовательности (tel)-RGN-RGN2-PLCXD1-(cen) (Рис. 3b). Возникновение этих двух отличающихся порядков генов от общей родоначальной последовательности д. происходить в результате минимум двух перестроек, а также транслокации, которая добавила XAR. Более экономная модель, подтверждаемая этими данными, однако, заключается в том, что XAR была приобретена в результате рекомбинации между Х хромосомой и кольцевой хромосомой, в которой последовательности родоначальных генов PLCXD1, RGN и RGN2 были соседними (Рис. 3b).
Чтобы исследовать более недавнюю картину эволюции, мы сравнивали Х хромосому человека с последовательностями др. млекопитающих. Мы установили 9 крупных блоков гомологичных последовательностей между Х хромосомами человека и мыши и 11 между Х человека и крыс (Рис. 4). Гомологичные блоки занимают почти всю каждой из Х хромосом, подтверждая удивительную степень синтении этой хромосомы в ветви eutherian млекопитающих. Это согласуется с закономерностью Ohno's, которая предсказывает, что установление механизма дозовой компенсации оказывает стабилизирующее влияние на генное содержимое Х хромосомы млекопитающих1. На длинном плече уже два блока гомологии объясняют все сходство соответствующих последовательностей у человека и мыши, но области гомологии мыши прерываются тремя дополнительными сегментами, каждый из которых содержит длинные и очень сходные повторы (стрелки на Рис. 4). Сравнение Xq человека с последовательностями крыс выявляет 4 дискретных блока гомологии; более значительная фрагментация по сравнению с мышами, которая м.б. объяснена минимум двумя перестройками, по одной в каждом из двух блоков гомологии мышь-человек, в ветви крыс. Специфичные для мышей повторяющиеся сегменты не выявляются в современной версии генома крыс. На коротком плече Х хромосомы человека 7 больших блоков гомологии с блоками каждого из грызунов, которые соответствуют большей части последовательностей человека (Рис. 4). Используя собак, мы установили, что последовательности Х хромосом человека и собак в основном колинеарны (K. Lindblad-Toh, personal communication). Следовательно, все перестройки, показанные на Рис. 4 возникли в клоне грызунов, а Х хромосома человека, по-видимому, обладает чрезвычайной стабильностью своей организации, несмотря на расхождение eutherian млекопитающих. Это согласуется с недавними предсказаниями, сделанными на основании сравнения хромосом человека, грызунов и ку, что Х хромосома человека идентична предполагаемой родоначальной (eutherian) Х хромосоме39.
Наиболее значительным отличием, которое мы обнаружили между Х хромосомами человека и грызунов, заключается в наличии последовательности в 9 Mb на кончике короткого плеча человека (включая PAR1 человека), которая, по-видимому, отсутствует в X хромосомах грызунов (Рис. 4). Имеется 34 известных и новых белок-кодирующих генов в этом сегменте Х хромосомы человека (Supplementary Fig. 1), это позволило нам исследовать, как возникло подобное отличие. Обширный поск по базам данных последовательностей геномов грызунов выявил убедительных ортологов только для 13 таких генов у крыс и 5 у мышей. Большинство ортологов крыс локализованы двумя группами на хромосоме 12 и единственными генами, для которых были найдены Х-сцепленные ортологи, у обоих грызунов были PRKX и STS. Напротив. мы нашли 24 из этих 34 генов на хромосоме 1 кур и последовательности этих генов вполне консервативны в этих двух геномах. Следовательно, этот крупный терминальный сегмент присутствует в XAR и был постепенно удален ихз Х хромосомы общего murid предшественника крыс и мышей. Относительная бедность у грызунов ECRs в этом сегменте последовательности Х хромосомы (Рис. 1) указывает на то, что большая часть области м. отсутствовать в геномах Mus musculus и Rattus norvegicus.
Comparison of the human X and Y chromosomes
Эволюционный процесс уничтожил с корнем большинство следов родоначальных взаимоотношений между хромосомами X и Y у людей. На цитогенетическом уровне Y хромосома имеет крупный, варьирующего размера гетерохроматиновый блок и является значительно меньшей, чем Х хромосома, а эухроматиновая часть X хромосомы в 6 раз длиннее, чем у Y. Немногие гены Х хромосомы человека имеют активных гомологов на Y хромосоме и большинство из них находится в областях, где XY гомология является относительно недавнего происхождения.
Детальное сравнение последовательностей X и Y хромосом выявило степень деградации Y хромосомы в областях, лишенных рекомбинации. Все крупные блоки гомологии видны на Рис. 5 (и представлены схематически на Рис. 6) являются производными материала, добавленного к уже имевшимся половым хромосомам. Кончик короткого плеча X и Y хромосом представлен 2.7 Mb псевдоаутосомной областью PAR1. Гомология между X и Y хромосомами в PAR1 поддерживается за счёт обязательной рекомбинации в мейозе самцов; генетические локусы в этой области присутствуют в двух копиях как у самцов, так и у самок и не являются предметом дозовой компенсации с помощью XCI. На кончике длинного плеча X и Y находится вторая псевдоаутосомная область, 330 kb PAR2, которая возникла в результате дупликации материала из X на Y после расхождения ветвей человека и шимпанзе40. Некоторые гены в PAR2 подвержены XCI, это возможно отражает их присутствие на Х хромосоме до события удвоения. Помимо PARs, гомологи между X и Y хромосомами находятся в non-recombining областях, преимущественно в др. частях XAR, вместе с крупной 'X-transposed region' (XTR)41 в Xq21.3 и Yp11.2-p11.3. Считается, что XAR первоначально возникала как большая псевдоаутосомная область с эквивалентным YAR, который на сегодня в основном исчез. По большому счёту, гомология между XAR и YAR сохранилась для 6 Mb проксимальнее псевдоаутосомной границы на X (PABX), но существенно фрагментирована на Y хромосоме (Рис. 5b и 6). Помимо этого, оставшиеся 38.5 Mb из XAR выявляют несколько др. остатков от YAR. Гомологи являются в большинстве небольшими островками вокруг генов с функциональными ортолагами в обеих половых хромосомах (напр., AMELX/AMELY, ZFX/ZFY, см. Table 1).
XTR возникла в результате удвоения материала с X на Y после расхождения ветвей человека и шимпанзе42. Удвоенная область занимает 3.91 Mb на X, а соотв. область только 3.38 Mb на Y хромосоме (Рис. 5c). Мы сравнили целиком X и Y копии этой области. За исключением инсерций и делеций идентичность последовательностей между двумя копиями составляет 98.78%. Мы подсчитали, что событие транспозиции произошло приблизительно 4.7 Myr тому назад (Supplementary Discussion 1), это близко к предполагаемой дате события видообразования, приведшего к человеку и шимпанзе, предположительно 6 Myr тому назад. Сравнение последовательностей демонстрирует существенные изменения в XTR на Y хромосоме с момента транспозиции. Инверсия, как известно, отделяет участок в 200-kb от остальной части XTR43 (Рис. 5c). Кроме того, основной блок гомологии на 540 kb короче на Y по сравнению с X, вследствие в частности отсутствия 4-х крупных областей Y хромосомы (Рис. 5c). Выявление этих последовательностей в ожидаемых позициях на Х хромосоме шимпанзе подтверждает, что они были делетированы из Y хромосомы после транспозиции.
Мы нашли только 54 из 1,098 генов, описанных для Х хромосомы, которые были функциональными гомологами на Y хромосоме (Table 1). Мы получили прямые доказательства для 24 генов в PAR1. 23 из них представлены на (Supplementary Fig. 1), a локализация 5' конца CRLF2 указывает на то, что остаток этого гена находится в пробеле 4 последовательности Х человека (VEGA database). На основании столь впечатляющей консервации синтении между последовательностью PAR1 человека и кур, мы делаем вывод, что ген стромального антигена (ортолог куриного Ensembl гена ENSGALG00000016716) находится в пробеле 1 (Рис. 3b). Т.к. описанный предполагаемый транскрипт cM56G10.2 м. представлять собой 3' конец этого гена, то мы пришли к выводу, что PAR1 содержит, по крайней мере, 24 гена. Вместе с 5 описанными генами в PAR2, 29 генов лежат целиком внутри рекомбинирующих областей половых хромосом. Кроме того, XG локус распространяется на границу между PAR1 и X-специфической ДНК, но разорван перестройкой в Y хромосоме.
Вне XY-рекомбинирующих областей Х хромосомы мы наблюдали 25 генов. которые имели функциональных гомологов на Y хромосоме (Table 1). 15 из них находятся внутри XAR, ещё три гена общи в X и Y копиях XTR. 7 др. XY пар генов, как предполагается, происходят из proto-половых хромосом. Только 5 случаев было описано ранее44,45: Х-хромосомные гены SOX3, SMCX, RPS4X, RBMX и TSPYL2, которые локализованы на длинном плече и проксимальной части короткого плеча (Table 1). Два дополнительных случая, описанные здесь, затрагивают гены хит-шоковых транскрипционных факторов, обозначенные HSFX1 и HSFX2. Они отнесены к категории XCR генов на основании высокой степени дивергенции от их гомологов на Y хромосоме и их локализации дистальнее SOX3 внутри XCR. HSFX1 и HSFX2 находятся внутри отдельных копий палиндромных повторов в Xq28 и идентичны др. др. По аналогии их гомологи в Y хромосоме (HSFY1 и HSFY2) расположены внутри плеч Y-хромосомных палиндромов, сходство которых, как предполагается, поддерживается за счёт конверсии генов41.
На основании ранее опубликованной информации41, мы м. сделать вывод, что приблизительно 15 белок-кодирующих генов на Y не имеют обнаружимых гомологов в Х хромосоме.
The progressive loss of XY recombination
Барьером для рекомбинации между proto-X и Y хромосомами первоначально служил пол-детерминирующий локус на Y (SRY) и возможно др. локусы, затрагивающие приспособленность самцов. Предполагается, что перестройки в Y хромосоме привели к развитию этого барьера. led to the development of this barrier. С тех пор последовательные перестройки, которые охватывают части псевдоаутосомной области, дали в результате сегменты Y-сцепленной ДНК, которые не м. больше рекомбинировать и постепенно со временем дегенерировали. Доказательства роли Y-специфических (в противоположность X-специфичекским) перестроек в этом феномене наиболее четко иллюстрируются нашим анализм XAR, который показал наличие очень немногих перестроек между ветвью человека и птиц (Рис. 3a).
В предыдущем исследовании46, 4 широкие физические и эволюционные области были выявлены в Х хромосоме. Гены Х хромосомы внутри данной области обнаруживали сходный уровень дивергенции от их гомологов в Y хромосоме. Однако, между областями уровни дивергенции были очень разными, это, по-видимому. отражает преимущественно ступенчатую потерю рекомбинации между X и Y хромосомами. Физический порядо 4-х областей на Х хромосоме обнаруживает параллелизм с их эволюционным возрастом и , следовательно, хромосомы м. описываться как имеющие 4 "evolutionary strata"46. В целом, генные пары, как было установлено, имеют меньшую дивергенцию, двигаясь через эти слои от Xqter к Xpter. Первых два strata (S1 и S2) охватывают длинное плечо и проксимальную часть короткого плеча, соотв., и были определены как гены, которые выжили из proto-половых хромосом. Генные пары были обнаружены как все более имеющие сходство, перемещаясь через strata 3 и 4, которые оккупировали проксимальную и дистальную части XAR, соотв.
Мы сделали переоценку XY гомологии в S4 и S3, используя finished, геномные последовательности двух хромосом. Для S4 , в частности, существуют существенные блоки гомологии между хромосомами (блоки 1-10 на Рис. 5b и Рис. 6). Сравнение последовательностей X и Y хромосом в этой области выявило двух-частную организацию с заметно более высокой идентичностью XY в дистальной части 1.0 Mb по сравнению с проксимальной в 4.5 Mb (Рис. 7a). На этой основе дистальная часть, содержащая гены GYG2, ARSD, ARSE, ARSF, ADLICAN и PRKX м.б. повторно определена как новый пятый stratum, S5 (Рис. 1 и 7a). Наиболее экономичные серии инверсий, от современного расположения гомологичных блоков на X к таковым на Y, согласуются с этим предполагаемым strata (Рис. 7b). Эти данные обогащают картину потери XY рекомбинации в ходе эволюции, которая сопровождается миграцией PABX ступенчато дистально в XAR. Имеющиеся сегодня доказательства указывают на то, что имелось, по крайней мере, 4 позиции PABX внутри XAR, которые соответствовали границам S2/S3, S3/S4 и S4/S5 ~47 Mb, ~8.5 Mb и ~4 Mb от Xpter, соотв.) и современному положению (2.7 Mb от Xpter). Мы подсчитали, что два наиболее недавних перемещения PABX, которые создали сначала S4, а затем S5, произошли 38-44 Myr и 29-32 Myr тому назад, соотв. (Supplementary Discussion 2).
В дополнение к варьирующей степени сходства XY последовательностей внутри S3, S4, S5 и PAR1 мы нашли существенные отличия в их композиции последовательностей, которые преимущественно также вызваны потерей рекомбинации в каждой из областей во время эволюции. Особенно, мы наблюдали, что L1, L2 и mammalian interspersed repeat (MIR) охват снижается с каждым более дистальным stratum и PAR1 (Table 2 и Рис. 1), но (G + C) уровни и содержание Alu повторов увеличиваются внезапно на границе между S4 и S5 (Table 2 и Рис. 8); вариации показателей разных Alu подсемейств (Y, S и J) также вносят вклад в самостоятельную характеристику каждого из stratum и PAR1 (Supplementary Table 13). Композиционные различия между S4 и S5 предоставляют дополнительное подтверждение подразделения исходного stratum 4 (Рис. 8).
X-chromosome inactivation
XCI у млекопитающих обеспечивает дозовую компенсацию для продуктов Х-сцепленных генов у самцов и самок. Инактивация одной из Х хромосом происходит рано во время развития самок и начинается с X-inactivation centre (XIC). Транскрипт XIST экспрессируется первоначально на обеих Х хромосомах, но позднее транскрипт с хромосомы, которая предназначена для инактивации становится более стабильным, чем на др. Наконец, транскрипт экспрессируется только с инактивируемой Х хромосомы(Xi). Покрытие транскриптами XIST является самым ранним из множества модификаций хроматина в Xi.
XCI впервые была предположена частично благодаря исследованиям X:аутосома транслокаций у самок мышей47. Изучение производных хромосом, содержащих сегменты инактивированной Х хромосомы, позднее привело к заключению, что инактивация м. распространяться через границу транслокации на аутосомный сегмент, но что инактивация этого сегмента неполная. Сравнительно недавно стало ясно, что более чем 15% генов на Х хромосоме человека, включая многие без функциональных эквивалентов на Y, избегают XCI48. Большинство генов, которые избегают XCI, расположены внутри дистальных областей XAR (Рис. 1): все гены, изученные в PAR1, S5 и S4 избегают XCI, но имеется более низкая пропорция избегания в S3 и очень мало примеров в XCR48. Это наблюдение коррелирует с нашей картиной эволюции Х хромосомы: XCI сопровождает истощение Y хромосомы49, которое менее продвинуто в дистальном strata XAR.
Неэффективная инактивация аутосомного сегмента в транслокациях Xi:аутосома ведет к предположению, что 'way stations' на Х хромосоме ускоряют скорость распространения XCI. Согласно этой модели, путевые станции присутствуют по всему геному, но особенно багаты в X хромосоме, особенно в области XIC50. Lyon предполагает, что L1 элемены являются прекрасными кандидатами на действие в качестве путевых станций, исходя из количества в Х хромосоме млекопитающих51. Мы наблюдали распределение L1 элементов на хромосоме, это согласуется с гипотезой и путеводных станций и гипотезой Lyon (Рис. 1 и Table 2). Охват L1 повторами очень высок в XCR, особенно вокруг XIC. Как отмечалось раньше52, эти повышенные уровни L1 соответствуют в частности элементам, которые были активны в более недавней эволюции млекопитающих53 (L1P на Рис. 1). В XAR, L1 охват близок к аутосомным уровням, тогда как уровни L1 особенно низки в дистальном эволюционном strata в XAR, где гены в основном избегают инактивации. Локус XIST сам по себе расположен в области 60 kb, которая действительно лишена L1 элементов, тогда как уровни L1 чрезвычайно высоки в соседних областях. Исходя из этих распределений, др. разбросанные повторы не являются строгими кандидатами на роль путевых станций. Напр., хотя L2 и MIR элементы снижены в S4, S5 и особенно в PAR1 по отношению к остальной части хромосомы, их общий уровень на Х хромосоме не выше по сравнению с аутосомами, а даже слегка редуцирован. Более того, уровни L2 и MIR низкие в области, дистальнее XIC. Эти характеристики не исключают их участие в XCI, но не согласуются с их ролью в качестве путевых станций.
Возможная причинная взаимосвязь L1 элементов с распределением XCI остается предметом споров. Некоторые исследования сообщают о достоверных ассоциациях между L1 охватом и инактивацией52, а др. это оспаривают54. Наши наблюдения региональных различий в составе подтверждают, что такие исследования д. сравнивать активные и инактивированные гены (или домены) в одном и том же эволюционном stratum, чтобы устранить корреляции, которые не связаны с XCI.
Medical genetics and the X chromosome sequence
Х хромосома занимает уникальное место в истории мед. генетики. Обнаружение X-сцепленных заболеваний облегчается относительной лёгкостью распознавания этого способа наследования. Однако, является фактом то, что непропорционально большое количество болезненных состояний ассоциировано с Х хромосомой из-за фенотипических следствий рецессивных мутаций, выявляемых непосредственно у самцов для любого гена, который не имеет аналога на Y хромосоме. Т.о., хотя Х хромосома и содержит только 4% от всех генов человека, почти 10% болезней с менделевским характером наследования связаны с Х хромосомой (307 из 3199; OMIM2). Эти два аспекта мед. генетики Х хромосомы существенно простимулировали прогресс в позиционном клонировании многих генов, ассоциированных с болезнями человека. Кстати определены молекулярные основы 168 X-сцепленных фенотипов и последовательность Х хромосомы помогла этому процессу в отношении 43 из них, путем определения позиции гена-кандидата или reference последовательности для сравнения с выборками от пациентов (Supplementary Table 14).
Идентификация генов, участвующих в редких заболеваниях, имеет важное биологическое значение. Нпр., открытие мутаций в гене SH2D1A55 (связанных с X-сцепленным lymphoproliferative заболеванием (XLP, OMIM 308240)) привело к идентификации нового медиатора сигнальной трансдукции между T и NK клетками и к новому семейству белков, участвующих в регуляции иммунной реакции. Умственная отсталость является одной из главных проблем клинической генетики и затрагивает существенно чаще мальчиков. нежели девочек. Кстати, 16 генов Х хромосомы ассоциированы со случаями non-syndromic X-linked mental retardation (NS-XLMR), при которых умственная отсталость является единственным фенотипическим проявлением. Эти гены кодируют ряд типов белков, а некоторые также участвуют в синдромальных формах умственной отсталости. Напр., ген ARX кодирует родственный aristaless гомеобоксный транскрипционный фактор и сцеплен со случаями NS-XLMR, также как и с синдромальной умственной отсталостью, ассоциированной с эпилепсией (infantile spasm syndrome, ISSX, OMIM 308350) или с дистоническими движениями рук (Partington syndrome, PRTS, OMIM 309510)56. Ген MECP2, который кодирует methyl-CpG-связывающий белок, первоначально был связан со случаями Rett синдрома у девочек57 (RTT, OMIM 312750), но позднее мутации были выявлены у мальчиков или девочек с NS-XLMR58. Молекулярный дефект был определён лишь у незначительного количества девочек с NS-XLMR, это привело к предположению, что м.б. более 100 генов в Х хромосоме, которые ассоциируют с NS-XLMR59. Открытие генов этих и др. редких, моногенных заболеваний является критической оценкой расширения нашего понимания фундаментально новых процессов биологии человека и описание Х хромосомы м. в дальнейшем облегчить этот процесс.
Concluding remarks
The completion of the X chromosome sequencing project is an essential component of the goal of obtaining a high-quality, annotated human genome sequence for use in studies of gene function, sequence variation, disease and evolution. It also means that for the first time, we now have the finished sex chromosome sequences of an organism. The study of these sequences gives a greater insight into mammalian sex chromosome evolution and its consequences. As these analyses are extended to other genomes, we will gain a greater appreciation of the different evolutionary forces that shape sex chromosome and autosome evolution. It will be important to study differences in the rates of mutational processes, and to consider the influence of the unusual pattern of male recombination on these processes. Clearly, this analysis should not be restricted to a consideration of mammalian sex chromosomes, and it will be of great interest to make comparisons with non-mammalian systems that arose independently in evolution.
Methods
The approach used to establish a bacterial clone map of the X chromosome has been previously described5. 13264 clones were identified using 4,363 STS markers derived from published genetic or physical maps, from shotgun sequencing of flow-sorted X chromosomes, or from end-sequences of clones at contig ends. Clones were assembled into contigs using restriction-enzyme fingerprinting, and were integrated with the Washington University Genome Sequencing Center whole genome BAC map60 in order to identify additional clones. Nine euchromatic gaps were measured using fluorescent in situ hybridization of clones to extended DNA fibres, and a tenth gap was estimated on the basis of end-sequence data from spanning, unstable BAC clones (Supplementary Table 2). On the basis of pulsed-field gel electrophoresis experiments, we expect the sizes of the other four euchromatic gaps to have a combined size of less than 400 kb.
Finished sequences of individual clones were determined using procedures described in ref. 7">7. For the analyses described above, the sequence was frozen in March 2004, at which point 150,396,262 bp of sequence had been determined from a minimal tiling path of 1,832 clones (1,616 sequence accessions). This sequence is available at http://www.sanger.ac.uk/HGP/ChrX/, and its annotation is represented in Supplementary Fig. 1. Updates to the sequence and annotation can be obtained from the VEGA database.
Manual annotation of gene structures has been described elsewhere14, and used guidelines agreed at the human annotation workshop (HAWK; http://www.sanger.ac.uk/HGP/havana/hawk.shtml). Genes were assigned to one of four groups: (1) known genes that are identical to human cDNAs or protein sequences and have a RefSeq RNA (and RefSeq protein, if the gene encodes a protein); (2) novel coding sequences, which have an open reading frame (ORF) and are identical to spliced ESTs, or have similarity to other genes/proteins (any species); (3) novel transcripts, which are similar to novel coding sequences, except that no ORF can be determined with confidence; and (4) putative transcripts, which are identical to splicing human ESTs but have no ORF. Gene symbols were approved by the HUGO Gene Nomenclature Committee wherever possible. Predicted protein translations were analysed for Pfam domains using InterProScan (http://www.ebi.ac.uk/InterProScan/). CpG islands were predicted using the program GpG (G. Micklem, personal communication).
Interspersed repeats were identified and classified using RepeatMasker (http://repeatmasker.genome.washington.edu/). In order to search for segmental duplications, WU-BLASTN (http://blast.wustl.edu/) was used to align the current X chromosome sequence to itself or to the NCBI34 autosome assemblies. Duplicated blocks at least 5 kb in length were defined as described in ref. 28.
The genome assemblies used for comparative analyses were: Gallus gallus WASHUC1 (Washington University Genome Sequencing Center, http://www.genome.wustl.edu/projects/chicken), Rattus norvegicus RGSC3.1 (Rat Genome Sequencing Consortium http://www.hgsc.bcm.tmc.edu/projects/rat/), Mus musculus NCBI32 (Mouse Genome Sequencing Consortium, http://www.ncbi.nlm.nih.gov/genome/seq/NCBIContigInfo.html), Danio rerio version 3 (Sanger Institute, http://www.sanger.ac.uk/Projects/D_rerio), T. nigroviridis version 6 (Genoscope and the Broad Institute, http://www.genoscope.cns.fr/externe/tetraodon/Ressource.html), and F. rubripes version 2 (International Fugu Genome Consortium, http://www.fugu-sg.org/project/info.html). ECRs between the X chromosome and the rodent and fish genomes were obtained as described elsewhere13. In order to visualize regions of conserved synteny, the X chromosome sequence was aligned to the chicken and rodent genome sequences using BLASTZ (with default parameters), and matches were plotted by chromosome position. Matches to the rodent genomes were filtered to include only those with a sequence identity of at least 70% to the human sequence. The Ensembl database (http://www.ensembl.org/) was used to search for orthologous gene pairs between the X chromosome and the other three genomes.
Genomic sequence homologies between the X and Y chromosomes were identified by aligning the two finished chromosome sequences using WU-BLASTN, and then filtering the alignments to include only those of at least 70% sequence identity and 80 bp length. In order to calculate the sequence identity between large, XY-homologous regions, a global alignment of unmasked sequence was generated using LAGAN62. Gapped regions, which result from insertions or deletions, were removed from the alignment, and then the nucleotide sequence identity was calculated for the remainder. Sequence identity plots were produced by parsing the LAGAN output into VISTA63. GRIMM64 was used to calculate a most parsimonious series of inversions that would account for differences in homology block order and orientation between the X and Y chromosomes. Homologous protein-coding gene pairs between the X and Y chromosomes were identified by TBLASTN searching with the coding sequences of annotated coding genes on the Y chromosome against the X chromosome genomic sequence.
Supplementary information accompanies this paper.
http://www.nature.com/nature/journal/v434/n7031/fig_tab/nature03440_F1.html
http://www.nature.com/nature/journal/v434/n7031/fig_tab/nature03440_F2.html