In eukaryotes, unlike in bacteria, gene order has typically been assumed to be random. However, the first statistically rigorous analyses of complete genomes, together with the availability of abundant gene-expression data, have forced a paradigm shift: in every complete eukaryotic genome that has been analysed so far, gene order is not random. It seems that genes that have similar and/or coordinated expression are often clustered. Here, we review this evidence and ask how such clusters evolve and how this relates to mechanisms that control gene expression.
Организация генов внутри генома (gene order) м.б. рассмотрена на двух уровнях: во-первых, между хромосомами (напр., сравнение распределения генов между аутосомами и половыми хромосомами), и, во-вторых, внутри хромосом. Здесь мы сконцентрируемся на втором уровне: в частности обсудим доказательства и причины неслучайного расположения генов внутри хромосом.
Идея, что гены в геномах эукариот д.б. распределены неслучайно и, более того, гены со сравнимой и/или скоординированной экспрессией м.б. собраны в кластеры, важна для понимания функционирования генома. Эта идея также важна для практического использования. Напр., она м. объяснить, почему интактный ген в новой геномной локализации м. давать патологический фенотип1-4. Более того, понимание того, как и почему гены собираются в кластеры м.б. также важным для понимания развития и 5 и старения. Напр., в противоположность генам, которые усиливают свою активность в молчащих клетках (т.е., в тех, где происходит обратимый пролиферативный арест), усиливающие свою активность гены в клетках, которые подвергаются репликативному старению (необратимый пролиферативный арест), кластрируются6.
Степень, с которой локализация генов в геноме влияет на экспрессию, также важна, когда мы рассматриваем генетические модификации. Активность TRANSGENE м. зависеть от места интеграции в хромосоме (7) и некоторые полагают, что успешные манипуляции с геномами д. подождать, пока м не поймём причин POSITION EFFECTS1. Недавний анализ показал, что геномные области, которые содержат наиболее активно экспрессируемые гены, имеют наивысшую плотность генов8, это делает более вероятным, что функциональная интеграция д. зависеть от вмешательства др. генов. Понимание позиционных эффектов д. и поставляет информацию для разработки ген-терапевтических векторов и в отношении улучшения их эффективности7, 9 и их безопасности10.
C появлением большого числа статистически скрупулёзных анализов организации генов в целых геномах, которые опубликованы, прежде всего, мы стоим перед проблемой общей оценки динамики генных порядков (gene order) в геномах эукариот. В обзоре рассматривается неслучайное расположение генов у эукариот и делается попытка понять подлежащие мол. механизмы, обеспечивающие скоординированную экспрессию генов. В частности, какие существую доказательства неслучайного расположения (см Табл. 1), каковы возможные механизмы скоординированной регуляции, вполне возможно что селекция по скоординированной экспрессии м. объяснить инициальную эволюцию сцеплений во всех случаях и что поддерживаются ли кластеры отбором (и м. ли мы этого ожидать)?
Evidence for non-random gene order
Anecdotal evidence for clusters.
Неким образом нулевая гипотеза в отношении распределения генов у эукариот - случайное распределение вдоль хромосом - д. рассматриваться как пугало (straw man). Ещё до секвенирования целых геномов были известны многочисленные исключения. Большинство из них однако связано с тандемными удвоениями, напр., Hox и globin кластеры. И лишь единичными были наблюдения кластеров, которые не объяснялись тандемными удвоениями.
Так наиболее строгим сюжетным доказательством неслучаного распределния генов было наблюдаемое кластрирование IMPRINTED GENES11 млекопитающих. Однако такие кластеры не м. б. связаны с локальной cis активностью областей, контролирующих импринтинг, и , следовательно, не м.б. интерпретированы как необыкновенное исключения из правил случайного распределения генов11. На более ограниченной шкале имеются многочисленные сообщения о кластерах генов, связанных функционально(напр.,12-15). Напр., glutamine phosphoribosyl pyrophosphate amidotransferase (GPAT ) человека, которая необходима для инициальной ступени de novo синтеза пуринов, и phosphoribosylamidoimidazole-succinocarboxamide synthase (AIRC), которая кодирует энзим для последующих ступеней пути, тесно сцеплены16.
М. ли эти указания нарушить нулевую гипотезу? Проблема в том, что в случайном геноме м. ожидать курьёзные сопадения сцеплений. Следовательно, эти анекдотические случаи показывают, что имеется больше кластеров, чем это ожидается при случайном совпадении. Даже учитывая, что мы д. элиминировать тандемные удвоения в качестве причины, всё равно остаются многочисленные проблемы (см также Box 1). Во-первых, мы не имеем a priori ожиданий, какие гены д. давать кластеры, а какие нет. Итак, чтобы понять статистическую достоверность находок данных кластеров, необходимо понять, напр., не как часто GPAT и AIRC оказываются рядом др. с др. в каждом из случайных геномов, а как часто два или более генов, которые действуют в одном и том же пути, обнаруживаются по соседству. Т.к. мы не имеем ожиданий, что синтез пуринов д.б. необычным, то мы д. рассмотреть все 'comparable' пути (N.B. определение 'сравнимые' довольно проблематично).
Затем необходимо определить нулевое ожидаемое количество совпадений сцеплений генов в одном и том же пути (Box 1). Чтобы это сделать необходимы более обширные данные, чем доставляемые оригинальным наблюдением сцепления двух генов. Следовательно, хотя большие кластеры - такие как сцепленные гены, которые участвуют в утилизации quinic кислоты у грибов12 - строго указывают на неслучайное распределение генов, строгий анализ возможен только с данными по полным геномам. Мы м. сегодня, напр., ответить, имеется ли множество метаболических путей, в которых два или более генов образуют кластер, м.б. результатом случайного совпадения17. Однако установить, нуждается ли любой данный кластер в специальном объяснении, остаётся проблематичным. Несмотря на это тот же самый статистический инструмент м. использован, хотя и с меньшей силой, чтобы решить этот вопрос.
Evidence of clustering from whole-genome studies.
Изучение генов, которые участвуют в митотическом клеточном цикле у дрожжей Cho et al. впервые показало образование кластера CO-EXPRESSED генов на геномной шкале18. Они установили, что 25% генов с зависимыми от клеточного цикла паттернами экспрессии непосредственно соседствуют с генами, индуцируемыми на этой же самой фазе клеточного цикла (19). Кластеры ко-экспрессирующихся дрожжевых генов редко превышают десяток генов или несколько kilobases (C.P., не опубликовано). Хотя кластеры сходных размеров обнаружены у червя Caenorhabditis elegans, многие из этих кластеров не м.б. аттрибутированы в отношении ко-транскрипции этих генов в оперонах: процесс, который необычен среди эукариот. Примерно 15% генов C. elegans находятся в оперонах - это участки с 2-8 генами, которые транскрибируются в полицистронные пре-мРНК20. Хотя опероны, вместе с тандемно удвоенными генами, объясняют большую часть наблюдаемых кластеров ко-экспрессии у червя21, достоверная локальная ко-экспрессия всё еще доказуема после исключения двух этого типа причин21, 22.
Кластеры ко-экспрессирующихся генов у многоклеточных эукариот м.б. существенно больше, чем те, которые описаны у дрожжей и червей. У Drosophila melanogaster, 45% генов, которые экспрессируются только в семенниках, обнаружены в непрерывающихся участках, по крайней мере из 4-х генов23. Однако недостаточно чёткое определение кластеров, которое делает возможным вмешательство генов с др. паттерном экспрессии, ведет к идентификации более крупных групп ко-экспрессирующихся генов. Если в среднем ко-экспрессия занимает промежуток в 10-kb, то Spellman and Rubin нашли, что 20% генов д. появляться в co-expression кластерах, состоящих из 10-30 генов или занимать в среднем 125 kb ДНК24. В геноме Arabidopsis thaliana, co-expression кластеры (за исключением тандемных дупликаций) м. занимать до 20 генов25-27, a изучениеQUANTITATIVE TRAIT LOCUS (QTL) показало, что они м. б. значительно больше28.
Физическая шкала ко-экспрессии, по-видимому, даже больше у млекопитающих, с кластерами распространяющимися на 1,000 kb (29). Некоторые сообщения30-35 показывают, что чем больше body of cDNAs (или ESTs) экстрагируется из данной ткани, тем больше генов, которые специфицируют белки, стремятся образовать кластеры в геноме. Др. сообщения отмечают, высоко экспрессирующиеся гены, выявляемые с помощью SERIAL ANALYSIS OF GENE EXPRESSION (SAGE) меток (tags), стремятся объединиться в кластеры в больших доменах (regions of increased gene expression; RIDGEs)8,36. Сходным образом, TRANSCRIPTION-COUPLED REPAIR являются выдающимися специфическими хромосомными доменами37, хотя подобный паттерн м. отражать изменчивость в плотности генов. Lercher et al.29 полагают, что все эти паттерны м.б. объяснены тенденцией формирования кластеров (в среднем) высоко экспрессирующихся генов домашнего хозяйства. Они отмечают, хотя гены и стремятся в кластеры в соответствии с их EXPRESSION BREADTH даже если их EXPRESSION RATE контролируется for, они не обнаруживают тенденции к образованию кластеров в соответствии со своей величиной экспрессии (expression rate), если контролируется размах (breadth). Это не говорит о том, что ткане-специфические, высоко-экспрессирующиеся гены в кластерах не м.б. идентифицированы8, просто доминирует тенденция кластрирования генов, которые экспрессируются во многих тканях.
Lercher et al.29 также отмечают, что часто не возможно найти доказательств образования кластеров по ткани для ткане-специфичных генов - напр., гены, которые экспрессируются только в мышцах, не обнаруживают тенденции кластрирования с др. генами, которые также экспрессируются только в мышцах. Достоверное кластер-образование выявляется для 4 из 14 тканей, но только одна остается достоверной после контроля с множественным тестированием. Кластрирование ткане-специфичных генов, однако точно описано для тестис-специфических генов у мух23. Содержит ли геном человека блоки множественных генов, которые экспрессируются исключительно в одной и той же ткани, остаётся неизвестным.
Однако это м.б. одним из главных вопросов. Учитывая доказательства ткане-специфического хромосомного молчания38, м. было бы более увереннее ответить, существуют ли хромосомные домены, которые ассоциируют с up- или downregulation в данной ткани. Получены доказательства такого кластрирования39, 40, хотя эти исследования не учитывали влияния тандемных дупликаций. Таки кластеры ко-супрессируемых генов распространяются на несколько megabases40.
Итак, имеются обширные доказательства кластрирования ко-экспрессирующихся генов во всём огромном царстве эукариот. Однако, по-видимому, д. существовать корреляции между физическими размерами кластеров и сложностью организма с величинами кластеров, варьирующих от нескольких kilobases у дрожжей до нескольких megabases у млекопитающих (41). Частично это м.б. объяснено различиями в компактности геномов; однако это м. также отражать разные лежащие в основе механизмы.
Are functionally related genes clustered?
Бактериальные опероны часто состоят из генов, которые функционально родственны, являясь частью одного и того же метаболического пути. Образуют ли кластеры функционально родственные гены и у эукариот? Ответ до некоторой степени зависит от того, как мы определим функциональную связанность. В отличие от ко-экспрессии, способ определения 'функциональной связанности' довольно неопределенный. Это м.б. участие в одном и том же пути, при котором белки взаимодействуют др. с др. или гены, аллели которых затрагивают одни и те же признаки и т.д. М.б. и перекрывание всех этих значений.
Lee and Sonnhammer17 проверяли физическое расположение в многочисленных геномах генов, белки которых участвуют в метаболических путях для создания KYOTO ENCYCLOPAEDIA OF GENES AND GENOMES (KEGG) базы данных. У всех изученных видов (человек, червь, мухи, A. thalianaи дрожжи), выявлена достоверная тенденция для генов одного и того же метаболического пути давать кластеры. Однако части путей с достоверным хромосомным кластрированием генов были очень изменчивы, в пределах от 30% у D. melanogaster до 98% у дрожжей, при ожидании 11% исходя из нулевой гипотезы17. По крайней мере, в одном хорошо охарактеризованном примере кластер генов возникал независимо у двух разных видов.
Сходным образом, у дрожжей гены, которые вовлекаются в устойчивые межбелковые комплексы имеют тенденцию к более тесному сцеплению, чем ожидалось43. Cooper13 полагает, что в геноме людей белки стремятся быть сцепленными со своими рецепторами. Однако анализ всего генома показывает, что количество таких совпадений не отличается от случайного (L.D.H., C.P. and M.J.L., не опубликовано). Менее здравый подход к идентификации функциональных кластеров генов - это проверка кластрирования QTLs, картированных для любого данного признака. Некоторые такие исследования QTL выявили ко-локализацию QTLs для родственных признаков28, 44-46. Однако эти эффекты м.б. результатом изменчивости плотности генов или множественности эффектов одного гена и его контрольных последовательностей.
Взаимоотношения между представленными выше функциональными кластерами и co-expression кластерами часто довольно неопределённы. В немногих случаях изучалась связь между ко-экспрессией и ко-функциональностью. У дрожжей многие гены в co-expression кластерах, по-видимому, функционально связаны - они или прирнадлежат к одной и той же MUNICH INFORMATION CENTRE FOR PROTEIN SEQUENCES (MIPS) категории19 или к одной и той же GENE ONTOLOGY (GO) классификации41. Сходным образом у A. thaliana, и гены, белковые продукты которых взаимодействуют, и гены, которые действуют в одном и том же пути (определено с помощью KEGG)объясняют некоторые, но не все кластеры ко-экспрессии25. Кластрирование ко-экспрессирующихся сцепленных генов, которые принадлежат к одной и той же GO категории, довольно редко у людей41. Хотя некоторые функционально родственные гены и обнаруживаются в co-expression кластерах у D. melanogaster, они, по-видимому, в основном результат тандемно удвоенных генов24, 47.
Evidence for regular spacing of genes.
Редко рассматривается возможность того, что гены м.б. регулярно распределены в пространстве. Kepes48 сообщил, что гены, которые регулируются одним и тем же сиквенс-специфическим транскрипционным фактором, имеют тенденцию регулярно распределяться вдоль хромосом дрожжей. Регулярное пространственное расположение вдоль хромосом ко-экспрессирующихся пар генов, определенное с помощью chip array данных, было описано у Saccharomyces cerevisiae19, 49 и D. melanogaster, но эти сообщения м.б. артефактами технологии чипов
50.
Mechanisms
Имеется широкое расхождение показателей ко-экспрессии, для тех, которые действуют на относительно малой локальной шкале, и тех, которые действуют на значительно более широких геномных пространствах. Мы полагаем, что такой паттерн согласуется с тем, что известно как механизмы ко-экспрессии (Рис. 1).
Согласно простой нулевой гипотезе экспрессия генов зависит только от промоторов в их непосредственной близи. Тривиально, тендемные удвоения имеют тенденцию иметь сравнимую экспрессию, т.к. они имеют сравнимые промоторы21, 51. У дрожжей18, 19, 52 и у людей13, 16, 25, 53, 54 м.б. выявлена определённая ко-экспрессия соседних генов для BIDIRECTIONAL PROMOTER, которые находятся между двумя генами. Сходным образом, хотя и имеются POLYCISTRONIC TRANSCRIPTS у некоторых эукариот20, 55-57, такие показатели не нарушают простой 'promoter-drives-expression' модели, тем более что известны гены, гнездящиеся внутри интронов др. генов. В крайнем случае, ко-экспрессия множественных сцепленных генов достигается за счёт слияния всех генов, делающих один белковый продукт58, 59.
Однако даже на малой шкале эта простая нулевая модель неспособна объяснить всё. В частности, cis эффекты, такие как ниже стоящие эффекты от upstream activating sequences (UAS), объясняют некоторые примеры чёткой ко-экспрессии пар генов19. Более того, более широкая шкала паттернов ко-экспрессии указывает на то, что модель промотором-управляемой-экспрессии слишком упрощена, т.к. параллельные исследования, которые выявляют, что более высокого порядка признаки являются критическими для понимания хромосомных доменов экспрессии.
Помимо одномерного расположения генов на хромосоме для понимания экспрессии генов важно учитывать два более высоких уровня хромосомной организации: состояние хроматина и его расположение внутри ядра (особенно его близость к внутриядерной связанной с транскрипцией кухне). Эти два признака взаимодействуют и часто трудно различить две причины. Плотно упакованное состояние ДНК (гетерохроматин), которое делает гены в основном недоступными для транскрипционных факторов (а значит транскрипционно некомпетентными) имеет тенденцию располагаться на периферии ядра60-62. Здесь мы будем иметь дело только с главным свойством, важным для понимания экспрессии кластеров.
Chromatin-level regulation.
Изучение успешности трансгенных вставок показало, что вставки в гетерохроматин имеют тенденцию инактивироваться7, 9. Хроматин однако не является статичным и переходы между состояниями связаны с изменениями в экспрессии генов63 и причинно близки ковалентным модификациям стержневых гистонов64.
Наилучшая современная модель показывает, что специфические гистон-модифицирующие белки инициируют открытие или закрытие хроматина (напр., в locus control region (LCR)) и что эта модификация распространяется вдоль хромосомы до тех пор, пока не встретит пограничный элемент65, 66. Таким образом все гены в области хромосомы м.б. защищены от экспрессии. Напротив, хромосомная область м.б. доступной для транскрипции, но будут ли эти гены активно экспрессироваться зависит от др. факторов, таких как состояние DNA METHYLATION, позиции ядра, доступности транскрипционных факторов и cis-UAS эффектов19. Следовательно, м. ожидать увидеть скорее домены подавления (38), чем домены скоординированной активации. В самом деле, Akashi et al.5 предложили модель на базе этого типа предпосылок. Они полагают, что стволовые клетки имеют в основном открытую формацию хроматина и каждая ступень в направлении специализации сопровождается подавлением генов в специфических регионах хромосом.
В некоторых случаях эти модификации стабильно наследуются с помощью клеточных делений и являются , следовательно, важными для дифференцировки и развития65. Разные механизмы молчания имеют разные последствия для стабильности молчания. Напр., молчание с помощью метилирования лизина гистона обратимо только с помощью медленного процесса замещения гистона или с помощью репликации ДНК. В др. случаях модификации м.б. быстро модулированы с помощью изменения активности HISTONE ACETYLASES и HISTONE DEACETYLASES (HDAC) (67).
Взаимоотношения между модификациями хроматина и ко-экспрессией продемонстрированы у дрожжей. Дрожжи содержат семейство из 5 родственных HDACs. Используя CHROMATIN IMMUNOPRECIPITATION и межгенные микромассивы, чтобы получить карты для всего генома активности HDAC, Robyr et al.67 сообщили, что дрожжи неспособны модифицировать хроматин, чтобы активировать блок генов, которые ассоциированы с данной функцией. Hda1, напр., деациетилирует субтеломерные домены, которые содержат обычно репрессированные гены, которые используются вместо него для глюконеогенеза, роста на carbon источниках, иных чем глюкоза при условиях неблагоприятных для роста. Напротив, Hos1/Hos3 и Hos2 преимущественно затрагивают рибосомальную ДНК и гены рибосомальных белков, соотв.
У людей имеются доказательства того, что схожие механизмы м. объяснить инактивацию блоков ткане-специфичных генов. Zinc-finger gene-specific repressor element RE-1 silencing transcription factor (REST) м. обеспечивать ограничение генной активности в не-нейрональных тканях путём наложения активной репрессии посредством вовлечения histone deacetylase38. Считается, что вовлечение ассоциированного ко-репрессора, CoREST, также м. б. способным вызывать долговременное молчание генов, которое м. распространяться по хромосоме38, затрагивая транскрипционные единицы, которые собственно не содержат REST чувствительных элементов.
Three-dimensional structure and intra-nuclear position.
Мы знаем, что оттеснение генов на периферию ядра у дрожжей индуцирует молчание68, это указывает на то, что локализация внутри ядра м.б. важным компонентом в обеспечении или репрессии транскрипции. В самом деле, интерфазные хромосомы у большинства видов занимают уникальную, относительно компактную позицию в ядре60. более того, хромосомы с плотным расположением генов имеют тенденцию оставаться более центральными в ядре60, 69, это также указывает на то, что м. существовать взаимоотношения между трехмерной позицией и экспрессией.
М. ли надеяться, что определенная внутриядерная локализация также управляет эволюцией сходно экспрессирующихся генов в кластеры определенных регионов хромосом? Такая возможность рассматривается для rRNA генов. Сцепление этих генов получает смысл, т.к. они ассоциированы с ядрышком: факторией, которая способна обеспечивать быструю их экспрессию.
Имеются ли и др. внутриядерные структуры, которые м.б. столь же важными? SC-35 DOMAINS являются одной из таких групп, которые м. способствовать кластрированию генов70. Обычно эукариотические ядрышки содержат 10-30 выделяющихся доменов, которые концентрируют мРНК метаболических факторов. Богатые генами reverse-chromosomal диски71 обнаруживают обширные контакты с этими доменами70, с преувеличенной тенденцией к доменам широко и сильно экспрессирующихся генов, чтобы быть локализованными в GC-богатых R-дисках72 (Рис. 2). Shopland et al.70 полагают, что эти находки указывают на функциональную причину для кластрирования генов в дисках хромосом, которое схоже с ядерным кластрированием генов с SC-35 доменами. Они выдвигают модель SC-35 доменов как функциональных центров для множества кластрированных генов, формирующих локальные эухроматиновые содружества ('neighbourhoods'). Эта модель указывает также на механизм ограничения экспрессии даже в эухроматине - т.е., хроматин м. б. открытым, но если ДНК не ассоциирована с SC-35 доменами, то транскрипция будет лимитирована.
Однако, являются ли ядерная локализация и хромосомное кластрирование тесно скоординированными, остаётся неясным73. Предполагаются др. история: гены ассоциированные с ядрышком, но не ко-локализованы в хромосоме. Итак, внутриядерная локализация м. предопределить потенциал генной экспрессии, но не обязательно д. приводить к эволюции образования кластеров генов в хромосомах.
Анализ ко0-регулируемых генов у дрожжей подтверждает идею, что отбор, который действует на локализацию генов м. и не вызывать образование кластеров генов, но м. несмотря на это управлять неслучайным распределением генов48. Kepes предположил, что трехмерное расположение генов внутри ядра м. поддерживать регулярное размещение генов, которе находится под контролем данного транскрипционного фактора. Особенно, если ДНК NUCLEOSOMAL FIBRE складывается в топологически закрытую петлю регулярного размера, тогда промоторы регулярно расположенных генов будут давать кластер в небольшой области ядерного пространства. Эта модель сравнима с 'active chromatin hub' моделью регуляции генов62. Согласно этой модели, по крайней мере, две cis-действующие регуляторные структуры возможно на концах широко определяемой области, приходят в соприкосновение в трехмерном пространстве, формируя ДНК петлю. Экспрессия генов тогда делается возможной только при тесной близости к точке, где элементы д. встречаться. Множественные петли должны тогда действовать, чтобы обеспечить ко-экспрессию регулярно распределенных генов и ингибирование проникших (intervening) генов.
Between-species comparison of co-expression modes.
Варьируют ли механизмы ко-экспрессии у разных генов? Определенно образование кластеров ко-экспрессирующихся генов во всех геномах эукариот не обязательно предполагают сходство подлежащих механизмов. Напр., опероны являются общераспространёнными у червей20, но редуи у др. эукариот55-57. Сходным образом, хотя и возможно, что у всех видов тандемные дупликации вносят вклад в ко-экспрессию, у червей это происходит необычно часто21. Двунаправленные промоторы м. объяснить многие случае ко-экспрессии пар генов у дрожжей18, 52, но они встречаются не у всех пар19. Их роль у др. видов только начинает исследоваться на геномной шкале.
Менее ясно значение регуляции на уровне хроматина. Гистонами модифицируемые геномные домены у дрожжей хорошо описаны 67. Однако анализ всего генома у червей выявляет мало доказательств, что широкомасштабные эффекты обеспечивают ко-экспрессию21. Пока неясно, насколько распространена хроматином обусловленная инактивация широких наборов генов в геноме людей5, 38.
Итак, различия между видами по механизмам, которые обеспечивают неслучайное распределение генов, скорее количественные, чем качественные. Несмотря на это м. существовать механизмы, которые действительно ограничены определенными таксонами. У мух, напр., имеется связь между временем репликации и инициацией транскрипции74, но такие эффекты не обнаружены у дрожжей75. Сходным образом, метилирование, хотя и редкое у D. melanogaster широко распространено у растений и позвоночных и отсутствует у дрожжей76.
Formation and maintenance of clusters
Почему образуются кластеры? Чтобы ответить на этот вопрос. мы сначала ответим является сама неслучайная организация доказательством отбора в пользу генных порядков? Затем необходимо определить, насколько адекватно предположение, что благодаря современной организации становится возможной ко-регуляция и что отбор по ко-регуляции управляет процессом агрегации.
Неслучайное расположение генов не обязательно нуждается в активности естественного отбора. Во-первых, если экспрессия генов является шумовым процессом, тогда открытие хроматина для осуществления экспрессии одного из генов м. случайно позволить leaky экспрессию сцепленных генов24. Даже учитывая, что у D. melanogaster, большие области ко-экспрессии не являются также регионами, в которых гены функционально родственны24">24, эта модель не м.б. тривиально сброшена со счетов.
Во-вторых, случайная модель оказалась плохой нулевой моделью, т.к. она не способна объяснить склонностей в скорости и величинах различных форм генных перестроек (duplication, transposition/retroposition, translocation, inversion, и т.д.), и в параметрах, которые отличны у разных видов77-79 и у разных хромосом 80. Удаление тандемных дупликаций желательно, т.к. это позволяет скорректировать известные смещения. Retroposition также м. вызывать подобные смещения в расположении генов: инсерции ретротранпозирующих вирусов, по-видимому, более распространены в открытом хроматине81. Такие смещения сами м. бы объяснить, в принципе, почему плотность генов неслучайна и почему высоко экспрессируемые гены стремятся располагаться в областях с наивысшими плотностями генов8 - т.е., высоко экспрессирующиеся гены облаюают самой высокой вероятностью оказаться в открытом хроматине, а , следовательно, новые гены будут вставляться поблизости. Сходным образом, кластирование генов, ассоциированных с органеллами, в ядерных геномах D. melanogaster82 и A. thaliana83 м. отражать ничего более как блокирование переноса генов из органелл в ядро83.
Итак, открытые многие структуры в геномах, которые ранее и не предполагались, не нуждаются в участии отбора. Однако присутствие функциональных кластеров указывает на то, что селекция важна. Итак, исходя из предположения, что селекция м. действовать в пользу определенных генов, чтобы они ко-экспрессировались, м. ли мы предположить, что она м. объяснить эволюцию кластеров? Инсерция гена в область м. непосредственно влиять на профиль его экспрессии. Напр., ген перемещается в хромосомный домен, который регулируется с помощью Hda1, то мы м. предположить, что регуляция кластера будет влиять на его активность. Этого типа модель д. б. протестирована с помощью анализа экспрессии характеристик de novo ретровирусных инсерций, чтобы определить, м. ли они вставляться в транскрипционно более компетентный хроматин и быть готовыми к экспрессии. Предварительные данные подтверждают идею, что что высокое содержание GC в инсерционных сайтах необходимо для активности84. Это согласуется с сообщениями, параметры генной экспрессии варьируют в зависимости от содержания GC во фланкирующих последовательностях8,72,85.
Некоторые типы ко-регуляции м. нуждаться в дополнительных ступенях, таких как эволюция двунаправленных промоторов или возникновение оперонов. Такая неувязка между потенциальной ко-экспрессией генов и причиной для сборки оперонов отмечалась ранее86,87. Рассмотрим эволюцию оперонов от двух функционально родственных, но первоначально несвязанных генов (A и B). Почему A и B м. предпочесть придти в соприкосновение? Lawrence86, 87 полагает, что до эволюции полицистронных транскриптов невозможно предположить что каждое тесное сцепление является способом возникновения ещё более тесной ко-экспрессии. Следовательно, хотя отбор и м. действовать в пользу адсорбции двух генов в одиночный оперон, поскольку они тесно сцеплены, но отбор по ко-экспрессии не м. объяснить исходной эволюции сцепления. Имеется, по крайней мере, два альтернативных объяснения для инициальной ко-локализации генов: или существовали некие др. силы, способствующие сцеплению или случай сводил два гена в тесную близость.
Selection for linkage independent of selection on co-expression.
Какие же др. силы м. способствовать сцеплению? Lawrence86 полагает, что сцепление функционально родственных генов у прокариот м. позволять одновременно горизонтальный перенос. Однако имеются доказательства против этой модели у прокариот88, a её пригодность для эукариот ограничена. Более важно взаимоотношение между экспрессией и сцеплением, а основная популяционно-генетическая теория эволюции скорости рекомбинации89-92 (а , следовательно, сцепления) была не использована. В 1930, напр., Fisher отметил. что если, у гаплоидов аллели A и B вместе обеспечивают более высокую приспособленность, также как a и b, тогда т.к. Ab и aB имеют низкую приспособленность, то отбор будет действовать в пользу возникновения и поддержания, LINKAGE DISEQUILIBRIUM между ними, чтобы сформироватьAB и ab кластеры, которые редко будут разрываться рекомбинацией благодаря тесному генетическому расположению.
Хотя обсуждались многочисленные примеры15,90,94,95, но вообще-то более строгие доказательства были получены на локусах типов спаривания Chlamydomonas reinhardtii96 и MEIOTIC-DRIVE 'генов'97, 98 (Box 2). Проблема с этими примерами, также как и находка образования кластеров импринтируемых генов11, заключена в том, что они м.б. просто необычным феноменом, который ассоциирует с необычными генами. Сходным образом было показано, что MAJOR HISTOCOMPATIBILITY COMPLEX (MHC), новые благоприятные аллели м.б. созданы с помощью GENE CONVERSION99. Хотя это м. обеспечить отбор на сцепление (100), но это приложимо только к генам одного и того же семейства.
М. ли популяционно-генетические силы, которые способствуют сцеплению, оказывать широкомассштабные эффекты на расположение генов. Недавние доказательства указывают на тою что это возможно. И у дрожжей101 и червей101">101,102, существенные гены (чей нокаут несовместим с жизнью) образуют кластеры в геноме. В обоих случаях кластеры были ассоциированы с низкими частотами рекомбинации (Рис. 3), это указывает на то, что популяционно-генетическая модель для сцепления м.б. необходима. М.б. существует простое NEUTRALIST объяснение: рекомбинация м. оказаться способной создавать тандемные удвоения. Т.к. удвоения имеют тенденцию быть несущественными103, то области высокой рекомбинации м. оказаться областями кластеров несущественных генов. Однако мы нашли относительно немного остатков тандемных дупликаций в областях с высокой рекомбинацией и это лёгкое отклонение не м. объяснить наблюдаемую ассоциацию между генами необязательными и величиной рекомбинации (C.P., не опубликовано). Pal and Hurst101 показали на дрожжах, что такое образование кластеров не связано с ко-экспрессией. Nei91 показал, что если вредные аллели, которые поддерживаются в mutation-selection равновесии, взаимодействуют с позитивным эпистазом (организмы с двумя мутациями повреждаются не столь сильно как каждой мутацией в отдельности) то отбор будет действовать в пользу сцепления генов и будет снижать частоты их рекомбинаций. Он полагает, что существенные гены более склонны давать убежище позитивным эпистатическим мутациям104. Сходны образом. инсерции 105 у мух появляющиеся как супрессоры рекомбинации, чтобы поддерживать позитивные эпистатические взаимодействия между локусами внутри генных перестроек. Напротив, Gessler and Xu106 отмечали, что сила отбора по энхансерам рекомбинации слабее, если сила отбора по вредным мутациям в двух сцепленных генах выше, как и ожидается для существенных генов.
Альтернативная возможность заключается в том, что отбор м. способствовать довольно важным генам, чтобы они оказывались в мутационно холодных точках, которые соответствуют также областям низкой рекомбинации107,108. Pal and Hurst не нашли доказательств. что существенные гены имеют особенно низкие скорости мутаций у дрожжей. Эта интерпретация однако позволяет объяснить формирование кластеров генов со сходными скоростями синонимных замен (a proxy for the mutation rate) в геноме человека109. Отметим, что гены в холодных мутационных точках смещены109 в направлении существенных клеточных процессов (генной регуляции, процессинга РНК и т.д.).
Are clusters maintained by selection?
Итак, как и почему кластеры генов формируются, остаётся неясным, ничего нельзя сказать и отношении того, действует ли отбор для поддержания их. когда они уже сформированы? Хотя высокие скорости эволюции порядков генов м. принимать как доказательство отсутствия ограничений110, а более детальный анализ подтверждает роль селекции 111. У дрожжей имеется, по крайней мере, два строгих независимых предсказателя вероятности того, что данная пара генов будет всё еще сцеплена у Candida albicans: размер межгенного спейсера и степень ко-экспрессии111. Роль межгенного спесера согласуется с простой нулевой нейтралисткой моделью, согласно которой только перестройки с точками разрывов между генами являются переносимыми. Однако ко-экспрессирующиеся гены остаются сцепленными больше, чем ожидается, это указывает на то, что селекция м. действовать в пользу их сохранения в паре (112). Сцепленные пары существенных генов у дрожжей также сохраняются сцепленными более часто, чем ожидается101. тогда неясно, почему кластеры метаболически родственных генов не особенно хорошо законсервированы между видами17. Одним из возможных объяснений является то, что отбор по важности любого данного метаболического пути варьирует время от времени в данном сцеплении. Др. возможность в том, что сцепление не находится под действием отбора.
Если ко-экспрессия происходит на широкой шкале уровня хроматина, то м. ли мы ожидать сходную селекцию генных порядков? Если мы возьмём Hda1 контроль участка генов у дрожжей, которые ассоциированы со стрессовой реакцией67 в качестве модели, то ответ будет, нет. Если кластер сформирован под действием отбора, то следует ожидать, что кластер будет сохраняться внутри соотв. хромосомного домена, но точный порядок и ориентация, не обязательно будут под давлением отбора. Это предположение пока не получило поддержки, хотя недавно было объявлено, что MHC имеет законсервированный состав генов, но их порядок не законсервирован
113.
Summary and outlook
It is no longer tenable to suppose that gene order in eukaryotes is random. Parallel advances in our understanding of the control of gene expression and their distribution in the genome have led to a new, more organized, view. Although we are not yet at a position in which we can present a complete integration of the bioinformatic results, the understanding of chromatin and the role of intra-nuclear location, such an integration is both necessary and realistic.
Nonetheless, if eukaryotic gene order is not random, what sort of model might take its place? The idea of the genome as, in part, a series of chromosomal blocks, each being opened for the potential for transcription or inactivated under particular conditions, seems like a helpful, guiding new model. It agrees well with the notion that stem cells generally have open chromatin and that part of the development of specificity is the inactivation of particular spans of genes5. It also tallies with the evidence for a region of downregulation of neuronal-specific genes and with the division of labour between histone deacetylases in yeast67.
However, as always, a new model generates new questions. For example, is the extent of genome organization the same in all species? We have been struck by the extent to which many patterns are highly discernible in yeast. Of all the complete genomes, yeast has the highest degree of linkage of genes that have proteins that are involved in the same metabolic pathway17, it shows the most striking clustering of essential genes into regions of low recombination101 and has many incidences of highly coordinated expression of linked genes19, 52. We can also imagine reasons why genomes might vary in the extent to which they are organized. One possibility is that organisms with a large EFFECTIVE POPULATION SIZE (which we assume yeast must have) should be able to resist the spread of weakly deleterious mutations and therefore are expected to be more 'optimally' organized114. Alternatively, we might expect the genomes of more 'complex' organisms to be more 'organized', and as such, organization might be necessary in development5. Indeed, could a connection between GC content and regional transcriptional competence8, 72, 85, 115 explain the evolution of isochores in mammals (Fig. 2)?
The above new model supposes that selection that favours coordinated control of gene expression is the only reason for gene-order evolution. However, not only is it often difficult to eliminate sophisticated neutralist models, but there are counter-examples to indicate that selection can favour linkage for other reasons. Although the need to evoke alternative models has been advocated87 and evidence that population genetics models are needed has been provided101, the relevance of prior population genetics theory for gene-order evolution89, 91 is uncertain.
More generally, there is the need to develop a theory of genome-organization evolution, taking into account the mechanisms of genome rearrangement, mechanisms of control of gene expression and the evolutionary forces that result from different interactions of loci. Understanding how genes are rearranged will be important in defining a more appropriate null. Moreover, different mechanisms have different population-genetic consequences. Inversions alter recombination rates and duplicates can mask deleterious mutations, whereas translocations might disrupt meiosis. Modelling the evolution of gene order, from both selective and neutralist perspectives, represents a considerable challenge.
Boxes
Box 1 | Genome-wide analysis of gene clusters: statistical considerations
To find non-trivial cases of non-random gene order, it is necessary to start by formulating a test function. This measures the degree of order in the genome. For example, in assaying the clustering of essential genes in a genome, the frequency with which an essential gene has another essential gene as its immediate neighbour might be considered. After determining the value of the function for the real genome, we then ask how often this figure or higher would be observed if gene order were random. To do this, we must define a null and test for deviation from it.
Testing for deviation from the null is often best done by randomizing the location of genes in a genome, recalculating the test function for the random genome and repeating this process many times. This generates the null distribution of values of the test function. The real value can then be compared with this distribution. If there are n random simulants and r have a test score that is equal to or greater than that observed in the real data, the probability (p) of observing the degree of order that is seen in the real genome is given in equation 1.
The rules that are used to define a 'random' genome define the null hypothesis that is being examined. A common null hypothesis is that there is a lack of spatial pattern in the distribution of genes with shared properties. The simplest procedure, then, is to allow, in randomizations, any gene to assume any 'location' in the genome while preventing two or more genes from assuming the same location. However, this often fails to exclude trivial or competing biological explanations. For example, the presence of tandem duplicates can lead to a deviation from random as they can show similar properties (that is, expression profiles) that result from common evolutionary history or experimental design (for example, cross-hybridization in microarray studies). If the physical location of genes is of interest, rather than their order alone, the null should reflect observed gene-density variation. One problem with cluster analysis using quantitative trait loci (QTLs) is that the null often supposes an equal probability of finding a gene in all genomic locations.
Differences in generating random gene-order variants mean that the results of different randomization studies are often difficult to compare. Alternative analytical methods therefore have attractions. A few studies116, 117 elaborate exact analytical solutions or approximate formulae for non-random gene distribution or borrow previously elaborated methods from time-series analysis118. In many cases, however, randomization seems the only tractable method.
Box 2 | Supergene clusters with low recombination rates
Supergene clusters are genomic regions in which selection favours tight linkage to maintain linkage disequilibrium between alternative alleles at two or more loci. The mating-type locus of the single-celled green alga Chlamydomonas reinhardtii is an example. For instance, the chloroplasts in the zygote of this species are derived from both parental cells but a 'destruction' allele in one of the gametes eliminates the chloroplast genomes of the mating partner beforeSPORULATION. Haploid gametes with this allele should be under selection to avoid mating with each other. Assuming that uniparental inheritance is beneficial, cells without this allele will be under selection to mate with a partner that does have the allele. Selection can then favour the linkage of the organelle-inheritance allele with a mating-type allele, as linkage disequilibrium between them reduces the rate of the more deleterious matings: destroyer with destroyer, non-destroyer with non-destroyer. Therefore, it is predicted119, 120 that mating-type (+ and - type) and organelle-inheritance alleles should come to be linked and to be in strict linkage disequilibrium (all gametes of one mating type should be the destroyer type, whereas all gametes of the opposite mating type should be the non-destroyers). This is what is seen96, 121. The genome region has features that minimize the recombination rate within it96, including inversions, rearrangements and insertions.
The other well-described supergene clusters are segregation distorters, such as Sd in flies and t-complex in mice98. In the simplest model, at around the time of male meiosis, a toxin is given to all sperm, but the anti-toxin is restricted to those sperm that contain the anti-toxin allele. Selection strongly favours linkage of the alleles for toxin and anti-toxin, as a chromosome that bears the toxin allele but not the anti-toxin allele is immediately eliminated from the population122, 123. As predicted, the genes are usually in regions of low recombination (for example, centromeres) and often have inversions98. SD has at least two loci, Sd and Rsp. Sd+ is the toxic allele and alleles at Rsp determine sensitivity to the toxin. The two loci span the centromere on chromosome 2 and are often associated with an inversion. As predicted, a modifying allele (E(Sd)) that increases the extent of segregation distortion is linked to and is in linkage disequilibrium with SD, residing between Sd+ and Rsp.