Два "проекта" по геному человека выполнены: a public version (Human Genome
Project) и Celera version (
). Полностью секвенированы части генома человека, включая эухроматиновые порции (q-плечи) хромосом 21 и 22 (Chr21 и Chr22, соотв.). В целом 34.55 Mb (около 97%) Chr22q секвенировано в 12 contigs, и 33.6 Mb Chr21q секвенировано в 4 contigs. Ни одно из
-плеч Chr21 иChr22, в основном гетерохроматиновых, не было сексенировано целиком. Описание для Chr22 (as of
March 6, 2001) доступно двух типов: (
) полные генные структуры, специфицирующие все экзоны и интроны плюс 5' и 3' нетранслируемые области
(UTRs), и(
) coding sequence structures (CDSs), ограниченные экзоновыми областями, транслируемыми в белки, и интронами между ними. Нет CDS аннотации для Chr21.
Исследовали среди прочего, распределение генов, псевдогенов (Ψg), повторов (в основном Alu элементов), и частоты изменчивости G+C (frequency (
Fgc)). Выявлены: (
i) корреляции и ассоциации генов, Ψg, Alu
counts и
Fgc изменчивостью; (
ii) генов 5' и 3' межгенные длины;
(
iii) количесива, длины и распределение из одиночных экзонов
(intronless) генов; (
iv) распределение генов с разными количествами экзонов; (
v) сравнения внутригенных длин для consecutive пар генов с -,-,+) дивиргентными ориентациями и (+,-) конвергентными ориентациями; (
vi) относительное распределение Alu и Ψg последовательностей в межгенных областях vs. интронах; (
vii) очевидные гены (напр., гены рибосомальных белков) среди Ψg gпоследовательностей; (
viii) распределение Ψg последовательностей, ассоциированных с processed или малыми генами по сравнению с мультиэкзонными генами; (
ix) статистика экзонов, которые транскрипбируются, но не транслируются; и
(
x) до какой степени гены, Ψg, b Alu последовательности кластрированы или сверхдиспергированы в Chr21 и Chr22.
Имеется 3 базы данных, влючающих Chr21 и Chr22. Оригинальный Riken gene catalog of Chr21, the Sanger Centre database of Chr22, the University of California Santa Cruz (Golden Path) collection по Chr21 и Chr22, и поддерживаемая National Center for Biotechnology Information, полученная и расширенная Golden Path. Наборы последовательностей в действительности из одного и того же источнка. Известные гены человека, с распознанными названиями, в прекрасном (но не точном) соответствии с наборами баз данных. Однако, имеется множество различий в описаниях в отношении ORFs,
предполагаемых генов, совпадения spliced expressed sequence tags и альтернативных сплайсингов. В работе для анализа использованы в основном Riken
и Sanger Centre база.
Chromosomal Counts of Genes, Ψg, and Alus
Описание Riken Chr21 (33.6 Mb) сообщает о 214 полных генных структурах, 53 Ψg, и 12,168 Alu элементах (as of Jan. 16,
2001). На Chr22q (34.5 Mb) согласно описанию Sanger 552
гена, 145 Ψg b 21,993 Alu элементов. Следовательно, на примерно одну и ту же длину эухроматина в Chr22 более чем вдвое генных структур и почти вдвое больше Alu последовательностей и в 3 раза больше Ψg, что согласуется с более высоким показателем
Fgc в Chr22 (48%) по сравнению с Chr21 (42%). Хромосомы с большим количеством генов имеют более доступную геномную ДНК в отношении Ψg и Alu последовательностей, частично из-за более высокой транскрипционной активности, так что ключевым детерминантом в этом подсчете является более высокая плотность генов и более высокое содержание G+C в Chr22 по сравнению с Chr21. Среди хромосом человека Chr19 имеет наивысшее содержание G+C (в целом 49%), наивысшую плотность генов, наивысшее CpG dinucleotide bias и больше CpG островков, следующей в этом контексте является Chr22. В Chr21 общая длина межгенных регионов равна 24,851 kb а общаяя длина интронов 8,241
kb, соотношение примерно 3:1. Для Chr22 соответствующее отношение 20,611 kb к 11,758 kb, около 2:1. Эти данные базируются на описании генной структуры и исключают сегменты Ig генов.
Chr22 содержит 118 λ-Ig генных сегментов (variable V сегменты).
5 последовательных Ψg из Ig κ-V области с примерной локализацией 1329337-1359121 of Chr22q. Исключение этих Ig генных сегментов в Chr22 делает среднее количество экзонов на ген равным 7.1 (медиана 5.5). Модой является 98 генов, содержащих по единственному экзону. Chr21 имеет среднее количество экзонов 8.5 (медиана 6) и модой являются гены с тремя экзонами, с 39 такими генами (Рис. 1).
Numbers of Genes Containing Untranslated Exons (UTEs)
Всего 453 структур полных генов специфицировано в CDS базе данных, 333 генов (73.5%) не имеют 5' UTEs, 84 имеют одиночный 5' UTE, 21 имеют two, 7 имеют три, 4 имеют четыре и 3 имеют пять и один имеет 8. Всего 403 (89%) генов не имеет 3' UTEs, 36 имеют один, 8 имеют два two, 3 имеют три, 2 имеют пять и 1 имеет восемь. Эта статистика важна для пропорции генов (по крайней мере 25%) с
UTEs. Неизвестно какого типа контроль предвещают эти UTEs. Возможно, что UTEs играют роль в регуляции экспорта мРНК из ядра, и что 5' UTEs с connecting интронами участвуют в инициации тансляции; a 3' UTEs также м. участвовать в обеспечении стабильности мРНК и в полиаденилировании линкеров (linkers). 5' UTEs, по-видимому, вкосят вклад в регуляцию альтернативного сплайсинга и эффективность трансляции. На
Drosophila показано, что 3' UTR играют функциональную роль в цитоплазматической локализации транскриптов мРНК. Имееются также примеры последовательного процессинга активностей, управляемых 5' альтернативными промоторами [напр., ultrabithorax]. У человека, белок кодирующие сектора G protein-coupled рецепторов обычно лишены интронов, но по крайней мере l8% этих генов содержат 5' UTEs. Напр., обонятельные G protein-coupled рецепторы с кодирующими областями без интронов, имеют интроны в своих 5' UTRs. Эти гены, по-видимому, были связаны с retropositions, по крайней мере, на своей ранней эволюционной стадии и с событими альтернативного сплайсинга для разделения акцепторных и донорских сплайс-сайтов одного и того же экзона.
Почему гены с большими количествами экзонов стремятся иметь больше окаймляющих их UTEs? Не выявлено существенной корреляции между количеством экзонов в гене и количеством и длиной UTE.
Гены какого типа содержат больше UTEs (5' and/or 3')? В Табл. 1 представлены некоторые примеры генов Chr22 с 5 или более UTEs на 5' и 3' концах.
Гены, обладающие одним или более 5' UTEs не обязательно имеют 3' UTEs. Прямые подсчеты показывают, что количества фланкирующих экзон UTR в основном нескоррелированы: корреляция (5' UTE, 3'
UTE) = 0.006; корреляция (5' untranslated exon length, 3' untranslated exon length) = 0.10.
Correlations of Genes, Ψg, Alu Counts, and Fgc Variables
Авт. прошлись по Chr21 и Chr22 и сравнили количества генов, Ψg, Alu последовательностей и средние
Fgc в 25-kb,50-kb и 100-kb скользящих окнах с 5-kb смещениями. Корреляции между этими переменными в Табл. 2. Они в основном согласуются с фактами, что плотность генов у эукариот повышается с
Fgc и Alu последовательности по преимуществу богаты G+C. Интересно, что корреляции возрастают с увеличением размера окошка, вероятно как следствие статистического правила больших чисел. Явна в Chr21 корреляция (gene,
Fgc: window size, W = 25 kb) = 0.32, корреляция (gene,
Fgc: W = 50) = 0.43, корреляция (gene,
Fgc: W = 100) =
0.54. Соотв. паттерн превалирует в Chr22.
Возможно потому, что количества генов и Alu коррелируют позитивно с уровнями
G+C, они коррелируют позитивно и др. с др. Однако, обнаруживается контраст между Chr21 и Chr22 количество Alu и значения
Fgc позитивно скоррелированы в Chr21, но нескоррелированы в Chr22. Возможно м.б. разные мишени сайты или источники для распределения Alu в двух хромосомах или что выборки Alu м. сильно отличаться по их возрастному составу и составу оснований. В обеих хромосомах наблюдалось, что расположение Ψg не коррлеируют с расположением генов. Это м. означать, что Ψg последовательности генерируются случайно по геному человека и случайно вставляются в геном в основном за счет обратной транскрипции.
Comparison of Intergenic Lengths
Для Chr21 авт. анализировали межгенные области, которые не пересекают три несеквенировнных пробела, а также исключали перекрывающиеся группы генов и межгенные области, превосходящие 1 Mb, как посторонние. Эта же схема использована и применительно к 5 самым большим contigs в Chr22 (содержат 491
генов).
5' расширение гена определяли как межгенную область, простирающуюся от 5' конца гена вперед до следующего гена, который м. иметь любую ориентацию (Табл. 3). Расширение 3' определяли как межгенную область, простирающуюся от 3' конца гена вниз до следующего гена. Имеется 190 последовательных пар генов в Chr21, которые были подразделены на 4 группы (Табл. 4). Имеется 51 межгенная последовательность для -,- пар генов, где оба гена имели общую негативную ориентацию относительно reported последовательностей. Медиана межгенных длин равна 35,568 bp. Группа с (-,+) ориентацией представлена 48 парами генов, названных дивергентными парами. При такой ориентации промоторные последовательности двух генов где-то соседствуют. Медиана межгенных длин равна 73,116 bp. Для (+,->) 47 пар генов (конвергентные пары)с общим нижестоящим межгенным разделением медиана длин составляла 22,077 bp. Выявлено всего 44 пары (+,+) генов с медианой межгенных длин в 28,950 bp. Медиана межгенных длин в 35,568 bp у (-,-) и в 28,905 bp у (+,+) пар генов отличаются на 6,500
bp, что согласуется со статистическими флюктуациями. Факт, что дивергентные пары генов обнаруживают наивысшее межгенное разделение, имеет смысл, т.к. имеется больше регуляторных последовательностей в общей межгенной области выше обоих генов, включая промоторные и энхансерны последовательности обоих генов. Конвергентные пары генов в целом имеют небольшое межгенное разделение. Для Chr22 соотв. результаты параллельны.
Табл. 4 подтверждает, что 5' регуляторные области более объемны, чем 3' регуляторные области.
Табл. 3 высвечивает более длинные последовательности в 5' областях (за одним исключением генов с 4 экзонами, из-за небольшого их числа).
Comparison of Lengths of Different Exon and Intron Types
Имеется три типа экзонов --- инициальный, внутренние и терминальный. Инициальные экзоны, которые м. играть роль в инициации транскрипции, стремятся быть более длинными, чем внутренние экзоны (Табл. 5 и 6). Длины внутренних экзонов в среднем около 150 bp и довольно постоянны для генов с, по крайней мере, пятью экзонами. Длина терминального экзона относительно длинная и изменчивая, т.к. такие экзоны часто содержат 3' UTR последовательности.
Длина экзона сремится быть большей для генов с единственным экзоном в обеих хромосомах. Длины внутренних экзонов и интронов в целом меньше в Chr21 (Табл. 5). В генах со многими экзонами, длина терминального экзона обычно больше, чем длина внутренних экзонов. В Chr22 длина терминального интрона в целом короче чем внутренних интронов, а наибольшим интроном является принципиально инициальный интрон. Первый интрон часто несет некоторые контролируюие элементы инициации транскрипции и процессинга гена.
Имеется ли корреляция между длиной гена и содержанием G+C? Установлено, что области с высоким G+C более плотно заполнены генами. Однако, анализ длинных генов в связи с данными по экспрессируемым последовательностям тэгов (tag) показал, что длинные гены (напр., гены со множественными экзонами) предпочитают области ДНК с редуцированными
Fgc. Авт. проверяли эту гипотезу по отношению q-плеч Chr21 и Chr22. Для переменной по числу экзонов в структуре генов для всех генов выявлены корреляции (exon no., G+C) = 0.021 (в Chr21) и -0.019 (в Chr22). Для всех генов , по крайней мере, с тремя экзонами выявлена корреляция (exon no., mean internal exon length) = 0.082 (в Chr21) и -0.151 (в Chr22); и для всех генов, по крайней мере, с 4 экзонами, выявлена корреляция (exon no., mean internal intron length) = -0.073 (в Chr21) и -0.014 (в Chr22). Все это говорит о том, что длинные гены нескоррелированы в отношении
Fgc и в отношении длин внутренних экзонов и интронов.
Distinctive Features of Single-Exon Genes
Chr21 содержит 15 генов с одиночным экзоном (intronless) из общего количества 214 генов (7%),причем один расположен в интроне др. гена. Chr22 имеет 98 генов с одиночным экзоном, исключая сегменты гена &lambda:-Ig V. Имеется 13 single-exon генов, расположенных в интронных областях Chr22. T.о., в Chr22 процент single-exon генов, 98/552
= 17.8%, значительно выше, чем 7% в Chr21. Длина Single-exon более чем вдвое больше большинства длин экзонов в мультиэкзонных генах (Табл. 5 и 6).
В Chr21 и Chr22, 5' и 3' расширения для генов из одного экзона обычно превосходят таковые у мультиэкзонных генов, а длина 5' расширения гена превосходит 3' межгенную длину независимо от числа экзонов. Напр., медиана 5' и 3' длин расширений в генах из одного экзона составляет 77,249 bp и 40,140 bp, соответственно, in Chr21 и 20,174 bp и 15,191 bp в Chr22. Очевидно, что одноэкзонные гены нуждаются в большем пространстве для собственного функционирования. С эволюционной точки зрения м. предположить, что большинство одноэкзонных генов происходит из одного безинтронного предшественника, они не имели, по-видиому, достаточно времени, чтобы приобрести интроны ("introns late" теория). Этот сценарий делает возможной быструю диверсификацию у беспозвоночных, тогда как позвоночные приобретают интроны медленнее. Возможно, что одноэкзонные гены м.б. сформированы в результате слияния экзонов (возможно в результате обратной транскрипции, транспозиции или рекомбинации). В этом контексте, большинство одноэкзонных генов должно подвергаться быстрому процессингу, чтобы достичь соотв. экспрессии. Привлекательным является наблюдение, что обе хромосомы имеют среднюю длину одноэкзонных генов очень близкую к средней длинне генов со средним количеством внутренних экзонов (Chr21: 1,209 ~ 8.5*158; Chr22: 1,322 ~ 7*142).
Distribution and Properties of Ψg Sequences
Ψg являются нефункциональынми копиями генов, которые м.б. или результатом обратной транскрипции с мРНК транскрипта (processed) или с удвоенного гена и последующего выхода из строя. Изучение Ψg из Chr21 и Chr22 показало, что Ψg последовательности имеют тенденцию быть склонными к высоко экспрессируемым генам. Напр., многие высоко экспрессируемые гены рибосомальных белков генерируют Ψg у эукариот. Кластеры Ψg рибосомальных белков появляются более часто на С-концах Chr21 и Chr22, эти области содержат также более высокие
Fgc. Др. частым источником Ψg являются цитохромные субъединицы и мембранные белки (Табл. 7).
В Chr21, 49Ψg , по-видимому, подверглись процессингу в одиночный экзон каждый, тогда как 4, по крайней мере, имеют два экзона; в Chr22, 123 Ψg подверглись процессингу, тогда как 22 имеют два или более экзонов, подвергшихся частичному процессингу (8 содержат два экзона, 2 содержат три экзона, 2 содержат четыре экзона, 3 содержат пять экзонов, 1 - семь экзонов, 2 - восемь экзонов, 2 - девять, 2 - десять и 1 - пятнадцать экзонов). Табл. 7 представляет все типы Ψg, которые появлдяются, по крайней мере, дваюды.
Имеются Ψg общие обеим хромосомам. В этом отношении Ψg генов рбосомальных белков бросаются в глаза. Так, 60S L23a имеет две копии в Chr21 и одну копию в Chr22. Один L10 Ψg идентифицирован в Chr21 и один в Chr22. Табл.8 представляет некоторые данные по типам Ψg, которые обнаруживаются в обеих хромосомах.
Comparisons of Alu and Common Ψg types in Chr21 and Chr22 Sequences
Alu последовательности обнаруживаются преимущественно вблизи 5' UTR генов скорее, чем у 3' UTR. Это имеет смысл, т.к. Alus богаты G+C, а CpG островки стремятся быть локализованы вблизи 5' конца генов. В Chr22 подсчитано 540
CpG островков в наличии, из которых 248 перекрывают 5' концы генов. Считается, что
для того чтобы Alu последовательности сохранились после транспозиции они должны лучше всего находить CpG островки. В таких условиях, Alus пополняют CpG динуклеотиды
Как Alu и Ψg распределены в межгенных областях по сравнению с интронами, и как большинство Alu и последовательностей Ψg перекрываются с экзонами генов? Явно, в Chr21 имеется 14 (из 12,168) Alu последовательностей, которые перекрывают экзоны, из них только 4 перекрывают внутренние экзоны. Имеется также 20 Alu последовательностей внутри или в содержащих экзон последовательностях и только 4 из них контактируют с внутренними экзонами. Соотвт. значения Alu в Chr22
- 30 (of 21,993), которые перекрывают последовательности экзонов, из которых 28 перекрываю.т границы экзонов. Также имеется 54 Alu последовательностей целиком находящихся внутри или перекрывающих последовательности экзона и 46 Alu последовательностей в контакте с границами (в основном нетранслируемых) экзонов. В
Chr22, такой же анализ проведен для белковых CDSs. Выявлены только две Alu последовательности, обе перекрывают границы экзонов. Кроме того, один короткий внутренний экзон (136
bp) полностью находится внтри Alu
последовательности. Не выявлено Ψg последовательностей, перекрывающих последовательности экзонов в Chr21. В Chr22 имеется оиночный Ψg, который перекрывается с последовательностями внутреннего экзона и два Ψg находятся внутри границ последовательности экзона. Плотность Alu (counts/kb) в Chr21 для межгенных и интрнных регионов составляет 0.33 и 0.47, соотв. В Chr22 значения эти соотв. равны 0.62 и 0.77, , и в обеих Chr21 и Chr22 плотность Alu выше в интронах, чем в межгенных областях. Однако, Ψg последовательности предпочитают межгенные области. Размер последовательности м.б. решающим фактором. Значения плотности Ψg (counts/kb) следующие: Chr21, 0.0018 (меж генами) и 0.0011 (в интронах); Chr22, 0.0053 (меж генами) и 0.0028 (в интронах) (Табл. 9).
Из 49 processed Ψg в Chr21, средняя длина 1,250 bp (940-bp медиана). Длина четырех Chr21 мультиэкзонных Ψg состаящих из трех двуэкзонных конструкций и одного трехэкзонного соответсвует. Явно они имеют exon-(intron)-exon длины 278-(75)-461 bp; 122-(309)-570 bp; 185-(17)-110 bp; a трехэкзонный Ψg длину
92-(68)-152-(1273)-104 bp. Малые размеры и экзонов и интронов у мультиэкзонных Ψg, по-видимому, отражают нарушенную генную структуру. Кажвется очевидным, что Ψg возникают в результате процессинга мультиэкзонных генов. Средние длины параллельны тем, что у одноэкзонных генов. Chr22 содержит 123 processed Ψg со средней длиной 1,082 bp (медиана 744) примерно такая же и в Chr21. 22 мультиэкзонных Ψg из Chr22 имеют среднюю длину экзонов в 182 bp (медиана 153), опять же чрезвычано маленькую по сравнению с одноэкзонными Ψg. Среднее количество экзонов на мультиэкзонные Ψg равно 5. Три самых длинныых Ψg имеют длину 19,168
bp, 16,318 bp, и 11,585 bp, а 9 др. имеют длины в пределах от 4 до 10
kb.
Distribution of Genes and Ψg Along the Chromosomes
Chr22 содержит 26 Ψg в 1.5-Mb области, вблизи центромеры. Это необычно высокая плотность. Вопросы, связанные с пространственным распределением маркеров, м. б. решены при рассмотрении совокупных (cumulative) длин
r последовательных расстояний вдоль расположения маркеров, где
R является расстоянием
(количеством букв) между маркерами
i и маркером
i+
r, означаюдщим
r-scan длины. Распределение самых длинных и самых коротких
r-scans является пригодным для статистики определения достоверной группировки, достоверной свердисперсии или избыточной регулярности в распределении маркеров. Использование сумм
r длин последовательных фрагментов скорее, чем одиночных (
r = 1) длин фрагментов, позволит лучше избежать ошибок.
Применив этот
r-scan тест для
r = 5 uпри 0.95 уровне занчимости, анализировали распределение генов в Chr21
и Chr22. Кластреры идентифицировались, начиная с очень малых five-scan
интервалов, а C+G содержание определялось с помощью маскирования этих интервалов. Такая же схема использовалась для определния регионов достоверной сверхдисперсии. Кластеры появлялись в областях с относительно высоким G+C, а области сверхдисперсии обнаруживались в областях сравнительно низкго содержадния G+C. В Chr21 выявлено три кластера и одна область сверхдисперсии.
Тест r-scan был также использован для анализа расположения Ψg рибосомальных белков в обеих хромосомах. Было обнаружено, что рибосомвльные Ψg распределены довольно случайно в Chr22. Однако, распределение неслучайно в Chr21. Имеется область в 1 Mb (the expanse of 22,421,026-23,436,159 со средним уровнем G+C в 0.44), которая соеджит 7 Ψg рибосомальных белков (17 во всей хромосоме). Для распределения Ψg в Chr21 характерен кластер в 0.8-Mb (область в 22,673,718-23,436,157 со средним уровнем G+C в 0.44) содержащая 11 Ψg; в Chr22, имеется кластер из семи Ψg на участке в 0.1-Mb (область 283,333-371,454 со средним уровнем G+C в 0.42) и еще 7 Ψg, включая пять последовательных Ig κ вариабельных Ψg, образующих кластер междщу позициями 1282766 и 1359121 со средним G+C в 0.41. Интересно наблюдение кластера из трех Ψg, которые имеют неслучайную ориентацию. Напр., the 11 Ψg в Chr21 все расположены на позитивной (reported) нити за исключением первого Ψg. В Chr22 7 Ψg из первого кластера также все на позитивной нити, а 7 Ψg во втором кластере все на минус нити за исключением первого Ψg.
Concluding Comments
Медиана размера и распределения processed Ψg является примерно той же самой как и для длин одноэкзонных генов. Также, медиана рангов одноэкзонных генов очень сходна со средней длиной внутренних экзонов на ген. Эти признаки подтверждаеют гипотезу, что большинство одноэкзонных генов происходит в результате процессинга мультиэкзонных генов динасических областей. Анализ Chr22 указывает на то, что, по крайней мере, 25% генных структур обладает 5' и 3' UTEs. Большинство из этих UTEs м. играть важную роль в альтернативном сплайсинге, как это имеет место в случае G protein-coupled рецепторных мембранных белков. Большая длдина 5' extension областей указывает на то, что 5' регуляторные области больше, чем 3' регуляторные области. Межгенные длины конвергентной ориентации также больше, чем межгенные длины дивергентной ориентации. Ψg, по-видимому, происходят преимущественно из высоко экспрессирующихся генов, особенно генов рибосомальных белков и цитохромов. Самые большие экзоны и интроны это обычно первый или последний экзон или интрон. Количества генов достоверно коррелируют с G+C содержанием хромосом. При повышенной транскрипционной активности имеется больше генов, Alu последовательностей и Ψg.
таможенное оформление транспортных средств
Сайт создан в системе
uCoz