John S. Mattick Nature Reviews Genetics5, No 4, 316-323 (2004); doi:10.1038/nrg1321
Do non-coding RNAs that are derived from the introns and exons of protein-coding and non-protein-coding genes represent a fundamental advance in the genetic operating system of higher organisms? Recent evidence from comparative genomics and molecular genetics indicates that this might be the case. If so, there will be profound consequences for our understanding of the genetics of these organisms, and in particular how the trajectories of differentiation and development and the differences among individuals and species are genomically programmed. But how might this hypothesis be tested?
Рис.1. | The ratio of non-coding to protein-coding DNA rises as a function of developmental complexity.
Рис.2. | Double-logarithmic plot of the number of genes that encode regulatory proteins (R) against the total number of genes (G) for bacteria (circles) and archaea (triangles).
Рис.3. | A simplified biological history of the Earth.
Cawley, S. & Bekiranov, S. et al. Unbiased mapping of transcription factor binding sites along human chromosome 21 and 22 points to widespread regulation of noncoding RNAs. Cell116, 499–509 (2004) | PubMed | ISI | ChemPort
Messenger RNAs have been in the spotlight for years, but now more and more attention is being turned towards the enigmatic non-coding (nc)RNAs. Although computational and experimental approaches have identified some ncRNAs in several eukaryotic genomes, precious little is known about their function, let alone their regulation. A collaboration between the Struhl and Gingeras groups has just revealed that transcription of ncRNAs is regulated in a very similar way to that of coding RNAs — a finding that has important implications for our understanding of the biological function of these non-coding transcripts and of the transcriptome as a whole.
Сравнение геномов мыши и человека выявило ожидаемое количество законсервированных последовательностей, многие из которых расположены далеко от известных экзонов. Более того, ранее проведенные исследования показали, что имеется значительно больше транскрипционной активности в геноме, чем ожидалось исходя из современного описания генома. Cawley and Bekiranov et al. , использовали комбинацию массива олигонуклеотидов высокой плотности и иммунопреципитацию хроматина, чтобы посмотреть сайты связывания для трёх хорошо известных транскрипционных факторов: cMyc, Sp1 и p53. Их поиск, который ограничивался двумя клеточными линиями, был направлен на неповторяющиеся геномные последовательности в хромосомах 21 и 22.
Их результаты оказались неожиданными - количество сайтов, связывающих транскрипционный фактор, оказалось очень большим (от 1600 для p53 до 25000 для cMyc, в экстраполяции на целый геном) и их распределение оказалось неожиданным. Тоько 22% этих сайтов располагались на 5' концах белок-кодирующих генов, тогда как 36% располагались вблизи 3' концов белок-кодирующих генов, указывая тем самым, что они располагаются дистальнее регуляторных элементов или промоторов для ncRNAs.
Вероятность того, что ncRNAs являются bona fide транскриптами подтверждена с помощью RT-PCR - последовательности, стоящие ниже этих сайтов связывания являлись bone fide транскриптами; более того, многие из них полиаденилировались. Наблюдение, что транскрипционные факторы, которые регулируют экспрессию белок-кодирующих генов, регулируют также транскрипцию ncRNAs является интригующим, открывается возможность того, что, по крайней мере, с точки зрения регуляции, м. б. мало различий между кодирующими и не кодирующими транскриптами.
Какова же возможная биологическая функция этих не кодирующих транскриптов? Чтобы определить, м.ли хотя бы некоторые из них участвовать в дифференцировке, авт. отслеживали полиаденилированные цитоплазматические РНК в plutipotent линиях клеток, когда они начинали дифференцировку в ответ на retinoic acid (RA). Они наблюдали, что как среди кодирующих, так и не кодирующих транскриптов имеется одна популяция, которая индуцируется, и одна популяция, которая репрессируется в ответ на RA. Во-первых, не кодирующая транскрипция м. регулироваться в ответ на средовые сигналы. Во-вторых, какой м.б. функция не кодирующих транскриптов? Если они являются простыми антисмысловыми молекулами, функцией которых является регуляция трансляции их смысловых гомологов (couterparts), то почему они нуждаются в выходе в цитоплазму, если их цель заканчивается в ядре? Более того, авт. выявили скоординированную экспрессию перекрывающихся кодирующих и не кодирующих транскриптов в ответ на RA - это противоречит ожидаемому, что антисмысловые ncRNAs подавляют своих кодирующих аналогов. М.б. не кодирующие транскрипты функционируют точно также, как и продукты кодирующих генов? Или роль не кодирующей транскрипции м. trans-действующим факторам к ДНК.
Несмотря на то, что внимание было уделено только двум хромосомам, трем транскрипционным факторам и одному средовому воздействию, это исследование открывает беспрецендентную картину сложности транскриптома и его регуляции. В свете новых находок м.б. придется пересмотреть наши определения генов или роли транскрипционных факторов?
См. также оригинальную статью "Epigenetic gene regulation by noncoding RNAs" Angela A Andersen and Barbara Panning 2003 в формате pdf Здесь
Центральная догма утверждает, что генетическая информация течет от ДНК к РНК и к белкам, вернее от ДНК к белку через РНК - т.е. гены в общем синонимны белкам и что генетическая информация целиком или почти целиком осуществляется посредством белков.
Это заключение в основном корректно для прокариот. Это было подтверждено и с помощью полного секвенирования многих бактериальных и archaeal геномов, которые преимущественно представлены белок-кодирующими последовательностями, которые фланкированы 5' и 3' cis-регуляторными элементами, которые оперируют, контролируя экспрессию этих последовательностей на транскрипционном и трансляционном уровне. Единственным исключением являются гены, которые кодируют infrastructural РНК (rRNAs, tRNAs), которые необходимы для синтеза белка, и небольшое количество генов, которые экспрессируют не-транслируемые РНК с регуляторными функциями1-3, которые занимают не более 1% геномных последовательностей. Итак, по крайней мере, у прокариот белки представляют не только первичные функциональные и структурные компоненты клеток, но и также являются главными агентами, с помощью которых контролируется клеточная динамика с содружестве с cis-регуляторными элементами и средовыми сигналами.
Предполагалось, что это верно и для многоклеточных организмов, несмотря на тот факт, что пропорция белок-кодирующих последовательностей уменьшилась как функция сложности и существует лишь небольшой минимум геномного программирования сложных организмов, таких как млекопитающие (Рис. 1). Это заключение ведет к логическим выводам и дополнительным предположениям. В частности, предполагается, что увеличение сложности у эукариот объясняется комбинаторикой регуляторных факторов, которые пересекаются с более сложными промоторами4,5, и выводом, что большинство последовательностей, не кодирующих белки, в геноме эукариот (98.5% у людей) являются или cis-регуляторными и структурными элементами или молекулярными бродягами и эволюционным дебрисом6-10.
Я изучал, что необходимо для программирования сложных объектов и объяснил логически в ранее опубликованной гипотезе, что главным результатом геномов сложных организмов д.б. генетически активные non-coding RNA (ncRNA)11-14. Я также собрал новые доказательства того, что подтверждает эту гипотезу и как её м. проверить. Я полагают, что принципиальным достижением у сложных организмов является развитие системы ручного программирования на базе передачи сигналов ncRNA, которая позволяет обойти границы сложности, которые навязываются accelerating регуляторными сетями, которые оперируют только белками.
Если эта гипотеза правильна, то современная концепция того, как генетическая информация кодируется и передаётся у высших организмов, д.б. пересмотрена и д.б. разработана новая структура для анализа данных геномных последовательностей. Эта структура м. позволить понять настоящие основы эволюционного и онтогенетического программирования сложных организмов и основы индивидуальных и межвидовых различий.
Programming complex organisms
Сложные организмы нуждаются в двух взаимосвязанных уровнях программирования. первый затрагивает спецификацию их структурных и функциональных компонентов (белков и происходящих из них продуктов). Второй затрагивает спецификацию того, как эти компоненты располагаются и собираются в ансамбли на более высоких уровнях организации (клетки и органы), вместе с контрольными системами, которые руководят их функцией, которые включают компоненты, действующие как средовые сенсоры и реле. Вся эта информация безусловно д.б. закодирована в геноме.
Combinatorics and complexity.
У людей имеются триллионы точно расположенных и позиционно отличающихся типов клеток (Box 1). Может и эта степень позиционной и функциональной идентичности и детальная четырехмерная архитектура быть специфицирована только за счёт комбинаторики белковых регуляторов, которым соответствуют компаундные контролирующие последовательности? Обоснованность этого утверждения редко подвергалась исследованию, но его связывали, по крайней мере, частично с вопросом, о том как много регуляторных входящих сигналов м. разумно интегрироваться, напр., разными промоторами или сплайс-комплексами, чтобы дать разные результаты4,5. Это необходимо также связать с размышлениями о том, насколько регуляторная надстройка д.б. масштабирована с увеличением сложности организованных систем.
Действительно сложность является порождением свойства взаимодействий15. Однако, хотя это необходимо, но не достаточно для объяснения организованной сложности. Как полагает Dennett16, комбинаторика м. генерировать значительно увеличившиеся миры возможностей, но большинство из них являются хаотичными и бессмысленны, и эволюция и развитие прокладывают курс через эти возможности, чтобы найти те, которые являются разумными и конкурентноспособными. Эволюция осуществляет это методом проб и ошибок, отбирая исходы в производных геномах, которые не толкь специфицируют структурные и функциональные компоненты клеток, но также и архитектурные программы более высокого порядка для роста и развития.
Проблема сегодня не в том, как генерировать сложность - это легко - а скорее в том, как контролировать её, чтобы специфицировать упорядоченные траектории, которые ведут в высоко организованным и сложным организмам. Для этого необходимо ненормальное количество информации, особенно регуляторной информации. В самом деле, лучшим (хотя и абстрактным) определением относительной сложности является минимальное количество информации, которое необходимо для спецификации онтогенеза и операций объекта или системы17. Исходя из этого минимальное количество информации последовательностей ДНК, которая необходима для спецификации позвоночных, по крайней мере, согласно сегодняшним знаниям, д.б. 365 Mb (размер генома pufferfish Fugu rubripes), из которых только приблизительно 10% кодируют белки9. Остальное не м.б. выброшено как ненужная вещь, т.к. это в основном последовательности ДНК высокой сложности (приблизительно 22% в виде интронов и остальное в виде межгенных последовательностей), т.е. богатые информацией.
How does regulation scale with complexity?
Интуитивно и математические расчёты указывают на то, что величина регуляции д. увеличиваться нелинейно (возможно квадратически) от количества генов в сети18-20. Во-первых, если они конституитивно экспрессируются, то новые гены ( или сплайс-варианты) с разными функциями д. нуждаться в специфической регуляции, это д. приводить к линейному увеличению числа регуляторов или комбинаций вследствие этого. Это осложняется тем фактом, что пропорция этих новых регуляторов также нуждается в регуляции и что влияние активности новых генов д.б. интегрировано в существующие регуляторные циркуиты организма как целого, если система не становится разъединённой. Итак, когда система становится более сложной, то увеличиваться д. пропорция регуляции. Это нелинейные взаимоотношения между регуляцией и функцией являются свойством всех интегрально организованных систем. Следовательно, все такие системы обладают прирожденными границами сложности, которые накладываются их accelerating control архитектурой (т.е., когда доля цены дополнительной регуляции превышает выгоду новой функции), до тех пор или если физическая природа регуляторных систем не оказывается в состоянии перехода в более мощную систему, напр., за счёт использования цифрового (digital) вместо аналогового контроля (J.S.M. and M. J. Gagen, manuscript in preparation).
В согласии с этим предсказанием то, что количества белковых регуляторов у прокариот, как установлено, увеличиваются квадратически с размером генома18 (Рис. 2). Более того, экстраполяции показывают, что точкой, в которой количество новых регуляторов будет превосходить количество новых функциональных модулей (оперонов), будет точка, близкая к наблюдаемому верхнему лимиту размера бактериального генома19. Т.е., по-видимому, система станет насыщенной, т.к. дальнейшее геномное и функциональное усложнение б. ограничиваться акселерацией цены регуляции. Это указывает на то, что сложность прокариот, для которых возможны только простые онтогенетические структуры и переходы, достигли потолка, накладываемого эволюцией с помощью регуляторных надстроек11, скорее, чем средовыми, структурными или биохимическими факторами, как это принято считать. Это согласуется с ограничениями жизни на Земле для микробных систем для большей части их эволюционной истории (Рис. 3).
Это также указывает на то, что базирующаяся на белках регуляция достигла своего эффективного предела у прокариот и что комбинаторный контроль не м. преодолеть этот предел - т.е. a priori нет причин, почему бы прокариоты не м. легко заиметь более сложные промоторы и комбинаторный регуляторный контроль, если это было бы жизненно необходимым. Напротив, эукариоты д.б. найти решение этой проблемы, в качестве предварительного условия для занятия ими более сложных пространств.
RNA: a digital solution?
Проекты геномного секвенирования представляются в основном в терминах количества идентифицируемых белок-кодирующих генов. Однако, лишь сравнительно недавно обращено внимание на ненормально увеличенную транскрипцию ncRNA у этих организмов - которая объясняет приблизительно 98% всех геномных выходных сигналов у людей13. Эта ncRNA представлена интронами в белок-кодирующих генах и в др. транскриптах, которые, по-видимому,. не кодируют белков. Итак, или геномы сложных организмов насыщены бесполезными транскриптами или эти ncRNAs выполняют некую неожиданную функцию. Если последнее верно, то эти функции д. передаваться посредством РНК, это указывает на то, что РНК приобретаю новое значение в генетическом программировании у высших организмов.
Introns.
Ключом к пониманию перехода на преимущественно базирующуюся на РНК регуляторную систему у высших организмов являются прежде всего интроны (Box 2). Интроны в среднем составляют приблизительно 95-97% белок-кодирующих генов у людей6,7,21, это означает, что хотя белок-кодирующие последовательности и занимают только около 1.5% генома человека, по крайней мере, треть генома м. действительно транскрибироваться. Более того, если многочисленные др. гены, экспрессирующие ncRNAs, принять в расчёт, то тогда, по крайней мере, половина генома человека транскрибируется14.
Хотя общепринято считать, что интронная РНК является нефункциональной (просто деградирует и перерабатывается после эксцизии с помощью сплайсинга), существует др. равная, если не более вероятная возможность - интроны являются генетически активными и что интронная РНК вносит генетическую информацию в регуляторную сеть клетки11,12. Учитывая длительную историю присутствия этих последовательностей в генах эукариот, не д. б. неожиданностью использование эволюцией этой возможности.
ncRNAs: a parallel digital regulatory system.
Если принять возможность, что интроны являются функциональными (активно передающими генетическую информацию через РНК молекулы), то тогда становится возможным совершенно отличный тип регуляции с совершенно иным наборомлогических выводов и интересных предсказаний.
Во-первых, м. думать что генетические операционные системы сложных эукариот фундаментально отличны и значительно более изощрены, чем таковые у прокариот. Эукариотические гены д. экспрессировать два типа информации параллельно - белковую и (заимствуем термин из нейробиологии) EFFERENCE RNA SIGNALS, которые м. общаться с др. генами или генными продуктами независимо от биохимической функции кодируемого белка хозяйского транскрипта11-13. Это позволяет сделать блее глубокие предсказания, что возникновение настоящих параллельных систем процессинга, по всей вероятности, является фундаментальным для эволюции и развития сложных организмов11,12.
Во-вторых, м. предсказать, что эти последовательности ncRNA д. позитивно селектироваться отбором, чтобы распространиться у сложных организмов, и далее м. предсказать, что некоторые, а вообще-то многие, гены вовлекаются в продукцию РНК сигналов в качестве регуляторов более высокого порядка11,12. Оба предсказания согласуются с имеющимися данными. Сложные эукариоты имеют более длинные интроны, чем более простые. Известно также увеличивающееся число ncRNA транскриптов, это м. объяснить половину или более всех транскриптов у млекопитающих14. Более того, некоторые гены, особенно те, что кодируют малые ядрышковые РНК (хотя имеются вероятно и многие др.), как известно, передают информацию от интронов, т.к. их экзоны не содержат какой-либо открытой рамки считывания и, по-видимому, дегенерируют22-24. Др. гены экспрессируют ncRNAs, которые собираются в ансамбли из множественных экзонов, и по крайней мере, в некоторых случаях подвергаются альтернативному сплайсингу25-29.
В-третьих, м. также предсказать, что многие из этих РНК подвергаются процессингу после транскрипции и сплайсингу на многочисленные более мелкие сигналы, которые м.б. адресованы к разным мишеням в сети, чтобы повлиять на архитектуру хроматина, транскрипцию, альтернативный сплайсинг, эффективность трансляции и стабильность РНК и т.д., в др. локусах14. Открытие microRNAs, которые происходят как из интронов, так и экзонов более длинных предшественников30-32, и вовлечение RNA interference (RNAi) в хромосомной динамике и онтогенетических путях, целиком согласуется с этим предсказанием.
В-четвертых, т.к. большинство из этих молекул РНК сами по себе вряд ли являются каталитическими (хотя некоторые редактируют др. РНК)23,24, эти сигналы д.б. в основном регуляторными, посылающими эпигенетические сигналы ниже в систему. Напр., если интронные РНК, которые возникают в результате транскрипции β-globin гена, являются функциональными, то, по-видимому, вряд ли возможно, что они будут вовлечены в транспорт кислорода, скорее в аспекты онтогенетической регуляции и координации генной экспрессии эритроидного ростка, чему имеются доказательства33. Это является, по-существу, системой прямой связи эндогенного контроля, программой, которая теоретически д. закладывать онтогенетические траектории, управляемые с помощью средовых сигналов, чтобы обеспечивать contextual сигналы и корректировать стохастические шумы эндогенных программ.
Наконец, эти РНК д. в целом переправлять сиквенс-специфические сигналы к своим мишеням, возможно (в большинстве своём) к др. РНК и ДНК. Эти мишени д. затем действовать на восприимчивую инфраструктуру - т.е., белки, которые м. распознавать вторичную или четвертичную структуру этих сигнальных комплексов и осуществлять соотв. действие - напр., с помощью модификации хроматина34,35 или деградации мишеней с помощью RNAi36. Имеется, следовательно, цифровая (digital) система, в которой сигналы и последствия действия разделены.
Такая digital должна делать возможным количественный сдвиг в регуляционной утонченности, эффективности и всесторонности. Сиквенс-специфические сигналы РНК у животных и растений м.б. до 22 нуклеотидов, почти на 2 порядка величин меньше, чем те, что необходимы для кодирования среднего белка. Было бы также идеальным путём внедрение системы forward-control, которая м. бы специфицировать сложные сюиты активностей генов, которые лежат в основе онтогенеза сложных организмов, особенно если для увеличения функциональной и архитектурной сложности необходимо экспоненциальное увеличение эндогенной регуляторной информации. В самом деле, как подчёркивают Csete and Doyle37, взрыв сложности действительно во всех системах происходит как результат прогресса контроля и внедрения сетей (networking), большинство из которых невидимы наблюдателю.
Emerging evidence
Имеются существенные доказательства того, что РНК-обеспечиваемая регуляция широко распространена у высших организмов12-14. Однако, недавно появились новые неожиданные наблюдения в пользу этого.
Comparative genomics.
Сравнительный анализ всё увеличивающегося количества секвенированных геномов животных выявляет паттерны консервации интронных и межгенных последовательностей, которые все вместе объясняют значительно более высокую пропорцию консервации между геномами, чем белок-кодирующие последовательности8,38-40. Напр., анализ CFTR и SIM2 локусов у некоторых видов позвоночных идентифицировал множество законсервированных сегментов40,41. Большинство из этих сегментов являются интронами и межгенными областями и большинство из них не м.б. выявлено при попарном сравнении последовательностей40,41, это указывает на то, что они находятся под селективным давлением (constraints) (и позитивным и негативным) клон-специфическим путём. Сравнение геномов собак, мышей и человека (которые относительно далеки в терминах эволюции млекопитающих) показало, что имеется существенная консервация вне белок-кодирующих последовательностей (в 3-10 раз более высокая консервация, чем в белок-кодирующих последовательностях)8,39. Эта консервация происходит в блоках, размеры и распределение которых не согласуются с нейтральным дрейфом от последовательностей общего предшественника; имеются некоторые блоки последовательностей из нескольких сотен нуклеотидов, в которых имеются лишь единичные замены нуклеотидов у разных видов позвоночных (M. Pheasant, I. Makunin and J.S.M., manuscript in preparation). Селективное давление на эти определенные последовательности неизвестно, но единственное объяснение того что они являются частью сети со множественными взаимодействующими партнёрами, что делает шансы возникновения компенсаторных изменений во всех компонентах равными нулю. В др. случае уровень дивергенции последовательностей выше, чем м.б. бы ожидать, это указывает на то, что имеется позитивный отбор по изменениям этих последовательностей (связанный с фенотипической дивергенцией) или что лежащая в основе скорость нейтральных замен намного выше, чем это предполагалось ранее, что делает блоки консервации вне белок-кодирующих последовательностей, более впечатляющими.
Non-coding transcripts.
Увеличивается число идентифицированных генов ncRNA , некоторые из которых связаны с болезнями человека, такие как B-cell lymphoma, lung cancer, prostate cancer, cartilage-hair hypoplasia, spinocerebellar ataxia type 8, DiGeorge syndrome, autism and schizophrenia и др.14,25,26,29,42-44. Разумные подсчёты показывают, что, по крайней мере, 7% из всех транскриптов не кодируют белки45. Это скорее всего лишь вершина айсберга, полный размер которого м.б. оценён со временем, особенно учитывая трудности установления функциональной роли не-кодирующих транскриптов29,46.
Анализ полной длины кДНК у мышей выявил тысячи транскриптов, которые не содержат какой-либо достоверной открытой рамки считывания47. Хотя проблемы с неполнотой обратной транскрипции и геномным загрязнением не м.б. целиком сброшена со счетов, многие из этих транскриптов далеки от белок-кодирующих последовательностей и большинство из них онтогенетически регулируются45. Некоторые из этих транскриптов антисмысловые известных или предполагаемых генов и, как было подсчитано, до 20% всех генов у человека ассоциированы с антисмысловыми транскриптами48. Проверка коллекции EST указывает на то, что реальная картина м.б. значительно больше49. Антисмысловая регуляция выявлена в случае генетических болезней у людей50 и безусловно важна для IMPRINTED LOCI51, но она м.б. и более общим механизмом для межаллельных коммуникаций и дозовой компенсации в не-импринтируемых локусах, которые связаны с локальными РНК регуляторными петлями52. Это предположение согласуется с малым количеством антисмысловых транскриптов в Х хромосоме млекопитающих53.
К этому имеет отношение и недавное открытие смысловой регуляции с помощью ncRNA. Ранее сообщалось, что не кодирующие псевдогенные транскрипты регулируют экспрессию своих гомологичных белок-кодирующих генов54. Имеется около 20,000 псевдогенов в геноме человека, которые, как считалось, нефункциональны10. Это м.б. преждевременным заключением и сегодня это спорная точка, какова фракция этих псевдогенов м.б. генетически активной в качестве РНК.
RNAi, disease and development.
Феномен RNAi, который является уникальным для эукариот, является центральным в развитии растений и животных55,56, а также для мейоза, митозов и др. аспектов хромосомной динамики 57-59.
MicroRNAs ,как полагают, участвуют в болезнях человека60,61 и, по крайней мере, некоторые из них происходят из интронов32,62,63. Многие исследования ассоциаций с болезнями сегодня не обнаруживают корреляции с мутациями в экзонах, это указывает на то, причинные мутации находятся в соседних cis- или trans-действующих регуляторных последовательностях. Недавним примером этого м. служить элегантное выявление callipyge ('beautiful buttocks') локуса у овец - импринтируемая область с несколькими белок-кодирующими и ncRNA генами - в котором одиночная нуклеотидная замена в межгенной области (транскрипционный статус которой неизвестен) ответственна за изменённую мускулатуру ягодиц (buttock)64. Сходная история выявлена с генетически обусловленной изменчивостью мышечной массы у домашних по сравнению с дикими свиньями, которая связана с одиночной нуклеотидной заменой в интроне IGF2 гена65.
Молекулярный генетический анализ локуса bithorax у Drosophila melanogaster - который, подобно всем др. хорошо изученным локусам, включая и локус globin33,64,66, содержит преобладающее количество онтогенетически регулируемых ncRNA генов - показал, что сегмент-специфическая транскрипция 'межгенных' регуляторных областей необходима для установления эпигенетически наследуемой активации экспрессии соседних гомеозисных белок-кодирующих генов66,67. Это снова указывает на то, что локальные РНК-обусловленные регуляторные петли являются важными в создании последовательных эпигенетических и транскрипционных профилей в клетках во время развития сложных организмов и м. в конце концов объяснить сложные генетические феномены, такие как TRANSVECTION12 и TRANSINDUCTION33.
Testing the new genetics
Analysis of the functions of ncRNA genes.
Обнаружить РНК-обусловленну передачу сигналов нелегко. RNA-mediated genetic signalling will not be easy. Объяснение функции всё увеличивающегося числа открываемых ncRNA генов затруднительно46. Необходимо проверять гомологию последовательностей, паттерны онтогенетической экспрессии, субклеточную локализацию и использовать изучение нокаутной и эктопической экспрессии у трансгенных животных и выяснить общее значение этих ранее просмотренных генетических исходящих сигналов (outputs). Такие исследования ведутся, первоначально разыскиваются отбором наиболее высоко законсервированные последовательности у позвоночных и насекомых, по крайней мере, некоторые из них экспрессируются в виде стабильных РНК (I. Makunin, E. Glazov, M. Pheasant and J.S.M., unpublished observations).
Molecular genetic analysis of intron-encoded signals.
Ключевым экспериментом по проверке принципа м. бы стать показ, что интронные РНК генетически активны, т.к. это подтвердило бы концепцию параллельных выходных импульсов (output) и белок- и efference РНК регуляторных сигналов от генов эукариот. Таки эксперименты ведутся на некоторых модельных организмах. У дрожжей, несмотря на ограниченное количество интронов, биоинформационный анализ уже - неожиданно - выявил паттерны сетей консервации последовательностей между интронами и др. последовательностями внутри генома, которые образуют кластер с высокой статистической достоверностью внутри соотв. (congruent) GENE ONTOLOGY групп (S. Stanley and J.S.M., manuscript in preparation). Некоторые из этих интронов были изменены с помощью сайт-специфических делеций, используя пертурбации в microarray транскрипционных профилях в качестве подходящей фентипической коенчной точки, что сопровождалось изучением комплементации, чтобы различать между традиционными cis-регуляторными элементами и возможностью trans-действующих РНК последовательностей.
Bioinformatic analysis of RNA-mediated regulatory networks.
Основным преимуществом РНК в качестве регуляторной молекулы является её компактные размеры и сиквенс-специфичность. Как уже отмечалось вероятность того, что большинство РНК сигналов будет передаваться посредством первичных сиквенс-специфических взаимодействий с др. РНК и ДНК, с образованием комплексов, которые распознаются белками, содержащими определенные типы доменов. Это открывает возможность идентификации как потенциальных трансмиттеров, так и получателей (мишеней) в таких сетях, а также типа взаимодействующего белка. Важно, что большинство из этих взаимодействий, как ожидается, будет связано с РНК-РНК и РНК-ДНК взаимодействиями (потенциально включая triplexes и др. структуры более высокого порядка), которые не будут подчиняться каноническим правилам спаривания оснований68-70. Итак, необходимы новые алгоритмы, позволяющие исследовать эти разные типы взаимодействий в геномных последовательностях. Более того, традиционные алгоритмы изучения гомологии (такие как BLAST) мало пригодны для выявления коротких гомологичных последовательностей, особенно если они имеют несоответствия. Алгоритмы более завершенного поиска, такие как SUFFIX ARRAYS и SUFFIX TREES71 необходимы для такого анализа.
Identification of RNA signalling complexes recognized by different classes of protein.
Принимая во внимание, что многие типы РНК сигналов м. функционировать на многих уровнях (модификации хроматина, контроль транскрипции, регуляция альтернативного сплайсинга и т.д.), то как м. эти digital сигналы вызывать специфические функциональные последовательности? Способность РНК формировать строгие взаимодействия с др. РНК обеспечивает передачу сигнала - РНК-РНК и (в меньшей степени) РНК-ДНК спаривание оснований сильнее, чем спаривание оснований ДНК-ДНК и это м. делать возможным стабильные mismatches и образование определенных вторичных структур, таких как bulges, stems и петли, которые скорее напоминают, чем являются ошибками mismatch (как при репарации ДНК), и м. фактически содержать внедренные структурные мотивы, которые м. реорганизовываться с помощью определенных белков. Напр., точное или неточное спаривание microRNAs со своими мишенями предопределяет, будет мишень-мРНК активно деградироваться с помощью пути RNAi или транскрипционно репрессироваться36.
Итак, м. сделать предсказание, что если имеются разные типы РНК сигналов, то и разной структуры возникающие в результате комплексы д. распознаваться и действовать с помощью определенных классов белков, связывающих нуклеиновые кислоты, многие из которых в настоящее время имеют неизвестную или плохо изученную мишень-специфичность. Если это в целом правильно, то выяснение этих вторичных структурных и mismatch правил д. в свою очередь обогатить биоинформационные подходы для выявления этих комплексов на геномном уровне. Это также м. позволить лучше предсказывать регуляторные последствия разного типа РНК сигналов путём разработки специфических алгоритмов для идентификации определенных субнаборов, которые подчиняются др набором правил для комбинации сиквенс-специфичности и тапа вторичных структур, которые создаются с помощью взаимодействий, принимая во внимание, что части сети будут молчащими в любой из данных клеток или линии, т.к. РНК передатчик или мишень не экспрессируются, или потому, что ДНК-мишень недоступна из-за модификации хроматина.
Conclusions
If RNA-mediated regulation is real, then why has this system gone unrecognized for so long? First, we were unprepared for the possibility of an extensive RNA control network, despite early predictions that RNA might have important regulatory roles72,73, because of the general assumption that regulatory information is transacted primarily by proteins.
Second, the system has largely been biochemically invisible — RNA is labile, and many, if not most, of the RNA signals are ephemeral and small, literally and metaphorically off the radar screen at the bottom of the gel. If not for the genetic discovery of lin-4 and let-7 in C. elegans, and their link with the RNAi pathway74, itself an accidental discovery, it is doubtful whether we would be aware that microRNAs were present in eukaryotic cells.
Third, this regulatory system is genetically subtle, with different phenotypic signatures to those of protein-coding genes. Damage to proteins by mutation is usually obvious, and so tends to dominate the visible landscape of genetic screens. This is particularly true for those mutations that mainly involve single base changes, which in protein-coding sequences can be catastrophic, but in regulatory sequences might have much more subtle consequences. Known mutations in human promoters that give recognized phenotypes are rare, but that does not mean that promoters are non-functional, simply that they have different constraints and a degree of greater plasticity. So it will be for any regulatory sequence, particularly if they are participating in networks that might be intrinsically robust. It is important to remember that these networks are involved in programming the architecture, rather than the functional components, of complex systems. Embedded in these networks is the genetic specification of the body plan, and therefore both the principal source of species differences (given a relatively common component set or proteome) and the individual differences that underpin quantitative trait variation and susceptibility to disease.
The RNA regulatory system might have been the essential prerequisite to both the evolution of developmentally sophisticated multicellular organisms and the rapid expansion of phenotypic complexity into uncontested environments11,12. This also indicates that the principal source of the evolutionary diversity of complex organisms and their ability to colonize different ecological niches is the regulatory architecture, which is primarily encoded in ncRNA genes and introns, and therefore also indicates that most of their genomes are devoted to developmental programming and are under selective influences. This includes transposable elements that might have entered the system from elsewhere, but subsequently evolved in situ as part of the (genomic) community. Those sequences that are conserved among particular lineages are presumably those that are common to, for example, vertebrate or mammalian biology in general, whereas those sequences that are different might be equally functional but involved in specifying the differences among species. The best route to understanding this will be the intersection of molecular genetics and comparative genomics.
>Note added in proof
Mapping of transcripts and transcription factors along human chromosomes 21 and 22 has indicated that the human genome contains approximately equal numbers of protein-coding and non-coding genes, consistent with my earlier predictions14, that are bound by common transcription factors and regulated by common environmental signals79,80.
Figure 1 | miRNAs and larval development in Caenorhabditis elegans.
Genetic screens identified an miRNA lin-4, which regulates the expression of lin-14 by binding to lin-14 and inhibiting translation. A second miRNA, let-7, was discovered, which is involved in the same developmental timing pathway as lin-4, but is induced at a different stage. lin-4 is expressed at the L1 stage, whereas let-7 is expressed during the L3–L4 stage. lin-4 and let-7 are induced at distinct times during C. elegans larval development to trigger transitions from one larval stage to the next by negatively regulating the expression of the protein-coding genes lin-14 and lin-41, respectively.
Figure 2 | miRNAs: inhibit or degrade?
The dividing line between microRNAs (miRNAs) and small interfering RNAs (siRNAs) is becoming increasingly blurred. Both are linked by a common pathway that is mediated by the Dicer ribonuclease and the RNA-induced silencing complex (RISC). It is becoming clear that the translational inhibition induced by miRNAs, and the target mRNA degradation induced by siRNAs, are not due to intrinsic differences between these classes of small RNAs, but rather the level of sequence homology between the small RNA and its target. A few centrally located mismatches will predispose the small RNA to act via the miRNA translational-repression pathway. Perfect matching, such as occurs in plants, directs it to the mRNA-degradation pathway.
Boxes
Box 1 | How many different cells are there in complex organisms?
The nematode worm Caenorhabditis elegans, the cellular ontogeny of which has been precisely mapped, has 1,179 and 1,090 distinct somatic cells (including those that undergo programmed cell death) in the male and female, respectively, each with a defined history and fate. Therefore, if we take the developmental trajectories and cell position into account, C. elegans has 103 different cell identities, even if many of these cells are functionally similar. By this reasoning, although the number of different cell types in mammals is often considered to lie in the order of hundreds, it is actually in the order of 1012 if their positional identity and specific ontogeny are considered. Humans have an estimated 1014 cells, mostly positioned in precise ways and with precise organization, shape and function, in skeletal architecture, musculature and organ type, many of which (such as the nose) show inherited idiosyncrasies. Even if the actual number of cells with distinct identities is discounted by a factor of 100 (on the basis that 99% of the cells are simply clonal expansions of a particular cell type in a particular location or under particular conditions (for example, fat, muscle or immune cells)), there are still 1012 positionally different cell types.
Box 2 | The history of nuclear introns
Undoubtedly, the greatest surprise in the history of molecular biology was the discovery in the late 1970s that many genes in eukaryotes, especially in the higher eukaryotes, were fragmented into mosaics of protein-coding mRNA sequences (exons) that were interspersed with non-protein-coding sequences (intervening sequences or introns), which were excised before translation by splicing. These introns, because they did not encode protein, were generally assumed to be genetically inert (apart from possibly containing cis-regulatory signals). Introns were consequently rationalized as the stigmata of the prebiotic assembly of genes from cassettes of protein-coding information, albeit with a role in enabling protein-domain shuffling, a view that is essentially presented as fact in most molecular biology textbooks. Subsequent work has established that, in all likelihood, modern nuclear introns descended from self-splicing group II introns and expanded in eukaryotic genes relatively late in evolution. This expansion was aided by the separation of transcription from translation, which, conversely, is a strong counter-selective force in prokaryotes11,75,76. Whatever the precise origins of introns, the subsequent evolution of the SPLICEOSOME in the eukaryotes led to relaxation of their internal sequence constraints and an increase in the efficiency of their excision from primary transcripts11. This in turn provided the opportunity for these sequences to both expand and to drift and to explore new evolutionary and functional space, based on RNA rather than on proteins, although this is not to suggest that all introns will have acquired such capacity in any given lineage.