Исследования длинных не-кодирующих РНК (lncRNAs), ранее не предполагавшегося как основного продукта геномов сложных организмов, с самого начала были сопряжены с неопределенностью и спорами. lncRNAs имеют досадную особенность называться не тем, чем они являются. Такое вольное описание берет свое начало в убеждении, что основная роль РНК заключается в том, что она является посредником между геном и белком, а другие "хозяйственные" не-кодирующие РНК, такие как рибосомные РНК (рРНК), transfer RNAs (tRNAs), small nucleolar RNAs (snoRNAs), сплайсосомные РНК и другие малые ядерные РНК (snRNAs), являются вспомогательными для этой функции.
Широкое признание РНК в качестве регуляторной молекулы произошло в первые годы первого десятилетия XXI века с неожиданного открытия большого количества малых интерферирующих РНК (siRNAs), микроРНК (miRNAs) и малых PIWI-взаимодействующих РНК (piRNA), регулирующих - через белки семейство Argonaute - экспрессию генов на транскрипционном, пост-транскрипционном и трансляционном уровнях у эукариот1, хотя в литературе встречались примеры и других малых регуляторных РНК, особенно у бактерий2. Несколько длинных регуляторных РНК, в частности meiRNA у делящихся дрожжей Schizosaccharomyces pombe, hsrω, РНК на Х1 (roX1) и roX2 у Drosophila melanogaster, а также H19 и Х-неактивный специфический транскрипт (XIST) у млекопитающих, также были зарегистрированы в предыдущие годы3-7, но они рассматривались скорее как странности, чем как ранние примеры общего явления. Более того, малые регуляторные РНК не нарушали концептуальную схему, согласно которой большинство генов кодируют белки, а, скорее, удобно вписывались в нее. Однако позже выяснилось, что, хотя некоторые миРНК образуются из интронов пре-мРНК8, не-кодирующие первичные транскрипты миРНК и snoRNAs также могут иметь свои функции9,10 и что рРНК, тРНК и snoRNAs обрабатываются для образования малых регуляторных РНК, включая миРНК11-14, в некоторых случаях способствуя трансгенерационному эпигенетическому наследованию15.
Еще больший сюрприз и вызов господствующему пониманию генетической информации был сделан в начале и середине первого десятилетия XXI века, когда глобальный транскриптомный анализ, призванный лучше определить протеом, показал, что большая часть генома животных и растений динамически транскрибируется в более длинные РНК, которые имеют небольшой потенциал для кодирования белков16-19 или не имеют его вовсе. Это удивление было усугублено сопутствующим открытием, что количество и, в значительной степени, репертуар генов, кодирующих белки, одинаковы у животных, сильно различающихся по уровню развития и когнитивной сложности - нематодный червь Caenorhabditis elegans (состоящий из ~1000 соматических клеток) и человек (~30 x 1012 соматических клеток20) имеют ~20 000 генов, кодирующих белки, что было названо "парадоксом g-значения "21. Напротив, объем не-кодирующей ДНК и, соответственно, транскрипция не-кодирующих РНК увеличивается с ростом сложности развития22.
Понятно, что общей первоначальной реакцией сообщества молекулярных биологов было подозрение, что эти необычные РНК являются транскрипционным шумом, поскольку они обычно имеют низкий уровень хранения последовательности, низкий уровень экспрессии и малозаметны в генетических скринингах. Однако с тех пор количество публикаций, сообщающих о динамической экспрессии и биологических функциях lncRNAs, резко возросло, чему способствовало развитие технологий, позволивших идентифицировать и охарактеризовать их, хотя лишь меньшинство lncRNAs имеют уверенные аннотации и очень немногие - механистическую информацию. Осознание того, что геномы растений и животных экспрессируют большое количество lncRNAs, требует создания основы для их классификации и понимания их функций и, что более важно, переоценки объема и типа информации, необходимой для программирования развития сложных организмов.
Purpose of this Consensus Statement
Здесь мы представляем современную и последовательную картину роли lncRNAs в биологии клетки и развития, определяем ключевые вопросы в понимании их функций и намечаем дальнейший путь. Мы рассматриваем определение lncRNA, номенклатуру, сохранение, экспрессию, фенотипическую видимость, функциональные анализы и молекулярные механизмы, охватывающие связи lncRNA с архитектурой хроматина, эпигенетическими процессами, функцией энхансеров и биомолекулярными конденсатами, а также роль lncRNA за пределами ядра. Мы утверждаем, что локусы, экспрессирующие lncRNAs, должны быть признаны настоящими генами, и обсуждаем взаимосвязь структуры и функции lncRNAs как средство для разбора механизмов и путей. Наконец, мы определили текущие проблемы и предложили рекомендации для понимания взаимосвязи lncRNAs с архитектурой генома, регуляцией генов и клеточной организацией.
Авторы данного Консенсусного заявления были предложены по рекомендациям коллег. Консенсус был достигнут путем групповой переписки по электронной почте и обсуждения.
Definition and nomenclature of lncRNAs
lncRNA были произвольно определены как не-кодирующие транскрипты длиной более 200 нуклеотидов (200 nt), что является удобной границей размера в биохимических и биофизических протоколах очистки РНК, которые истощают большинство инфраструктурных РНК, таких как 5S рРНК, тРНК, snRNAs и snoRNAs, а также миРНК, siRNAs и piRNAs23. Это определение также исключает некоторые другие известные короткие РНК, такие как специфические для приматов snaRs (~80-120 nt), которые ассоциируются с ядерным фактором 90 (24); Y РНК (~100 nt), которые выступают в качестве каркасов для рибонуклеопротеиновых (РНП) комплексов25; vault РНК (88-140 nt), которые участвуют в переводе внеклеточных стимулов во внутриклеточные сигналы26; а также промотор-ассоциированные РНК и не-канонические малые РНК, образующиеся в результате пост-транскрипционной обработки27,28,29. Другие не-кодирующие РНК находятся вблизи 200-nt границы, такие как 7SK (~330 nt у позвоночных), которая контролирует стабилизацию и прекращение транскрипции, в том числе на энхансерах30,31, и 7SL (~300 нт), которая является неотъемлемым компонентом частицы распознавания сигналов, нацеливающей белки на клеточные мембраны32, и эволюционным предком широко распространенных у приматов Alu (~280 nt) и грызунов B1 (~135 nt) малых пересекающихся ядерных элементов33-35. Учитывая эту серую зону размеров, мы поддерживаем предложение разделить не-кодирующие РНК на три категории36: (1) малые РНК (менее 50 nt); (2) транскрипты РНК-полимеразы III (Pol III) (такие как тРНК, 5S рРНК, 7SK, 7SL и Alu, vault и Y РНК37), транскрипты Pol V у растений и малые транскрипты Pol II, такие как (большинство) snRNAs и интрон-производные snoRNAs38,39 (~50-500 nt); и (3) lncRNAs (более 500 nt), которые в основном генерируются Pol II.
Многие lncRNAs подвергаются сплайсингу и полиаденилированию, что привело к их описанию как "мРНК-подобных". Однако другие lncRNAs не полиаденилированы или capped с помощью 7-метилгуанозина19,40-42, экспрессируются с промоторов с помощью Pol I (5.8S, 28S и 18S рРНК) или Pol III, или возникают из предшественников, включая интроны и повторяющиеся элементы, что привело к более агностическому описанию "транскрипты неизвестной функции"43. По отношению к белок-кодирующим генам, lncRNA могут быть "межгенными", анти-смысловыми или интронными. Они также происходят от "псевдогенов", которые часто встречаются в геномах метазоа44, причем более 10 000 псевдогенов идентифицировано в геноме мыши45 и почти 15 000 идентифицировано в геноме человека46, некоторые из которых оказались функциональными44,47. К lncRNAs также относятся кольцевые РНК, образующиеся в результате обратного сплайсинга кодирующих и не-кодирующих транскриптов, также с продемонстрированными функциями48, и транс-действующие регуляторные РНК, образующиеся из последовательностей, которые обычно выступают в качестве 3' не-транслируемых областей мРНК49.
Комитет по номенклатуре генов HUGO, консорциум GENCODE и другие организации предпринимали многочисленные попытки создания номенклатуры и классификации lncRNAs, преимущественно на основе их геномного положения и ориентации относительно белок-кодирующих генов46,50-53. Связь с близлежащими генами была полезна, поскольку она обеспечивает контекст и иногда дает подсказки о функции lncRNA, например, в регуляции экспрессии этих генов, как это часто происходит с энхансерами (см. далее), хотя не следует полагать, что активность энхансеров направлена на самые близкие гены.
Многие первые исследования были посвящены длинным межгенным не-кодирующим РНК (lincRNAs), последовательности которых не пересекаются с близлежащими локусами, кодирующими белки, из-за необходимости отличать их функции от функций белков. Однако многие другие lncRNAs перекрывают белок-кодирующие локусы или экспрессируются из закрытых интронов. Более того, традиционный взгляд на геномы как на линейные структуры дискретных белок-кодирующих генов не позволяет учесть открытие того, что эукариотическая транскрипция, наиболее характерная для человека и модельных организмов, представляет собой нечеткий континуум54 , с "генами" внутри генов, генами, чередующимися с другими генами, и некодирующими транскриптами, перекрывающимися или возникающими внутри них18,43,55 , что в совокупности представляет собой растущую проблему для аннотаций геномов.
Например, у человека и D. melanogaster многие гены, кодирующие белки, имеют 5 экзонов, которые включаются в мРНК в раннем эмбриогенезе и располагаются на сотни килобаз выше обычного первого экзона, минуя многие другие гены в промежуточном регионе56. Действительно, любое основание может быть экзонным, интронным или "межгенным", в зависимости от транскрипционной активности клетки в любой момент ее траектории развития или физиологического состояния55. По этой причине, если только lncRNA не является анти-смысловой по отношению к белок-кодирующему гену, мы рекомендуем называть lncRNAs по их собственному усмотрению с намеком на определенную характеристику или функцию (как это традиционно делается для белков), например, XIST, анти-смысловая не-кодирующая белок РНК IGF2R57 (AIRN), анти-смысловая межгенная РНК HOX58 (HOTAIR), Gomafu ("пятнистый узор" в японском языке; также известная как Miat)59, COOLAIR (относящаяся к яровизации растений)60 и регулируемая ауксином промоторная петля61 (APOLO), для облегчения запоминания, предпочтительно в сопровождении полных структур экзонов-интронов и геномных координат. Если биологический контекст отсутствует, мы рекомендуем называть lncRNAs в соответствии с системой GENCODE46.
Широкий спектр функций "не-кодирующих" РНК не позволяет однозначно отнести их к определенным классам РНК: некоторые из них действуют локально, другие - на расстоянии, или и то, и другое62. В отсутствие более конкретной классификации мы рекомендуем сохранить общий дескриптор "lncRNA", отмечая, что большинство из них играют ту или иную регуляторную или архитектурную, часто связанную, роль в биологии клетки и развитии, а также потому, что существует множество исторических статей, в которых используется этот термин или его вариации. Некодирующие РНК бывают всех форм и размеров, и их территория огромна, она охватывает большую часть генома и множество функций. Некоторые РНК выполняют двойную функцию - кодирующую и регуляторную, а некоторые, возможно многие, цитозольные lncRNAs кодируют небольшие пептиды63-66. Локусы, кодирующие белки, также экспрессируют lncRNAs посредством альтернативного сплайсинга67-69, и, что удивительно, основной транскрипт, продуцируемый ~17% локусов, кодирующих белки человека, является не-кодирующим70. Действительно, как гены lncRNA, так и гены мРНК могут производить транскрипты, которые функционируют после различных уровней обработки. Не-сплайсированные транскрипты, сплайсированные транскрипты, кольцевые РНК, интронные РНК и образующиеся из них стабильные малые РНК могут иметь определенную функцию48,71,72. Любая РНК может быть регуляторной, и любой локус может кодировать как белок-кодирующие, так и регуляторные РНК.
Зарегистрировано более 100 000 человеческих lncRNA52,73, многие из которых характерны для приматов74. Этот список крайне неполный из-за ограниченного анализа различных клеток на разных стадиях развития (см. далее). В настоящее время существуют сотни тысяч каталогизированных lncRNAs и десятки баз данных (и баз данных о базах данных) с curated информацией75-80. За последнее десятилетие появилось ~50 000 публикаций с ключевым термином "длинные не-кодирующие РНК" и более 2000 публикаций, в которых сообщается о подтвержденных функциях lncRNA81, хотя большинство из них еще не получили детального исследования.
Далее мы сосредоточимся на lncRNAs, полученных из первичных транскрипционных единиц Pol II (и используем этот термин в данном контексте), в отличие от других не-кодирующих РНК, которые экспрессируются с промоторов Pol I или Pol III, подвергаются процессингу из интронов (которые, следует отметить, составляют большую часть не-кодирующих РНК у млекопитающих и других организмов41,82-84) или образуются путем обратного сплайсинга, хотя многие могут быть использованы из тех же соображений .
Conservation of lncRNAs
Большинство lncRNAs менее консервативны среди видов, чем последовательности мРНК, кодирующие протеом. Первоначально считалось, что большая часть генома млекопитающих (включающая большинство локусов lncRNAs) эволюционирует нейтрально, используя показатель скорости расхождения общих "древних повторов" (происходящих от транспозонов) между геномами человека и мыши, исходя из предположения, что эти последовательности нефункциональны и важны для первоначального распределения в предке85. Однако появляется все больше доказательств того, что транспозиционные элементы широко используются в качестве функциональных элементов экспрессии и структуры генов, формируя промоторы, регуляторные сети, экзоны и сплайс-переходы в белок-кодирующих генах и lncRNAs86-89, и поэтому их нельзя использовать в качестве индексов нейтральной эволюции.
Известно, что регуляторные последовательности, включая промоторы и lncRNAs, быстро эволюционируют из-за более мягких структурно-функциональных ограничений, чем белок-кодирующие последовательности, и из-за положительного отбора в ходе адаптивного распространения (radiation)85,90-92. Многие lncRNAs специфичны для клеточных линий. Действительно, учитывая их связь с энхансерами развития (см. далее), вариации в комплементе и последовательностях lncRNAs могут быть основным фактором видового разнообразия.
Локусы, экспрессирующие lncRNAs, обладают многими характеристиками белок-кодирующих генов, включая промоторы, множество экзонов, альтернативный сплайсинг, характерные хроматиновые сигнатуры, регуляцию морфогенами и обычными транскрипционными факторами, изменение экспрессии при раке и других заболеваниях74,93-98, а также диапазон периодов полураспада, аналогичный мРНК99.
Промоторы lncRNAs демонстрируют уровень сохранения, сравнимый с уровнем сохранения белок-кодирующих генов18,74. lncRNAs также имеют консервативные структуры экзонов, сплайс-соединения и участки последовательности18,74,93,97, и они сохраняют ортологичные функции, несмотря на быструю эволюцию последовательности100-102. Действительно, низкая сохранность последовательности может вводить в заблуждение.
lncRNA из telomerase RNA template component (TERC), необходимого для поддержания теломер - жизненно важной клеточной функции - сильно различается по размеру и последовательности, но имеет консервативную структурную топологию от дрожжей до млекопитающих, хотя и с некоторыми вариациями, и консервативное каталитическое ядро103-108 (см. также далее). Компенсация дозы Х-хромосомы у Drosophila spp. требует формирования ядерного домена путем разделения фаз с помощью lncRNAs roX1 и roX2, взаимодействующих с внутренне неупорядоченной областью (IDR) специфического белка-партнера, мужского полового летального белка 2 (MSL2). Замена IDR млекопитающего ортолога MSL2 на IDR белка D. melanogaster и экспрессия roX2 достаточны для возникновения эктопической компенсации дозы Х-хромосомы в клетках млекопитающих, показывая, что взаимодействие IDR roX-MSL2 является основным детерминантом компартментализации Х-хромосомы и что такие взаимодействия сохраняются на огромных эволюционных расстояниях109. Аналогичные процессы вовлечены в регуляцию компенсации доз Х-хромосомы у плацентарных млекопитающих с помощью XIST, который выполняет несколько функций, включая отталкивание эухроматических факторов, образование новых гетерохроматических факторов и реорганизацию структуры хромосомы110-113.
Expression
Хотя существуют исключения (например, транскрипт 1 аденокарциномы легких, ассоциированный с метастазами (MALAT1; также известен как NEAT2), который является одним из наиболее распространенных транскриптов от Pol II в клетках позвоночных114, и транскрипт 1 сборки ядерного paraspeckle (NEAT1); см. далее), lncRNAs обычно демонстрируют более ограниченный характер экспрессии, чем мРНК74,115, и часто являются высоко клеточно-специфичными116, что согласуется с их ролью в определении состояния клетки и траектории развития. Они также имеют специфическое субклеточное расположение, чаще всего ядерное, хотя значительная их часть находится в цитоплазме75. Хотя иногда утверждается, что в человеке существует несколько сотен типов клеток, широкие классификации скрывают тот факт, что каждая клетка занимает определенное место в онтогенезе развития, экспресси это иллюстрируется дифференциальной экспрессией генов HOX в поверхностно похожих клетках кожи в разных регионах тела117, а также экспрессией lncRNAs в различных областях мозга118-121 и на разных стадиях развития122. Кроме того, lncRNAs динамично экспрессируются во время дифференцировки стволовых, мышечных клетках, клетках молочных желез, иммунных и нейронных клетках млекопитающих, среди многих других81,116, причем в процессе развития происходит переход от широко экспрессируемых и консервативных lncRNA к растущему числу линейно-специфических и орган-специфических lncRNA123. Экспрессия lncRNA может также сильно зависеть от факторов окружающей среды, что особенно ярко выражено у растений124-126, включая ряд стрессовых реакций у животных и лекарственную устойчивость при раке127-133.
Ограниченная экспрессия lncRNAs в различных клетках на разных стадиях развития и их, как правило, низкое число копий (в силу их регуляторной природы) объясняет их редкую представленность в массивах данных секвенирования РНК134 , в то время как многие lncRNAs относительно легко обнаружить в определенных клетках118. Недостаточная выборка lncRNAs в настоящее время исправляется целевым захватом98,135, расширенной визуализацией136-138, пространственной транскриптомикой139 и, в некоторых случаях, секвенированием одной клетки120,121,140, что делает очевидным, что, в то время как ~20 000 локусов lncRNAs человека были идентифицированы GENCODE46 и ~30 000 консорциумом FANTOM141, их, вероятно, на порядок больше.
Из-за высокой сложности и различий в местах инициации и терминации транскрипции, уровнях экспрессии и сплайсинга комплексная характеристика транскриптомов является чрезвычайно сложной задачей. Недавнее исследование показало, что низкий уровень экспрессии lncRNAs может быть важным для ее функциональной роли, обеспечивая специфичность для регулируемых мишеней, что позволяет предположить, что низкий уровень присутствия может быть существенной особенностью работы lncRNAs142. Чтобы полностью каталогизировать все lncRNAs и должным образом зарегистрировать их экзон-интронную организацию и варианты сплайсинга, необходимо провести глубокое секвенирование клеток на всех стадиях дифференцировки и развития, при различных нейронных, иммунологических и других физиологических процессах, а также при различных состояниях болезни. Это огромная задача, но мы рекомендуем, чтобы будущее профилирование экспрессии генов включало полный анализ транскриптов не только мРНК, но и малых РНК и lncRNAs, которые являются межгенными, анти-смысловыми и интронными по отношению к аннотированным генам, а также их стехиометрию143.
Phenotypic visibility
Как и миРНК, большинство lncRNAs не было идентифицировано в генетических скринингах. На это есть две причины. Во-первых, большинство генетических скринингов исторически сосредоточено на мутациях, кодирующих белок, которые часто имеют серьезные последствия, которые легко отследить; напротив, регуляторные мутации часто имеют тонкие последствия, влияющие на количественные признаки. Во-вторых, трудно выявить причинные мутации среди множества вариаций, происходящих в не-кодирующих последовательностях. Действительно, большинство вариаций, влияющих на количественные признаки человека и сложные расстройства, происходит в не-кодирующих областях, которые изобилуют генами, экспрессирующими lncRNAs144,145 , которые транскрибируются в типах клеток, имеющих отношение к соответствующему признаку141,146.
Существуют исключения среди lncRNAs, которые были идентифицированы генетически, в частности, РНК roX1 и roX2, участвующие в активации Х-хромосомы у самцов плодовых мушек5, РНК H19, Airn и Kcnq1ot1 у мышей6,57,147,148 и другие, такие как Tug1 у мышей149, MAENLI150 и HELLP ("haemolysis, elevated liver enzyme levels and low platelet count"; также известна как HELLPAR)151, которые связаны с нарушениями и процессами развития. У Arabidopsis thaliana были обнаружены не-кодирующие интронные однонуклеотидные полиморфизмы, важные для адаптации к времени цветения, которые изменяют сплайсинг lncRNA COOLAIR152.
Многие lncRNAs были связаны с причиной и прогрессированием рака посредством изменения экспрессии и/или мутаций (включая точки разрывов при транслокациях) в lncRNA, которые действуют как онкогены или опухолевые супрессоры153-155. Другие lncRNAs вовлечены в генетические заболевания человека81,156,157, включая синдром DiGeorge и другие дефекты нейрального развития и черепно-лицевые дефекты158-160. Фенилкетонурия, одно из первых зарегистрированных генетических заболеваний человека, вызванное в основном мутациями в ферменте фенилаланин гидроксилазе, также вызыавется мутациями в lncRNAs, которые можно лечить с помощью модифицированных РНК-имитаторов (mimics)161.
Путь к анализу биологической функции lncRNAs состоит в том, чтобы подавлять или удалять, или (реже) эктопически экспрессировать lncRNAs, которые были идентифицированы в наборах данных секвенирования РНК, обычно как дифференциально экспрессированные. Однако существуют проблемы с интерпретацией таких экспериментов, в частности, сложность разделения потери экспрессии lncRNAs и потери регуляторных элементов ДНК
162,163 , что было решено с помощью таких стратегий, как вставка сайтов полиаденилирования для раннего прекращения транскрипции или репрессии транскрипции с помощью CRISPR-интерференции (CRISPRi), замена lncRNAs репортерным геном, оставляющим промотор нетронутым, или удаление экзонов lncRNAs (хотя нельзя исключить потерю регуляторных элементов, расположенных ниже по течению), анти-смысловая блокада сайтов сплайсинга lncRNAs, нацеливание CRISPR-Cas13 на lncRNAs (а не на последовательность ее ДНК) и спасение трансгенов
163,164. В настоящее время существует множество исследований, продемонстрировавших биологическую роль lncRNAs
163, а высокопроизводительные обратные генетические скрининги с потерей функции увеличивают скорость поиска, выявляя, например, lncRNAs, необходимые для роста и миграции клеток млекопитающих, развития мозга, скелета, легких, мышц и сердца, иммунной функции, гомеостаза эпидермиса и реакции на лекарства против рака, или lncRNAs, оказывающие фитнес-эффект
81,165,-170 (рис. 1). CRISPRi-опосредованная транскрипционная репрессия более 16 000 lncRNAs в семи клеточных линиях человека выявила почти 500 lncRNAs, необходимых для нормальной клеточной пролиферации, 89% из которых экспрессировались только в одном типе клеток
167.
Fig. 1:
Visible phenotypes of mutations in long non-coding RNA genes in mice163.
The following long non-coding RNAs (lncRNAs) are listed in the figure underneath their associated phenotypes: Airn, antisense of IGF2R non-protein-coding RNA147,435; Charme, chromatin architect of muscle expression436; Chaserr, CHD2 adjacent, suppressive regulatory RNA437; Fendrr, FOXF1 adjacent non-coding developmental regulatory RNA165,438; Firre, functional intergenic repeating RNA element316; Gaplinc, gastric adenocarcinoma predictive long intergenic non-coding RNA200; H19, clone pH19 (ref. 439); Handsdown, downstream of the protein-coding gene Hand2 (ref. 440) Kcnq1ot1, Kcnq1 overlapping antisense transcript 1 (ref. 441); linc-Brn1b, long intergenic non-coding RNA (lincRNA) downstream of the Brn1 protein-coding gene165; linc-Epav, endogenous retrovirus-derived lncRNA positively regulates antiviral responses442; lincRNA-Cox2, lincRNA downstream of the inflammation response gene Cox2 (ref. 443); lincRNA-Eps, lincRNA involved in erythroid prosurvival201; lnc-Lsm3b, interferon-inducible non-coding splice variant of the U6 small nuclear RNA-associated Sm-like protein lsm3 gene444; Maenli, master activator of engrailed1 in the limb165; Mdgt, midget165; Meg3, maternally expressed gene 3 (also known as Gtl2)445,446; Norad, non-coding RNA activated by DNA damage447; Peril, perinatal lethal long non-coding RNA165; Pnky, pinky (also known as lnc-Pou3f2)448; Tug1, taurine upregulated gene 1 (refs. 165,166,449) Upperhand, lncRNA upstream of the Hand2 cardiomyocyte transcription factor locus318; Xist, X-inactive-specific transcript450. Figure courtesy of Daniel Andergassen and John Rinn.
Фенотипические последствия мутаций в регуляторных РНК, как и некоторых мутаций, кодирующих белки, могут зависеть от контекста и не проявляться в лабораторных условиях, а также могут быть затушеваны устойчивостью биологических систем171. Потеря Malat1, которая локализуется в ядерных пятнах (speckles) и ассоциируется с факторами сплайсинга, не имеет серьезных фенотипов у мышей114,172-174; однако она влияет на прогрессирование рака и формирование синапсов, среди прочих физиологических и патофизиологических процессов175,176. Ген Neat1, который необходим для сборки и функционирования загадочных, специфических для млекопитающих ядерных органелл, называемых 'paraspeckles'177-179, не требуется для нормального развития у мышей, но важен для дифференциации связанных с репродукцией женских тканей, таких как corpus luteum и молочная железа180. Удаление brain cytoplasmic RNA 1 (BC1), высоко экспрессируемой мозговой lncRNA, кажется безвредным у мышей, но приводит к поведенческим изменениям, которые в дикой природе были бы летальными181. Поэтому важно проводить обширное фенотипирование, особенно в отношении когнитивных функций. Органоидные модели могут помочь в определении фенотипов in vitro182,183.
Функциональное описание (аннотация) lncRNAs также может быть проведена с помощью молекулярного фенотипирования184. Анализ экспрессии, взаимодействия lncRNA с хроматином и других молекулярных показателей после CRISPR-Cas13-опосредованного истощения более 400 lncRNAs в культуре показал, что lncRNAs регулируют многие гены, вовлеченные в развитие, клеточный цикл и клеточную адгезию, среди прочих процессов185.
Biological functions of lncRNAs
Описанные примеры показывают, что РНК участвуют практически во всех уровнях организации генома, структуры клетки и экспрессии генов посредством РНК-РНК, РНК-ДНК и РНК-белковых взаимодействий, часто с участием повторяющихся элементов88,186,187, включая малые вкрапления (interspersed) ядерных элементов в 3' не-транслируемых областях188. Эти взаимодействия участвуют в регуляции архитектуры хроматина и транскрипции (см. далее), сплайсинга (особенно с помощью анти-смысловых lncRNAs)189-191, трансляции и локализации белков188,192,193, и других форм обработки, редактирования, локализации и стабильности РНК194,195.
Многие lncRNA участвуют в регуляции клеточной дифференциации и развития у животных и растений23,81,116,124,196. Они также играют роль в физиологических процессах, таких как (у млекопитающих) p53-опосредованный ответ на повреждение ДНК197, рекомбинация V(D)J и рекомбинация переключателей классов в иммунных клетках198, экспрессия цитокинов199, эндотоксический шок200, воспаление и нейропатическая боль201-203, биосинтеза холестерина и гомеостаза204,205, выработки гормона роста и пролактина206, метаболизма глюкозы207,208, клеточной передачи сигналов и транспортных путей209-212, функции синапсов213,214 и обучения215, а также играют роль в ответе на различные биотические и абиотические стрессы у растений124,125. Существует также новая ассоциация lncRNAs с клеточной мембраной216 и рибозимами217.
В настоящее время все большее число lncRNA имеют свои собственные истории, и литература становится все более изобилующей ими. Однако появляются несколько сходящихся тем, которые объясняют вездесущность и важность lncRNAs в дифференциации и развитии: ассоциация lncRNAs с белками, модифицирующими хроматин; экспрессия lncRNAs из "энхансеров" развития; образование коацерватов РНК-ядер, разделенных фазой.
Control of chromatin architecture
Эпигенетические модификации хроматина контролируют дифференциацию и развитие в сложных организмах218. Известно, что метилирование ДНК направляется малыми не-кодирующими РНК у растений219, а путь RNAi необходим для формирования гетерохроматина и эпигенетического глушения генов у грибов и животных220. Млекопитающие de novo ДНК (цитозин 5)-метилтрансферазы 3A (DNMT3A) и DNMT3B, но не поддерживающая ДНК-метилаза DNMT1, связывают siRNA с высоким сродством221. В свою очередь, DNMT1 (которая восстанавливает метилирование на гемиметилированных динуклеотидах CpG после репликации ДНК) связывает lncRNAs для изменения структуры метилирования ДНК в их когнитивных локусах222-224, но это все еще остается практически неизученной территорией.
Существует более 100 различных модификаций гистонов, которые дифференцированно устанавливаются ферментами в огромном количестве различных позиций в геномах растений и животных для контроля экспрессии генов во время развития. Наиболее изученными являются Polycomb repressive complex 1 (PRC1) и PRC2, которые катализируют монобициклирование гистона H2A Lys119 (ссылка 225) и диметилирование и триметилирование гистона H3 Lys27 (H3K27), соответственно, но у млекопитающих ни один из этих комплексов не содержит специфических для последовательности ДНК-связывающих белков218. Ранние исследования показали, что PRC2 и/или связанная с ним H3K9 метилтрансфераза G9a рекрутируются во время инактивации Х-хромосомы мыши Xist186 и контроля родительского импринтинга у мышей Airn226 и Kcnq1ot1 (ссылка 227), хотя эти ассоциации сопряжены со сложностями и неопределенностями228,229.
Последующее исследование более чем 3300 lncRNAs в клетках человека показало, что ~20% (но только ~2% мРНК) взаимодействуют с PRC2, а другие lncRNAs связаны с другими хроматин-модифицирующими комплексами230. Более того, истощение некоторых из этих РНК вызывало дерепрессию генов, обычно заглушаемых PRC2 (ссылка 230). PRC2 связывается со многими РНК228,231,232, более чем с 9000 в эмбриональных стволовых клетках233. Имеются противоречивые сведения о том, являются ли эти ассоциации неспецифическими ("promiscuous")228,234 или специфическими высокоаффинными взаимодействиями с различными РНК232,235, хотя эти альтернативы не исключают друг друга229. Некоторые недавние исследования показали, что РНК необходима для заселения хроматина PRC2, функции PRC2 и определения состояния клетки236, и что взаимодействие PRC2 с РНК может регулировать элонгацию при транскрипции232. Функция PRC1 также, по-видимому, контролируется РНК237,238. Однако деконволюция РНК-белковых взаимодействий осложняется низкой аффинностью многих антител, используемых в анализах pulldown, и тем фактом, что PRC2, например, имеет как минимум две субъединицы, связывающие РНК228. Недавнее развитие денатурирующей сшитой иммунопреципитации (dCLIP), которая основана на высокоаффинных биотин-стрептавидиновых pulldown анализах, показало, что PRC2 взаимодействует с G-богатыми мотивами РНК, включая G-квадруплексы РНК, для достижения специфичности РНК-опосредованного рекрутирования232,239,240.
Другие lncRNAs связываются с ген-активирующими комплексами Trithorax (которые метили H3K4), включая энхансерные РНК, участвующие в поддержании судьбы стволовых клеток и спецификации линий241-245. Диметилирование H3K9 регулируется lncRNAs во время формирования долговременной памяти у мышей246. lncRNAs также контролируют метилирование ряда негистоновых белков, участвующих в передаче сигналов животных клеток, экспрессии генов и процессинге РНК247.
Многие другие белки, участвующие в модуляции архитектуры хроматина, включая белки HOX, пионерные транскрипционные факторы, такие как NANOG, OCT4 (также известный как POU5F1), SOX2 и другие белки группы высокой подвижности (HMG), а также белки комплексов ремоделирования хроматина SWI/SNF, обладают лишь нечеткой или беспорядочной специфичностью последовательности ДНК248-251, что указывает на участие других факторов в определении их мишеней на разных стадиях дифференцировки и развития клеток. Более того, было показано, что выбор места связывания с помощью транскрипционного фактора CTCF цинковыми пальчиками, который вместе с когезиновыми комплексами закрепляет хромосомные петли252 , контролируется lncRNA just proximal to Xist (Jpx) во время ранней клеточной дифференциации, тем самым регулируя топологию хроматина в масштабах всего генома253. CTCF связывает тысячи РНК, включая Xist, Jpx и lncRNA Xist antisense RNA (Tsix), которая нацеливает CTCF на центр инактивации X254.
Существует множество доказательств того, что РНК может направлять комплексы ремоделирования хроматина, хотя доступность, диктуемая модификациями ДНК и гистонов (которые также, вероятно, направляются регуляторными РНК), также может играть определенную роль. Hox-белок Bicoid D. melanogaster (контролирующий формирование передне-заднего паттерна) связывает РНК через свой гомеодомен255. SOX2 связывает РНК с высоким сродством через свой HMG-домен256,257, как и другие члены семейства HMGB257-259.
Во время эмбриогенеза мыши локус Sox2 экспрессирует также перекрывающуюся lncRNA260, и существуют хорошо документированные примеры lncRNAs, которые взаимодействуют с SOX2 для регулирования плюрипотентности, нейрогенеза, дифференцировки нейронов и развития мозга257,261-264. Комплексы ремоделирования нуклеосом SWI/SNF направляются в определенные участки хроматина или им противодействуют lncRNAs, включая XIST и энхансерные РНК, в широком диапазоне процессов дифференцировки и рака251,265-270.
LncRNA MaTAR25, которая избыточно экспрессируется при раке молочной железы, действует in trans положении для регуляции гена tensin 1 через взаимодействие с коактиватором транскрипции PURB271. Главный транскрипционный фактор myoblast determination protein (MYOD), который может перепрограммировать фибробласты млекопитающих в мышечные клетки и играет центральную роль в дифференцировке мышц in vivo, регулируется с помощью lncRNAs272-274, как и другие аспекты экспрессии мышечных генов275. Пионерный транскрипционный фактор CBP также связывает РНК, в том числе транскрибируемые с энхансеров, чтобы стимулировать ацетилирование гистонов и, следовательно, транскрипцию276. Некоторые транскрипционные факторы (OCT4, NANOG, SOX2 и SOX9) также регулируются lncRNAs, включая псевдогенные lncRNAs277-281, и взаимно регулируют экспрессию lncRNAs282. Энхансерные lncRNAs также регулируют экспрессию рецептора ядерного гормона ESR1 (см. 283) и CCAAT/enhancer-binding protein-α (CEBPA)284.
Enhancer action
Энхансеры - это некодирующие геномные локусы, которые контролируют пространственно-временную экспрессию других генов во время развития. В геноме млекопитающих насчитывается ~400 000 (±100 000) энхансеров285-288, которые иногда объединяются в "суперэнхансеры" или "энхансерные джунгли "288-291. Считается, что энхансеры функционируют путем соединения транскрипционных факторов, связанных c промоторами энхансеров, с промоторами целевых генов292,293.
Несомненно, действие энхансеров изменяет топологию хроматина и может быть ответственно за формирование доменов хроматиновых петель, которые действуют как локальные центры транскрипции и сплайсинга294,295. Энхансеры транскрибируются в клетках, в которых они активны141,289,296-299, что привело к неопределенности в вопросе о том, являются ли образующиеся РНК побочными продуктами связывания факторов транскрипции или играют роль в активности энхансеров298.
Последнее, по-видимому, имеет место. Эпигенетический ландшафт и особенности инициации транскрипции на промоторах белок-кодирующих генов и энхансеров практически неотличимы296-300. Энхансеры экспрессируют двунаправленные промотор-ассоциированные короткие РНК301-303, называемые 'eRNAs', хотя такие короткие РНК не являются специфичными для энхансеров, поскольку аналогичные двунаправленные транскрипты производятся с промоторов белок-кодирующих генов304,305. Также по аналогии с мРНК, производимыми белок-кодирующими генами, энхансеры экспрессируют длинные (не-кодирующие) РНК (их также путано называют "eRNAs "298,306), и транскрипция считается лучшим молекулярным индикатором активности энхансеров в процессах развития296,297,306-308 и рака288. Более того, было показано, что сплайсинг enhancer-lncRNA модулирует активность энхансеров309,310.
Хотя степень соответствия объединенных генетических и транскриптомных данных высокой глубины неясна, поскольку их доступность все еще ограничена, но данные свидетельствуют о том, что многие, если не большинство lncRNAs происходят от энхансеров141, 298 и что lncRNAs необходимы для активности энхансеров163,284,311-314, примеры включают lncRNAs Evf2 (также известную как Dlx6os1)315, Firre316, Peril317, Upperhand (также известную как Hand2os1)318 и Maenli150 у мышей. Функция энхансерных РНК - благодатная почва для исследований, но если энхансерные локусы считаются полноценными "генами", то парадокс g-значения (предполагаемое отсутствие увеличения числа генов с усложнением развития) разрешается. Это также означает, что ключевым событием в эволюции сложных организмов стало использование РНК для организации траекторий развития319. Оказывается, что "каждый тип клеток экспрессирует точные сигнатуры lncRNA для контроля специфических для линии развития регуляторных программ"270, и что состояние клеток в течение онтогенеза, вероятно, направляется lncRNAs.
Formation of biomolecular condensates
В последнее десятилетие все большее признание получает роль биомолекулярных конденсатов, или phase-separated domains (PSDs), в организации клеток и хроматина. Эти конденсаты представляют собой высокодинамичные ансамбли с высокой локальной концентрацией макромолекул, что способствует функциональным взаимодействиям. Конденсаты обычно содержат как РНК, так и белки320-322 , причем последние имеют IDRs, которые являются основными сайтами посттрансляционных модификаций323. IDRs взаимодействуют со многими партнерами и настраиваются ими324. Доля протеома, содержащего IDRs, увеличивается по мере усложнения клеток и развития323, и почти все белки, участвующие в регуляции развития, включая большинство факторов транскрипции, гистоны, гистон-модифицирующие белки, другие хроматин-связывающие белки, РНК-связывающие белки, факторы сплайсинга, рецепторы ядерных гормонов, цитоскелетные белки и мембранные рецепторы, содержат IDRs323,325-332.
РНК имеет решающее значение для формы, состава и функции фазово разделенных РНК-белковых конденсатов
320-322. Специфические "архитектурные" lncRNAs
333 ассоциируют с ядерными конденсатами разного периода полураспада и функциональности, в том числе в центросомах
334, нуклеолах
335 (lncRNAs SLERT138 и LETN336), в ядерных пятнах (speckles) (lncRNA MALAT1 (Refs. 173,337)), в богатом факторами РНК - процессинге, в связанных со speckles конденсатами, содержащие lncRNA
Gomafu у мышей
338,339 и пара-speckles (lncRNA NEAT1 (ссылки 340,341)) (рис. 2) у позвоночных, а также в комплексах полиаденилирования
342 и другие конденсаты у растений
343. Конденсаты RNP также включают цитоплазматические безмембранные органеллы, такие как Р-гранулы
344,345, субклеточно-локализованные сборки RNP трансляционных мессенджеров
346 и синаптические компартменты
320,322,347. Цитоплазматическая lncRNA
NORAD млекопитающих, которая индуцируется при повреждении ДНК и необходима для стабильности генома, предотвращает аберрантный митоз путем секвестрации белков Pumilio (которые связывают множество РНК, регулирующих судьбу стволовых клеток, развитие и неврологические функции) в PSD через свои повторяющиеся последовательности
137,348.
Fig. 2:
Roles of long non-coding RNAs in nuclear organization.
a, 5' small nucleolar RNA-capped and 3'-polyadenylated long non-coding (lncRNAs) (SPAs)42 and small nucleolar RNA-related lncRNAs (sno-lncRNAs)41 accumulate at their sites of transcription and interact with several splicing factors such as RNA-binding protein FOX-1 homologue 2 (RBFOX2), TAR DNA-binding protein 43 (TDP43) and heterogeneous nuclear ribonucleoprotein M (hnRNPM) to form a microscopically visible nuclear body that is involved in the regulation of alternative splicing42. b, The lncRNA functional intergenic repeating RNA element (Firre) is transcribed from the mouse X chromosome and interacts with the nuclear matrix factor hnRNPU to tether chromosome X (chrX), chr2, chr9, chr15 and chr17 into a nuclear domain451,452. c, The lncRNA nuclear paraspeckle assembly transcript 1 (NEAT1) is essential for the formation of paraspeckles178. NEAT1 sequesters numerous paraspeckle proteins to form a highly organized core-shell (dark and light purple, respectively) spheroidal nuclear body453. The middle region of NEAT1 is localized in the centre of paraspeckles, and the 3'-end and 5'-end regions are localized in the periphery453. Different paraspeckle proteins are embedded by NEAT1 into the spheroidal structure in the core region (non-POU domain-containing octamer-binding protein (NONO), fused in sarcoma (FUS) and splicing factor, proline- and glutamine-rich (SFPQ)) or in the shell region (RNA-binding motif protein 14 (RBM14))453. d, The lncRNA metastasis-associated lung adenocarcinoma transcript 1 (MALAT1) is localized at the periphery of nuclear speckles172,454 and is involved in the regulation of pre-mRNA splicing339,455. MALAT1 interacts with the U1 small nuclear RNA (U1 snRNA)428, whereas proteins such as SON DNA- and RNA-binding protein and splicing component 35 kDa (SC35) are localized at the centre of nuclear speckles456. e, The lncRNA CHD2 adjacent, suppressive regulatory RNA (Chaserr) forms a compartment within a region of the mouse chromosome corresponding to a topologically associating domain that includes its own gene as well as the Chd2 gene (encoding chromodomain DNA helicase protein 2 (CHD2))437. Chaserr limits in cis the expression of Chd2, which is important for proper regulation of many genes (not shown). f, The perinucleolar compartment contains the lncRNA pyrimidine-rich non-coding transcript (PNCTR), which sequesters pyrimidine tract-binding protein 1 (PTBP1) and thus suppresses PTPBP1-mediated pre-mRNA splicing elsewhere in the nucleoplasm369. The size of nuclear bodies is indicated where relevant457. Figure adapted from ref. 80, Springer Nature. Part e courtesy of Inna-Marie Strazhnik and Mitch Guttman.
Предполагается, что РНК играют центральную роль в организации генома и экспрессии генов путем образования пространственных компартментов и транскрипционных конденсатов349-353. Фазовое разделение, по-видимому, определяет дальние взаимодействия хроматина и необходимо для действия энхансеров и суперэнхансеров328,351,354-357, а также для транскрипции, транскрипционных факторов и комплексов полиаденилирования342,358-361, хотя сообщалось, что концентраторы транскрипционных факторов работают в отсутствие обнаруживаемого фазового разделения362. PSD, образованные lncRNAs, включая богатые повторами РНК363,364, опосредуют формирование гетерохроматина353,365,366, эухроматина367, тел Polycomb368 и альтернативного сплайсинга369. lncRNAs являются существенным компонентом быстро перестраивающейся, богатой повторами РНК (технически называемой "РНК CoT-1"), а визуализация высокого разрешения показывает множество содержащих повторы РНК, связанных с хроматином, это указывает на то, что коллективное присутствие тысяч lncRNAs служит для противодействия конденсации хроматина364. Визуализация высокого разрешения также показывает локализацию многих lncRNAs в компартментах ядра, напоминающих PSDs136,353. Все эти данные позволяют предположить, что существуют тысячи lncRNAs с низким числом копий, участвующих в организации хромосомных территорий.
lncRNA structure-function relationships
Размер lncRNAs обычно варьируется от около 1 kb до более 100 kb (ссылки 370,371) и имеет модульную структуру
372-375. Они часто мультиэкзонные и с высоким уровнем альтернативного сплайсинга (рис. 3a), что было неочевидно до появления глубокого секвенирования
98. Они также содержат большую долю сайтов сплайсинга GC-AG
376 и поэтому сплайсируются менее эффективно, чем транскрипты, кодирующие белки
377,378, которые обладают свойствами, связанными с альтернативным сплайсингом
379. Альтернативный сплайсинг, как неудивительно, привел к изменению функции lncRNAs
42,152,380,381.
Fig. 3:
Modular structures of long non-coding RNAs.
a, Targeted RNA sequencing has revealed that human chromosome 21 (chr21) is pervasively transcribed into long non-coding RNAs (lncRNAs) and that lncRNA exons are almost universally (but not randomly) alternatively spliced to form diverse and complex isoforms98. The circle indicates the fraction of non-coding exons across all chr21 transcripts that are alternatively or constitutively spliced. b, Modular structural domains in lncRNAs that fulfil a range of functions372-375, including targeting DNA, such as in the case of auxin-regulated promoter loop (APOLO)61; binding other RNAs - for example, terminal differentiation-induced non-coding RNA (TINCR)458, potentially involving RNA-binding proteins such as Staufen 1; and recruitment of proteins - for example, pyrimidine-rich non-coding transcript (PNCTR) recruiting of pyrimidine tract-binding protein 1 (PTBP1) through special RNA motifs369 and X-inactive-specific transcript (XIST) recruiting split ends homologue (SPEN) and Polycomb repressive complex 2 (PRC2), perhaps in concert, which is the subject of active exploration and debate142,397,399,423,424,459. Modular functional domains can be repeated within a lncRNA or in multiple different lncRNAs7,87,186,369,388,391,393-401. Figure courtesy of Tim R. Mercer.
Некоторые lncRNAs также демонстрируют общие мотивы и комбинации мотивов101. По меньшей мере 18% генома человека консервативны среди млекопитающих на уровне предсказанной структуры РНК382, а сходные и потенциальные структуры паралоги РНК встречаются во многих местах генома383,384. Химическое зондирование показало, что lncRNAs , включая Xist, образуют сложные многодоменные структуры108,385-389, причем химические данные совпадают с данными, предсказанными эволюционным сохранением вторичной структуры389. Более того, lncRNAs с аналогичным содержанием олигонуклеотидов в k-основании (короткий мотив) имеют родственные функции, несмотря на отсутствие общей гомологии, что предполагает, что малые элементы последовательности также являются ключевыми детерминантами функции lncRNAs390.
Многие экзоны lncRNA происходят от транспозиционных элементов187,391. Наиболее высоко консервативными последовательностями в Xist, который интенсивно изучался, являются его повторы7 , в то время как его уникальные последовательности быстро эволюционировали392 , и многие его биологические функции, включая рекрутирование генных репрессивных комплексов и сайленсинг генов, опосредуются через его модульные повторяющиеся элементы142,186,388,393-399. Последовательности, производные от транспозируемых элементов, участвуют во многих РНК-белковых взаимодействиях369,400,401, это позволяет сделать вывод о том, что повторяющиеся структуры являются общими строительными блоками lncRNAs87,391,396 и существенными компонентами их функции391.
Молекулярные механизмы действия lncRNA неясны. В большинстве хорошо изученных случаев РНК-регуляции, таких как RNAi, snoRNAs, CRISPR и теломераза, РНК действует как проводник, направляющий комплексы эффекторных белков на комплементарные последовательности РНК или ДНК. Данные об отдельных lncRNAs (например, HOTAIR, roX1, roX2, Meg3, Tug1, PARTICLE (также известная как PARTCL), PAPAS и KHPS1) показывают, что они образуют триплексные структуры с ДНК на пурин-богатых участках GA для привлечения модификаторов хроматина к определенным локусам в геноме402-408, с доказательствами того, что образование триплексов lncRNAs является широко распространенным явлением409-411. Другие, особенно антисмысловые lncRNA, по-видимому, функционируют через образование гибридов РНК-ДНК61,412,413, но подробная информация об этом в настоящее время отсутствует.
Структура и функция RNP lncRNA хорошо охарактеризованы только в одном случае - в комплексе теломеразы, который изучается уже несколько десятилетий. Теломеразная обратная транскриптаза (TERT) катализирует добавление теломерных повторов к концам хромосом, а другие белки комплекса обеспечивают ядерную локализацию, стабильность или привлечение к теломерам или телам Cajal. lncRNA TERC обеспечивает основу для сборки RNP и шаблон для полимеризации ДНК TERT, а мутации в TERT и TERC вносят основной вклад в этиологию рака и являются причиной таких наследственных заболеваний, как врожденный дискератоз103-107,414-416.
Напротив, хотя мы знаем фенотипы, вызванные потерей некоторых lncRNA, мы почти ничего не знаем о том, как работает большинство из них, хотя, учитывая, что еще в 2010 году само существование повсеместной транскрипции все еще было предметом споров417-419 и огромноuj количества lncRNAs, с техьпор был достигнут значительный прогресс. Предполагается, на наш взгляд обоснованно, что в целом lncRNAs будут участвовать в многосторонних взаимодействиях подобно TERC и комплексу теломеразы108 , и есть некоторые доказательства в поддержку этого предположения в таких случаях, как XIST (рис. 3б), но предположение еще не было строго проверено. Есть и многообещающие открытия, например, демонстрация того, что консервативные псевдоузелки (pseudoknots) в lncRNA Meg3 необходимы для стимуляции пути p53420. Также появляется все больше доказательств дискретной структурной организации в lncRNAs421. Тем не менее, предстоит долгий путь к пониманию структуры и функции многих тысяч lncRNAs и их сплайс-вариантов в контексте связанных с ними комплексов RNP и биомолекулярных конденсатов как в ядре, так и в цитоплазме.
Challenges
Если сложный онтогенез животных и, в меньшей степени, растений требует большого количества РНК для управления эпигенетическими решениями при каждом клеточном делении, то неудивительно, что многие lncRNAs имеют общие белок-связывающие модули и специфические целевые последовательности, которые различаются на разных стадиях развития. Задача состоит в том, чтобы определить, какие lncRNAs и модули в них взаимодействуют с эффекторными белками, а какие обеспечивают специфичность мишени (ДНК или РНК). Первая задача осложняется высокой субъединичной природой многих комплексов РНК, но ее решают такие технологии, как iCLIP422, RAP-MS423, ChIRP-MS388 и iDRiP424. Определить специфичность мишени еще сложнее, поскольку для специфического нацеливания требуются лишь короткие участки нуклеотидной комплементарности, учитывая силу взаимодействий РНК-РНК и РНК-ДНК425, но эта проблема может быть решена новыми методами, анализирующими взаимодействия РНК-хроматина и РНК-РНК, такими как GRID-seq426, RADICL-seq427, RIC-seq428 и RD-SPRITE353. Другие lncRNAs локализованы в цитоплазматических компартментах, компоненты которых также необходимо охарактеризовать.
Понимание роли lncRNAs и того, как они функционируют в динамических ансамблях с другими макромолекулами, обеспечит более полное понимание биологии клетки и развития, а также взаимодействия генов с окружающей средой. Новые задачи включают понимание роли lncRNAs и модификаций РНК в функциональной пластичности, особенно в мозге, и дисрегуляции этих lncRNA-опосредованных путей при неврологических расстройствах, раке и других заболеваниях.