Прямой генетически скрининг с использованием CRISPR-ассоциированных нуклеаз становятся важным инструментом для функциональной геномики из-за высокой специфичности мишени, простой программируемости и невероятной универсальности, достигаемой путем слияния различных белковых доменов с инактивированной нуклеазой. Базирующийся на CRISPR скрининг, нацеленный на аннотированные кодирующие последовательности (CDS), показал замечательные результаты, в том числе высокое соответствие между уникальными реагентами, нацеленными на один и тот же ген, и высокой эффективностью возмущений. Самое главное, они продолжают выявлять большое количество ранее неохарактеризованных генов, связанных с множественными клеточными фенотипами. Учитывая, что наводимые с помощью РНК, нуклеазы CRISPR, непосредственно нацелены на ДНК, их можно использовать не только для проведения функциональных исследований аннотированных генетических элементов, но и для обнаружения контролирующих генетических элементов посредством беспристрастного indel насыщения, нацеленного на участки в пределах большой геномной области.
Ранее скрининг некодирующих последовательностей , использующий CRISPR-ассоциированные нуклеазы, помогал обнаруживать регуляторные элементы и выявлял функциональные ландшафты геномных регионов, связанных с болезнью одиночных нуклеотидных полиморфизмов (SNP). В предыдущей статье Canver et al. осуществляли (sg) РНК-насыщающий мутагенез на человеческом и мышином эритроидном энхансере BCL11A [1]. Эти эксперименты выявили функциональную организацию этих энхансеров, ключевые различия между последовательностями человека и мыши и эффект in vivo обнаруженных регуляторных областей при переключении гемоглобина. Другие исследования на основе CRISPR также продемонстрировали точную идентификацию новых регуляторных элементов с использованием отклонений роста [2, 3] или базирующегося на флуоресценции фенотипа [4].
Критической особенностью крупномасштабных скринингов с использованием целенаправленно действующих реагентов, предназначенных in silico, является способность исключать ложные позитивные и негативные срабатывания. Реагенты, которые нарушают нежелательные цели в геноме, вызывают ложные срабатывания, в то время как ложные отрицательные реакции могут быть результатом неэффективного нацеливания или из-за более эффективных реагентов, которые индуцируют второй фенотип, не позволяя осуществлять точное измерение искомого фенотипа. Точность скрининга, нацеленного на CDS зависит от доступности нескольких точно аннотированных экзонов внутри гена, так что sgRNAs могут быть разработаны с достаточной гибкостью для оптимизации специфичности к мишеням и воздействия множественных sgRNAs на элемент [5]. В то время как скрининги, нацеленные на CDS используют эту избыточность для исключения ложных позитивных реакций и уменьшения вероятности ложных отрицательных реакций [5], скрининг не кодирующих последовательностей ухудшается из-за плохо определенных размеров и границ не кодирующих генетических элементов. В недавней работе Canver et al. предприняли первые шаги для решении этих проблем путем увеличения разрешения мутагенеза, включения известных генетических вариаций в структуру библиотеки sgRNA и тщательного анализа эффектов sgRNA вне мишени [6].
Было обнаружено, что генетическая вариация внутри межгенной области HBS1L-MYB связаной с эритроидными признаками и уровнями фетального гемоглобина (HbF), вероятно, связаны с изменениями экспрессии MYB. В своей недавно опубликованной статье Canver et al. исследовали регуляторный ландшафт межгенного региона HBS1L-MYB, используя CRISPR насыщяющий мутагенез, нацеленный на 98 гиперчувствительных к ДНКазы I (DHS) участков в этом регионе. Они улучшили чувствительность обнаружения функциональных не кодирующих элементов, используя две взаимодополняющие стратегии. Во-первых, они увеличивали плотность целевых сайтов использованием двух нуклеаз, эффективно удваивая количество специфичных для нуклеазы последовательностей PAM, которые фиксируют sgRNAs. Во-вторых, они включали информацию о существующих генетических вариациях (из проекта 1000 геномов) в проект библиотеки sgRNA, добавляя sgRNAs, которые учитывали документированное изменение в целевой последовательности, а также новые sgRNA, которые генерируют сайты PAM. Эта двунаправленная стратегия улучшала показатели обнаружения, расширяя пул целевых элементов и увеличивая количество последовательных sgRNAs, целенаправленно действующих на любой элемент, тем самым улучшая HMM-базирующееся скользящее окно статистического анализа, чтобы выявить настоящие позитивно функционирующие регионы [1, 6].
sgRNAs, которые воздействуют на дополнительные сайты генома (напр., повторяющиеся регионы) являются проблематичными не только из-за множественных редактирований, обнаруживаемых в ходе идентификации 'реального' функционального элемента, но и также из-за того, что несущееся вскачь редактирование может приводить к исчезновению (drop-out) фенотипа, возможно из-за активации путей повреждения ДНК [7, 8]. Принимая во внимание, что нарушение регуляции MYB, как известно, предупреждает пролиферацию эритроидного клона, Canver et al. положились на drop-out фенотип, чтобы возвратить DHSs с регуляторным потенциалом. Чтобы высвободить 'настоящие' drop-outs, возникающие в результате разрушения ключевых регуляторных элементов от тех, вызываемых неспецифическим таргетингом, Canver et al. стратифицировали sgRNAs с помощью показателей эффектов вне мишени (off-target scores). Это достоверно снижало количество hits, легко возникающих при положительных ложных результатах, ошибочно идентифицируемых , если такой анализ не производится, и привлекало внимание к тому, как характеристики не кодирующих регионов (которые обычно обогащены повторяющимися и низкой сложности последовательностями) могут ограничивать использование базирующихся на CRISPR просеивающих программ, чтобы определить их функциональную структуру.
В целом были идентифицированы три DHSs с предсказуемым регуляторным потенциалом. В завершение более глубокий анализ выявил случаи, где имелось расхождение между сайтами аннотированных транскрипционных факторов и функциональными последствиями мутаций в этом сайте. Напр., высоко специфические sgRNA в DHS -36, которые были лишены аннотированной регуляторной последовательности, давали сильное фенотипическое отклонение, тогда как прежде исследованные SNP в сайте GATA1, не давали какого-либо клеточного фенотипа. Эти примеры подчеркивают важность функционального генетического анализа для верификации и конкретизации результатов коррелятивных исследований. Поскольку технологии, базирующиеся на секвенировании следующего поколения, продолжают создавать беспрецедентное представление об организации генома [9], то открываемые взаимодействия необходимо исследовать, вызывая пертурбации на геномной шкале. Т.о., функциональные данные, предоставляемые базирующимся на CRISPR беспристрастном скрининге не кодирующих последовательностей, сопровождаемые тщательным анализом без сомнения приведут к более полному пониманию не кодирующей части генома.