Ползователи:
ГЕНОТЕРАПИЯ



оптимизация кодонов

Codon-optimization in gene therapy: promises, prospects
Anastasiia Iu Paremskaia1 www.frontiersin.orgAnna A. Kogan1 www.frontiersin.orgAnastasiia Murashkina et al.
Front. Bioeng. Biotechnol., 28 March 2024 Sec. Synthetic Biology Volume 12 - 2024 | https://doi.org/10.3389/fbioe.2024.1371596

Codon optimization has evolved to enhance protein expression efficiency by exploiting the genetic code’s redundancy, allowing for multiple codon options for a single amino acid. Initially observed in E. coli, optimal codon usage correlates with high gene expression, which has propelled applications expanding from basic research to biopharmaceuticals and vaccine development. The method is especially valuable for adjusting immune responses in gene therapies and has the potenial to create tissue-specific therapies. However, challenges persist, such as the risk of unintended effects on protein function and the complexity of evaluating optimization effectiveness. Despite these issues, codon optimization is crucial in advancing gene therapeutics. This study provides a comprehensive review of the current metrics for codon-optimization, and its practical usage in research and clinical applications, in the context of gene therapy
Оптимизация кодонов впервые появилась в связи с поиском подхода к повышению эффективности экспрессии целевых белков в бактериальных культурах. Известное свойство вырожденности генетического кода позволяет мРНК по-разному кодировать одни и те же белки, поскольку 20 аминокислот могут быть закодированы 61 кодоном (Welch et al., 2009). Это свойство легло в основу метода оптимизации кодонов, когда с появлением генетического секвенирования стало очевидно, что использование кодонов не является случайным. Перекос в использовании кодонов происходит между различными организмами, тканями, а иногда даже между частями одного и того же гена (Athey et al., 2017; Pouyet et al., 2017). Таким образом, стало ясно, что выбор наиболее распространенных кодонов, считающихся подходящими для организма или клеточной линии, в ходе генно-инженерных исследований позволяет существенно изменить подходы к проведению экспериментов.
Кишечная палочка стала первым организмом с проанализированной системой использования кодонов. Зная последовательности антикодонов и обилие различных тРНК в клетке, авторы определили критерии оптимальности кодонов (Ikemura, 1981). Первым критерием было высокое распознавание кодонов, вторым - наибольшее обилие тРНК. Высоко экспрессируемые гены имели перекос в частоте использования в сторону оптимальных кодонов, в то время как гены с низкой экспрессией характеризовались высокой случайностью в выборе кодонов (Gouy and Gautier, 1982).
В настоящее время оптимизация кодонов находит применение в самых разных областях. Помимо фундаментальных исследований, контроль эффективности экспрессии белков с помощью подбора синонимичных кодонов также используется для разработки и производства биотерапевтических препаратов (Ayyar et al., 2017), большинство из которых основано на экспрессии рекомбинантных белков. Этот метод стал незаменим для молекулярной фармацевтики на растениях, где проблема низкой эффективности экспрессии стоит наиболее остро (Perlak et al., 1991; Desai et al., 2010; Thomas and Walmsley, 2014).
Дифференцированные клетки определяют формирование тканей различных типов. Этот сложный процесс можно регулировать на клеточном и молекулярном уровне (Simon et al., 2018). На молекулярном уровне это разнообразие отражается, в частности, в различиях в экспрессии белков - белки, которые в изобилии присутствуют в одной ткани, могут отсутствовать в другой (Thul and Lindskog, 2018). Различия в обилии белков, в свою очередь, обусловлены различиями в экспрессии РНК. Одним из возможных факторов, влияющих на такие закономерности, является разная частота использования при трансляции синонимичных кодонов, кодирующих одну и ту же аминокислоту (Kames et al., 2020) (рис. 1). Действительно, как редкость использования кодонов (Plotkin et al., 2004), так и частота вариантов тРНК (Dittmar et al., 2006; Gao et al., 2022) варьируют между тканями. Это потенциально может быть использовано для создания тканеспецифичной генотерапии. В то же время, насколько нам известно, в настоящее время в рецензируемых журналах есть только одна работа, экспериментально проверяющая эту гипотезу (Hernandez-Alias et al., 2023). Это исследование свидетельствует о том, что использование кодонов в зависимости от ткани потенциально может быть использовано для конструирования тканеспецифичных трансгенов. В то же время эта метрика является лишь одним из дополнительных инструментов в наборе инструментов для конструирования генов, применение которого требует дальнейшего изучения и не может рассматриваться в отрыве от ряда других показателей, обсуждаемых ниже (Hernandez-Alias et al., 2023).



Figure 1. tRNA recognition depends on the abundance of the tRNA variant in the cell. For example, in organism (A), tRNAs interacting with synonymous codons encoding alanine are represented in equal proportions (left panel). At the same time, it is possible that in organism (B), tRNA species with different anticodons are present in a different ratio (right panel). Then, when implementing an mRNA construct with an equal frequency of use of synonymous codons encoding alanine, the rate of tRNA recognition will be higher in organism (A) than in organism (B). In other words, the translation rate of the same mRNA construct may differ in different organisms depending on the presence of different tRNA variants.

Одной из наиболее актуальных и важных областей применения оптимизации кодонов является разработка вакцин. В настоящее время для создания неживых вакцин используются аттенуированные вирусы. Несколько исследовательских групп экспериментировали с ослаблением полиовируса путем изменения смещения кодонов в гене, кодирующем капсидный белок полиовируса, что включало замену более частых кодонов на менее частые (Burns et al., 2006; Mueller et al., 2006). Более того, увеличение экспрессии трансгенов в вакцинах может повысить эффективность иммунизации и может быть достигнуто путем оптимизации кодонов (Chen et al., 2008; Bell et al., 2016). Кроме того, новый класс вакцин - мРНК-вакцины - недавно был внедрен в клиническую практику в контексте пандемии COVID-19 (Oliver et al., 2020). В настоящее время возможность применения аналогичного подхода для профилактики таких инфекционных заболеваний, как бешенство (Wan et al., 2023), вирус гриппа (Lee et al., 2023), вирус Зика (Bollman et al., 2023), вирус Ласса (Ronk et al., 2023), является предметом активных исследований и разработок. Примечательно, что оптимизация кодонов мРНК вакцин может значительно повысить их стабильность и иммуногенность (Zhang et al., 2023). Несмотря на преимущества оптимизации кодонов, важно соблюдать баланс в использовании этих методов. Чрезмерный интерес к оптимизации кодонов может привести к накоплению веществ, плохо выводящихся из организма, таких как, например, модифицированная мРНК и соответствующий антиген (Bansal et al., 2021; Roltgen et al., 2022).
В настоящее время для разработки генных терапевтических препаратов могут быть использованы различные подходы. Контроль иммуногенности вводимого препарата - одна из самых важных задач не только при создании вакцин, но и при генотерапии. Чтобы препарат действовал эффективно, необходимо снизить иммуногенность вирусного вектора. Было показано, что, варьируя синонимичные кодоны в трансгене и векторе, можно повысить эффективность терапии за счет снижения иммуногенности (Athanasopoulos et al., 2011; Bell et al., 2016), что вселяет оптимизм в упрощение выбора вектора и расширение сферы применения этого вида терапии.
К сожалению, методы оптимизации кодонов, хотя и широко используются при разработке генотерапий, далеки от совершенства и сопряжены с рядом проблем. Одна из главных проблем заключается в неполной синонимичности замен. Этот недостаток чреват нарушением естественных участков пост-транскрипционной модификации или, наоборот, появлением новых участков, что приводит к критическим изменениям в структуре, свойствах и функциях конечного белка (Godfried Sie et al., 2012; Irimia et al., 2012). Более того, игнорирование существования альтернативных сайтов инициации трансляции (Malarkannan et al., 1999; Matsuda and Mauro, 2010) может привести к непреднамеренному образованию новых белков, что добавляет еще один уровень сложности в процесс. Помимо этих внутренних проблем, дополнительным препятствием является выбор подходящего численного метода для оценки эффективности оптимизации кодонов. Обилие доступных метрик усложняет задачу, требуя тщательного рассмотрения для обеспечения значимой оценки. Несмотря на перечисленные трудности, подходы к оптимизации кодонов активно используются в клинических испытаниях по всему миру, более того, в мРНК-вакцинах COVID-19 компаний Pfizer/BioNTech и Moderna применяется оптимизация кодонов.
Сегодня оптимизация кодонов может осуществляться различными способами. Часто бывает неясно, какой из этих подходов лучше всего подходит для решения конкретной задачи.
2 The quantitative assessment of codon usage and optimization
2.1 Measures of codon usage


На предпочтительность использования кодонов (CUB), также известную как предпочтение использования кодонов (CUP), влияет комбинация факторов, различающихся у разных видов. К таким факторам относятся частота мутаций (Pizzo et al., 2015), отбор на эффективность трансляции (Navon and Pilpel, 2011), наличие молекул трансспортной РНК (тРНК), распознающих определенные кодоны (Buchan, 2006; Wei et al., 2019), эффективность связывания рибосом (Shi et al., 2020), скорость трансляции и ко-трансляционного сворачивания белков (Mitarai et al., 2008; Liu, 2020).
Основываясь на неслучайном использовании кодонов в геномах разных видов и продемонстрированной ранее положительной корреляции между смещением кодонов и эффективностью экспрессии генов, Sharp and Li разработали шкалу относительного использования синонимичных кодонов (RSCU) (Sharp and Li, 1986). Значение RSCU рассчитывалось для набора генов как отношение наблюдаемой частоты кодонов к ожидаемой частоте, предполагающей равное использование синонимичных кодонов. Это исследование внесло существенный вклад в создание различных метрик, включая, в частности, индекс адаптации кодонов (CAI) (Sharp and Li, 1987), среднее отношение RSCU (ARSCU) (Chamani Mohasses et al., 2020) и индекс адаптации генетических тРНК (gtAI) (Anwar et al., 2023). CAI продолжает оставаться широко используемой метрикой как в коммерческих, так и в академических приложениях. CAI отражает уровень видоспецифической адаптации кодонов и рассчитывается как среднее геометрическое значение значений RCSU для каждого кодона в гене относительно значения наиболее часто используемого триплета, кодирующего одну аминокислоту.
На сегодняшний день разработано множество метрик для количественной оценки уровня оптимизации последовательности. В таблице 1 приведены краткие описания часто используемых метрик. Чтобы дать читателям представление о частоте использования метрик, мы добавили показатель цитируемости первоисточников. Однако важно подчеркнуть, что такой подход не отражает уровень использования инструментов оптимизации на основе указанных метрик.

Table 1. Metrics for codon optimization with formal definition and description. The number of citations was retrieved from the Scopus database.

Table 2. Example representation of the 4-letter amino acid sequence ADGY (alanine-aspartic acid-glycine-tyrosine) via synonymous codons. Nucleotide sequence of wild-type GCC-GAT-GGT-TAT. There are 4 codon variants for the first and third amino acids, and 2 variants for the second and fourth amino acids. Total 64 possible variants of nucleotide presentation of this sequence.

Для получения частоты использования кодонов можно легко рассчитать множество метрик с использованием эталонного набора генов. Например, Fop рассчитывается как отношение оптимальных кодонов к общему числу кодонов, исключая стоп-кодоны и кодоны без альтернатив для аминокислот (метионин, триптофан) (Ikemura, 1981; 1982). Этот индекс помогает оценить распространенность использования синонимичных кодонов. Другие метрики основаны на предположении, что использование кодонов не является случайным. Эти метрики количественно оценивают отличие частоты использования кодонов от равномерного распределения в пределах кодирующей последовательности. Когда все варианты кодонов для конкретной аминокислоты используются с одинаковой частотой, такая разница минимальна. И наоборот, максимум достигается, когда используется только один кодон из возможных. Примерами таких индексов являются ENC, CDC, SCUO и другие.
2.2 Codon adaptation metrics for assessing mRNA properties


Оптимизация кодонов - это стратегия, направленная на повышение эффективности трансляции мРНК и преодоление ограничений на экспрессию белка. Использование синонимичных кодонов влияет на стабильность мРНК в клетках человека (Narula et al., 2019; Wu et al., 2019). Термодинамическая стабильность мРНК в клетке существенно влияет на эффективность трансляции (Hanson and Coller, 2018; Diez et al., 2022). мРНК по своей природе нестабильна, она может переходить в переходные состояния и принимать множество стабильных структур. Один из подходов к выбору синонимичных аминокислот для целей термодинамической стабилизации направлен на минимизацию свободной энергии ΔG (MFE), высвобождающейся при сворачивании РНК (Zuker and Stiegler, 1981; Zuker, 1994). Ringnйr and Krogh, 2005 продемонстрировали на Saccharomyces cerevisiae, что свободная энергия сворачивания вблизи 5'-UTR положительно коррелирует с эффективностью транскрипции и периодом полураспада мРНК (Ringner and Krogh, 2005).
Альтернативный подход предполагает, что оптимальная структура будет обладать максимальным количеством химических связей (Wayment-Steele et al., 2021). Метрики AUP (Average Unpaired Probability) и SUP (Sum of Unpaired Probabilities), используемые для оценки устойчивости РНК к гидролитической деградации, исходят из того, что структуры, образованные парными основаниями, менее восприимчивы к гидролизу.
Кластерный анализ показал, что разные мРНК преимущественно используют разные типы кодонов. Некоторые мРНК преимущественно используют оптимальные кодоны, в то время как другие предпочитают не оптимальные кодоны. Кроме того, было замечено, что мРНК с большей долей оптимальных кодонов, как правило, более стабильны, а с меньшей долей оптимальных кодонов - более нестабильны. На основе проведенных экспериментальных исследований была предложена метрика, названная коэффициентом стабильности кодонов (CSC). Он рассчитывается как коэффициент корреляции Pearson между частотой каждого кодона и периодом полураспада мРНК (Presnyak et al., 2015).
В стандартном генетическом коде первые две позиции кодона играют решающую роль в кодировании аминокислоты, а третья позиция является вариабельной для одной аминокислоты. Набор разработанных метрик GC1, GC2 и GC3 представляет собой частоту использования G + C в первой, второй и третьей позициях соответственно (Stenico et al., 1994). Другой оценкой, полученной на основе RSCU, является средний коэффициент RSCU (ARSCU) (Chamani Mohasses et al., 2020). Его особенностью является учет основания в третьей позиции кодона. Оптимизация экспрессии белка часто предполагает частое использование содержания GC. Модель пост-транскрипционной регуляции мРНК с участием P-тел, 5'-3' экзонуклеазы XRN1, РНК-хеликазы DDX6 и энхансера декаппинга PAT1B показывает, что GC-богатые кодирующие последовательности (CDS) приводят к более высокой продукции белка по сравнению с AU-богатыми и контролируются механизмом с участием факторов деградации DDX6 и XRN1 (Courel et al., 2019). Напротив, уменьшение содержания GC в 5'-UTR приводит к увеличению свободной энергии, а также повышает выход белка, предположительно за счет дестабилизации мРНК в области инициации трансляции и большей доступности сайта связывания с рибосомой (Dewi and Fuad, 2020). Содержание GC3 варьирует в зависимости от типа ткани, но не является исчерпывающей характеристикой для тканеспецифического разделения генов (Plotkin et al., 2004). Кодоны GC3 также связаны с более длительным периодом полураспада мРНК (Kudla et al., 2006; Hia et al., 2019).
2.3 Metrics for adaptation to tRNA pool


Предпочтительное отношение к использованию кодонов тесно связано с трансляционным отбором, который представляет собой процесс выбора кодонов, соответствующих обильным тРНК - молекулам, отвечающим за перенос аминокислот в процессе синтеза белка. Высоко экспрессируемые гены, как правило, используют такие предпочтительные кодоны, что приводит к повышению скорости и точности трансляции. Dittmar и др., (2006) показали, что уровни экспрессии ядерных и митохондриальных тРНК различаются в разных тканях человека, что свидетельствует о тканеспецифическом трансляционном отборе. Однако незначительные различия в митохондриальной РНК мыши были обнаружены только для сердечной ткани, в то время как значительные различия между центральной нервной системой и другими тканями были продемонстрированы на уровне изодекодеров тРНК, то есть транскриптов с одним и тем же антикодоном, но кодируемых множеством разных генов (Pinkard et al., 2020). Важно отметить, что сила трансляционного отбора варьирует у разных организмов в зависимости от размера генома и содержания геномных тРНК (Reis, 2004).
Чтобы учесть роль содержания внутриклеточных тРНК в эффективности трансляции, были разработаны следующие индексы: P2index (Gouy and Gautier, 1982) и индекс адаптации тРНК (tAI) (dos Reis, 2003).
Первоначально tAI был применим только к S. cerevisiae, но его последующие модификации, stAI (Sabi et al., 2017) и gtAI (Anwar et al., 2023), преодолели это ограничение, включив видовые веса с помощью алгоритмических подходов для поиска экстремумов. gtAI продемонстрировал большую эффективность благодаря использованию генетического алгоритма для определения оптимального набора весов. При его расчете также учитываются индексы ENc и RSCU. gtAI колеблется от 0 до 1, где более высокое значение подразумевает лучшую адаптацию кодона к пулу тРНК.
Индекс P2 - метрика, используемая для количественной оценки эффективности взаимодействий между кодонами и соответствующими им антикодонами в процессе трансляции. Исходя из частоты встречаемости определенных типов кодонов, значения, превышающие 0,5, указывают на наличие трансляционного отбора, влияющего на кодирующую последовательность.
2.4 Algorithmic approaches and tools for codon optimization


В настоящее время для выявления комбинаций кодонов с желаемыми характеристиками используются различные алгоритмы оптимизации, такие как генетический алгоритм (Blazej et al., 2018), многоцелевая искусственная пчелиная колония (Gonzalez-Sanchez et al., 2019), Ribotree Monte Carlo (Leppek et al., 2022) и динамическое программирование (Pham et al., 2004; Taneda and Asai, 2020). В нескольких исследованиях было представлено использование рекуррентных нейронных сетей для оптимизации кодонов при экспрессии гетерологичных белков в клетках яичника китайского хомячка (Gricetulus griseus) (Goulet et al., 2023) и E. coli (Jain et al., 2023). Двунаправленная модель глубокого обучения Long Short-Term Memory (LSTM) также была обучена для E. coli (Fu et al., 2020).
В других исследованиях для стабилизации мРНК применялись методы машинного обучения, такие как интегрированная оптимизация мРНК на основе глубокого обучения (iDRO) (Jain et al., 2023), которая обеспечивает двух-этапную оптимизацию открытой рамки считывания и не транслируемых областей. S. Castillo-Hair and G. Seelig обучили модель на наборе данных полисомного профиля 5'UTR для предсказания загрузки рибосом и экспрессии белка (Castillo-Hair and Seelig, 2022). Прогностическая сила таких моделей сильно зависит от количества и качества обучающих наборов данных. В то же время накопление экспериментально проверенных наборов данных зачастую происходит не так быстро, как развитие методов машинного обучения. Например, на сегодняшний день (февраль 2024 года) в Protein Data Bank депонировано всего 6 142, из которых 1 416 - человеческие, экспериментально подтвержденные структуры РНК (Berman, 2000). Это указывает на то, что высокоточное предсказание 3D-структур РНК с помощью методов машинного обучения может быть точным для обучающих данных, но не для новых данных (Sato and Hamada, 2023).
Несколько программных инструментов, использующих статистические и алгоритмические решения, доступны для коммерческого и бесплатного использования. Здесь мы представляем несколько современных инструментов, которые могут быть использованы для решения различных задач, в том числе связанных с генотерапией: ATGme (Daniel et al., 2015), OPTIMIZER (Puigbo et al., 2007), CHARMING (Wright et al., 2022), %MinMax (Rodriguez et al., 2018), JCat (Grote et al., 2005), Optipyzer (LeRoy and Roleck, 2023), IDT (Owczarzy et al., 2008), gtAI (Anwar et al., 2023).
3 Codon optimization for gene therapy vectors


Выше были раскрыты метрики и принципы, связанные с оптимизацией кодонов. В то же время следует отметить, что ресурсы, необходимые для проверки функциональности предсказанных in silico вариантов РНК, значительно превышают стоимость самого предсказания. По этой причине в исследованиях часто представлены в основном неподтвержденные гипотезы в экспериментах in vitro или in vivo. Тем не менее, ниже мы приводим несколько примеров, когда оптимизация кодонов была успешно применена in vitro. Переходя к исследованиям in vitro, следует отметить, что генотерапия зависит из вектора доставки и терапевтического гена. В настоящее время в качестве носителя трансгена используется множество типов векторов (например, липоплексы (Chen et al., 2016), полиплексы (Hayat et al., 2019), вирусоподобные частицы (Pitoiset et al., 2017)).
Некоторые из этих векторов представляют собой кассету с выбранными вирусными генами, другие не содержат нуклеиновых кислот. В некоторых случаях вирусные гены дикого типа в векторе генотерапии не оптимизированы для эффективного применения (Bainbridge et al., 2008). В то же время кодон-оптимизированные варианты этих последовательностей повышают эффективность генотерапии, хотя и могут приводить к неблагоприятным результатам, таким как нежелательные конформационные изменения и, как следствие, изменения активности и функции белка. Ниже рассматриваются примеры кодоновой оптимизации аденовирусных (Coughlan, 2020), ретровирусных и лентивирусных векторов (Breckpot et al., 2010).
Поскольку адено-ассоциированные векторы в последнее время стали наиболее распространенной платформой для переноса генов (Mendell et al., 2021), а аденовирусы давно и успешно используются для доставки генов (Bulcha et al., 2021), мы рассмотрим применение оптимизаций на их примере.
Было показано, что в аденовирусах гены, отвечающие за высокоразвитые поздние структурные белки, как правило, используют кодоны, часто встречающиеся у человека (оптимальные кодоны), в то время как ранние регуляторные используют менее оптимальные кодоны (Villanueva et al., 2016). Однако белок аденовируса специфически использует субоптимальные кодоны для эффективной вирусной репликации. Удивительно, но анализ трансгенов, экспрессируемых в онколитических аденовирусах, которые используются для онкоселективной экспрессии широкого спектра терапевтических молекул (de Sostoa et al., 2019; Huang et al., 2019), показывает, что большинство трансгенов также используют субоптимальные кодоны. Это противоречит рекомендации использовать в трансгенах оптимальные кодоны хозяина для максимизации экспрессии генов. В исследовании изучается влияние использования кодонов трансгена на вирусную пригодность и обнаруживается, что трансгены с более высоким содержанием GC3 (оптимальное использование кодонов) имеют более высокую экспрессию генов и вирусную репликацию, в то время как трансгены с более низким содержанием GC3 имеют более низкую экспрессию и репликацию (Nunez-Manchon et al., 2021). Настраивая использование кодонов для трансгенов, можно добиться лучшей экспрессии трансгенов без ущерба для вирусной репликации, тем самым оптимизируя терапевтический результат.
При разработке генотерапий возникает проблема достижения высоких титров и высокого соотношения пустых и полных капсидов в вирусных векторах. Одним из решений этого препятствия является кодоновая оптимизация вирусных геномов, кодирующих капсидные белки и белки сборки. Таким образом, оптимизации кодонов подвергаются не только трансгены, но и кодирующие последовательности самого вирусного вектора. Для векторов на основе AAV (адено-ассоциированного вируса) был представлен новый метод оптимизации кодонов (Localized Codon-Optimization или LCO) (Cabanes-Creus et al., 2019).
Этот метод направлен на сохранение функциональных элементов капсидных генов и повышение эффективности перетасовки последовательностей капсида при инженерии AAV. Алгоритм LCO выполняет локальную оптимизацию кодонов в каждой позиции независимо друг от друга, основываясь на частоте использования кодонов, наблюдаемой во входных вариантах последовательностей AAV. Для каждой аминокислотной позиции генерируется таблица частот использования кодонов, которая пригодна для оптимизации отдельных последовательностей (табл. 3). LCO-модифицированные капсидные гены показали повышенные качественные особенности последовательностей в сравнении между родительскими капсидами AAV и новыми капсидными вариантами AAV.

Table 3. An example of how the LCO method works to optimize the four codons of the mRNA encoding ADGY (see Table 2). A probability is calculated for all possible codons for a particular amino acid at a particular position. The most probable codons are marked in bold. Accordingly: GCC-GAT-GGT-TAT (wild-type nucleotide sequence)—would be optimized to GCT-GAT-GGA-TAC (final LCO-optimised sequence).

Тесты на функциональность показали, что оптимизированные капсиды сохранили свою функцию, а эффективность трансдукции была аналогична не оптимизированным аналогам. Метод LCO также повысил эффективность перетасовки последовательностей капсидов, в результате чего была получена библиотека с высокой степенью перетасовки, повышенной сложностью и уменьшенным размером сегментов донорской последовательности. Перемешанные клоны, созданные с использованием капсидов, кодированных LCO, продемонстрировали успешную трансдукцию, что свидетельствует об эффективности LCO в генерации новых вариантов AAV.
Как ни странно, широкое использование оптимизации кодонов происходило одновременно с многочисленными исследованиями, выявившими влияние синонимичных мутаций на функцию белка. Это было показано на множестве белков (Buhr et al., 2016; Kirchner et al., 2017).
Обсуждаемый механизм включает сравнение кодон-оптимизированного (CO) и дикого типа (WT) вариантов белка под названием FIX (фактор свертывания IX). Результаты показывают, что варианты CO и WT FIX имеют разные конформации, что позволяет предположить, что процесс оптимизации кодонов повлиял на структуру белка. Анализ профилирования рибосом выявил измененные схемы распределения рибосом и локальную кинетику трансляции в варианте CO по сравнению с вариантом WT. Примечательно, что эти различия характерны только для варианта CO FIX, поскольку контрольные гены демонстрируют сопоставимые профили распределения рибосом (Alexaki et al., 2019a).
Несмотря на наблюдаемые различия в кинетике трансляции, общая эффективность синтеза белка между вариантами CO и WT оставалась сходной. Этот вывод согласуется с результатами предыдущих исследований, проведенных in vitro (вне живого организма), и позволяет предположить, что скорость синтеза белка у двух вариантов сопоставима. Исследователи предполагают, что различия в кинетике трансляции в этих доменах могут способствовать наблюдаемым конформационным различиям между вариантами CO и WT FIX.
К оптимизации кодонов можно подходить не только с точки зрения глобального использования кодонов в целом, но и с точки зрения локальной оптимизации для каждой отдельной позиции в конкретной аминокислоте. Кроме того, важно проверить, что функции основных элементов и оптимизированного белка остаются неизменными.
4 The effect of codon optimization on immunogenicity


Иммунный ответ на вводимое чужеродное вещество или молекулу можно определить как иммуногенность. Следует отметить, что повышенная иммуногенность в одних случаях повышает эффективность препарата, а в других - снижает (рис. 2). Например, целью иммунизации является формирование иммунного ответа против патогена. В этом случае необходимо использовать методы, повышающие иммуногенность препарата. Следует отметить, что при разработке мРНК-вакцин чрезмерная реакция иммунной системы нежелательна из-за возможного повреждения организма человека (Igyarto and Qin, 2024) и должна быть учтена при оптимизации кодонов. С другой стороны, если введенный в организм трансген должен привести к выработке соответствующего белка, любая степень иммуногенности снизит эффективность терапии. Врожденный и адаптивный иммунный ответ на генотерапию может различаться в зависимости от источника иммуногенности. Это могут быть факторы, связанные с капсидом вириона или с вирусным геномом. Что касается капсида, то связывание TLR2 или TLR9 может потенциально активировать врожденный иммунный ответ и инициировать сигнальный каскад MyD88, который, в свою очередь, стимулирует выработку провоспалительных цитокинов, таких как TNF-альфа, или индуцирует синтез IFN-гамма (Yang et al., 2022). В зависимости от состава вирусного вектора, врожденный иммунный ответ может привести к усилению адаптивного иммунного ответа. Например, AAV, которые часто используются в качестве векторов генотерапии, циркулируют между людьми естественным образом. В результате у большинства людей вырабатываются антитела против естественных серотипов AAV из-за предыдущего воздействия. Известно даже, что эти антитела перекрестно реагируют с разработанными векторами (Boutin et al., 2010). В результате эти антитела могут привести либо к активации комплемента, либо к нейтрализации капсида. Адаптивный иммунный ответ характеризуется деградацией капсидного белка протеасомой и презентацией пептидов на молекулах MHC класса I. Цитотоксические Т-клеточные лимфоциты CD8+ могут связываться с MHC, что приводит к гибели клеток (Martino et al., 2013). Пептидные презентации на молекулах MHC класса II после фагоцитоза и протеолиза могут распознаваться CD4+ Т-лимфоцитами, которые затем могут стимулировать пролиферацию В-клеток и выработку капсид-специфических антител (Li et al., 2013). Исследования показали, что плазмацитоидные дендритные клетки (pDC) и обычные дендритные клетки (cDC) сотрудничают для достижения перекрестного стимулирования CD8+ Т-клеток (Rogers et al, 2017). pDC распознают геном AAV через TLR9, в то время как cDC представляют антиген на MHC I. Для этого процесса необходимо связывание продуцируемого цитокинами IFN с его рецептором на cDC, это указывает на прямую связь между продуцируемыми pDC цитокинами и активацией cDC. Для перекрестного стимулирования CD8+ T-клеток против капсидов AAV требуется ко-стимуляция CD40-CD40L, которая осуществляется в дополнение к T1 IFN от CD4+ Th-клеток (Shirley et al., 2020b).



Figure 2. To develop effective gene therapies, a delicate balance must be maintained in terms of increasing or decreasing immunogenicity. On the one hand, excessive immunogenicity reduces the efficacy of a gene therapy product because less protein is produced in the corresponding tissues. Therefore, there are approaches to reduce excessive immunogenicity (upper panel). On the other hand, for certain classes of gene therapy products that target the development of an immune response (e.g., mRNA vaccines), methods are used to increase immunogenicity (lower panel).

После распаковки вируса рецепторы TLR9 распознают не метилированные CpG-мотивы в высвобождающейся одноцепочечной ДНК, что также приводит к активации системы врожденного иммунитета и стимулирует выработку цитокинов. Гуморальные и клеточные реакции врожденного иммунитета, описанные выше для капсида AAV, также происходят и в отношении белка-трансгена. Адаптивный иммунный ответ может зависеть от различных факторов, таких как ткань-мишень, дизайн вектора и доза. В зависимости от специфичности промотора существует потенциальный риск иммуногенности (Shirley et al., 2020a). Например, вездесущий промотор может увеличить риск адаптивного клеточного иммунного ответа клеток-мишеней и клеток, не являющихся мишенями (Sun et al., 2005).
Стоит отметить, что появление чужеродного белка в организме человека ассоциируется с развитием аутоиммунных заболеваний из-за сходства отдельных эпитопов чужеродного и собственного белков (Rojas et al., 2018). Например, недавно было показано, что одни и те же антитела перекрестно реагируют с белком вируса Эпштейна-Барр и белком альфа-кристаллина B человека (Thomas et al., 2023). Этот феномен молекулярной мимикрии может быть связан с развитием рассеянного склероза. Поэтому возможность молекулярной мимикрии белков в результате трансляции используемых нуклеиновых кислот должна учитываться при разработке генных терапевтических препаратов. Как уже упоминалось, оптимизация кодонов РНК может влиять на структуру транслируемого белка (Alexaki et al., 2019a). В результате, в зависимости от различных вариантов синонимичных замен, возможна презентация различных эпитопов одного и того же белка.
Представляет интерес сокращение этих CpG-мотивов для обхода возможного иммунного ответа человека, что может быть достигнуто путем оптимизации кодонов. Например, различные элементы вектора AAV, такие как энхансер и промотор CMV, области ITR, UTR и сам терапевтический трансген, могут содержать CpG-мотивы. CpG в последовательности промотора могут быть удалены, но с непредсказуемыми последствиями для активности и специфичности промотора. Например, авторы показали, что удаление CpGs в промоторе гена CMV значительно снижает его активность (Yew and Cheng, 2004). Хотя CpG можно удалять из экспрессионной кассеты, как в случае с человеческим фактором свертывания IX (hFIX) (Bertolini et al., 2021), это не всегда повышает эффективность - удаление CpG снижало образование антител только против трансгена, но не против самого капсида. Существует несколько исследований, в которых использовалась эта стратегия, но в основном с модификацией трансгена. Они показали, что удаление CpG-мотивов может привести к значительному снижению ответа CD8+ Т-клеток (Yew and Cheng, 2004; Faust et al., 2013; Herzog et al., 2019; Wright, 2020; Bertolini et al., 2021; Konkle et al., 2021).
Было показано, что несколько стратегий оптимизации кодонов, включая химическую модификацию нуклеозидов (Kariko et al., 2005) и включение псевдоуридина (Kariko et al., 2008; Anderson et al., 2010; Thess et al., 2015), улучшают трансляцию и снижают иммунный ответ на мРНК. pDC, подвергшиеся воздействию таких модифицированных РНК, демонстрируют значительное снижение уровня цитокинов и активационных маркеров. Модификация нуклеозида в одном положении в химически синтезированном олигорибонуклеотиде (ORN) достаточна для отмены активации TLR. Кроме того, было показано, что включение псевдоуридина, в частности, способствует уклонению от распознавания Toll-подобными рецепторами (Kariko et al., 2005), хотя молекулярные различия, способствующие этому механизму, еще не выяснены. Хотя введение псевдоуридина повышает стабильность мРНК и ее трансляционную способность, важно отметить недостатки замены уридина на псевдоуридин (Xia, 2021; Mueller, 2023). Недавнее исследование показало, что присутствие псевдоуридина в мРНК IVT увеличивает рибосомальный + 1 сдвиг рамки во время трансляции мРНК. Кроме того, образуются новые пептиды, которые вызывают иммунный ответ (Mulroney et al., 2024). Присутствие псевдоуридина в области стоп-кодона подавляет терминацию трансляции и допускает неканоническое сопряжение оснований, что особенно губительно для транскрибируемых in vitro мРНК (Loomis et al., 2016). Негативное влияние псевдоуридиновых синтаз связывают с различными онкологическими (Xue et al., 2022) и аутоиммунными заболеваниями (Festen et al., 2011). Это убедительно свидетельствует о том, что влияние оптимизации кодонов и включения псевдоуридина на экспрессию мРНК нуждается в дальнейшем изучении. Ограничением настоящего обзора является то, что он не посвящен детальному описанию специфических эффектов оптимизации кодонов на мРНК вакцин против COVID-19 как таковых, которые были внедрены в клиническую практику (обзор представлен в Xia, 2021), а направлен на обсуждение преимуществ и недостатков различных вариантов использования оптимизации кодонов в генотерапии в целом.
Подводя итог, можно сказать, что распространенной стратегией, позволяющей избежать иммуногенности, является устранение избыточных CpG-мотивов, химическая модификация ORN и замена уридина на псевдоуридин. Однако следует отметить, что оптимизация кодонов для устранения CpG-мотивов и модификация псевдоуридином должны осуществляться стратегически, чтобы избежать негативных последствий обоих подходов. Учитывая различные нерешенные факторы, приводящие к потенциальной иммуногенности как следствию генотерапии, разработка метрик для прогнозирования является сложной задачей. Тем не менее, в недавнем докладе (Wright, 2020) была предложена метрика для прогнозирования, сфокусированная исключительно на CpG-мотивах и их потенциальной иммуногенности. Были разработаны три формулы, учитывающие количество не метилированных CpG-мотивов в последовательности вектора. При разработке формул также учитывались известные иммуностимулирующие последовательности, обычно используемые в ДНК-вакцинах (Bode et al., 2011). Хотя эти формулы еще нуждаются в доработке для полной оценки и точного прогнозирования, они отражают начало более глубокого понимания того, как оптимизация кодонов может способствовать снижению иммуногенности.
5. Experimental testing of codon optimized sequences


Существует множество стратегий оптимизации кодонов в нуклеиновых кислотах. Упомянутые выше методы позволяют создавать многочисленные оптимизированные варианты последовательностей. Однако перед проведением дальнейших экспериментов необходима экспериментальная проверка таких свойств, как стабильность мРНК и уровень экспрессии белка. В зависимости от поставленных целей и имеющихся ресурсов, из множества вариантов дизайна можно отобрать лучших кандидатов по выбранным критериям. Затем эти кандидаты могут быть исследованы с помощью обычных лабораторных методов. В качестве альтернативы можно изучить пул из сотен последовательностей, и в этом случае необходимо разработать протоколы с высокой пропускной способностью (рис. 3).



Figure 3. Methods for the analysis of codon-optimized sequences. It should be noted that when studying the properties of a small number of variants of mRNA constructs, certain methods of analysis are used, while when comparing a large number of variants of mRNA constructs at the same time, others are used.

При изучении небольшого числа вариантов можно определить уровень экспрессии отдельно для каждой конструкции после трансфекции клеток. Для количественного определения экспрессии трансгенов в этом случае чаще всего используют праймеры, специфичные для мишени, а в качестве матрицы - кДНК, полученную из РНК методом обратной транскрипции, и проводят qPCR (Leppek et al., 2022). Количественная оценка экспрессии может проводиться как на транскрипционном, так и на трансляционном уровнях. Последний предполагает анализ синтезированных белков и может быть выполнен с использованием антител, специфичных к целевому белку. Например, Zhang et al. (2023) описали свойства оптимизированной структуры S-белка вируса SARS-CoV-2 с помощью проточной цитометрии. Возможным альтернативным методом определения концентрации белка является использование гелей SDS-PAGE для Вестерн-блот анализа вместе со специфическими антителами (Raab et al., 2010; Fath et al., 2011).
Хотя оптимизация кодонов целевой последовательности может дать определенные преимущества, она также может привести к снижению стабильности мРНК в растворе, что ухудшает ее функциональность. Поэтому необходимо экспериментально подтвердить стабильность структуры оптимизированных нуклеиновых кислот. Стабильность молекул мРНК обратно пропорциональна скорости их деградации в растворе. Для определения скорости деградации мРНК инкубируют в буфере PBS, содержащем ионы Mg2+. Образцы отбирают через различные промежутки времени (1-2 ч) и оценивают количество образовавшихся фрагментов с помощью капиллярного электрофореза (Zhang et al., 2023) или полиакриламидного гель-электрофореза с мочевиной. Таким образом, РНК менее стабильна, если она быстрее деградирует после инкубации в растворе.
Однако описанные выше лабораторные подходы занимают много времени при тестировании множества вариантов кодон-оптимизированных последовательностей. В связи с этим существует большая потребность в создании высокопроизводительных методов для изучения множества последовательностей одновременно.
Большинство методов, позволяющих проводить массовый скрининг последовательностей, работают по общему принципу: в каждый вариант вставляется уникальный штрих-код - последовательность из нескольких нуклеотидов. Затем все тестируемые последовательности можно объединить и обработать в мультиплексном формате. Наличие штрих-кода позволяет идентифицировать вариант с помощью высокопроизводительных секвенирующих платформ после завершения всех необходимых этапов протокола.
Массовый параллельный анализ вариантов требует синтеза библиотеки ДНК-шаблонов. Следующие шаги в исследовании могут быть выполнены двумя способами. Первый предполагает транскрипцию и модификацию (3' полиА-хвост и 5' m7G-кэппинг) in vitro, после чего полученный пул мРНК трансфицируют в клетки для дальнейших экспериментов. На основе этого подхода был разработан метод "PERSIST-seq". Он позволяет одновременно оценивать стабильность и эффективность трансляции более 200 молекул мРНК, что делает его удобным инструментом для разработки мРНК (Leppek et al., 2022). В этом случае при конструировании ДНК необходимо учитывать наличие промотора в исходной последовательности. Второй подход предполагает создание библиотеки векторов с кассетами, содержащими исследуемую последовательность и регионы гомологии. Затем клетки трансфицируются этой библиотекой, и последовательности интегрируются в геном с помощью CRISPR/Cas. Этот процесс позволяет напрямую синтезировать мРНК в клетках. Исследование мотивов, вызывающих замедление работы рибосомы в модельной системе дрожжей, описывает аналогичный подход (Chen et al., 2023). Следующие шаги для экспериментальной проверки в обоих случаях включают выделение РНК из клеточной культуры, ее анализ с помощью высокопроизводительного секвенирования и количественную оценку результатов. Для идентификации вставок в пуле выделенных нуклеиновых кислот в библиотечную конструкцию вводятся уникальные штрих-коды, что является общим аспектом описанных стратегий.
Наличие уникальных штрих-кодов в исходных матрицах ДНК позволяет количественно оценить уровень экспрессии каждого отдельного варианта с помощью высокопроизводительного секвенирования РНК.
Было доказано, что трансляция вариантов последовательности является важнейшим фактором, определяющим экспрессию генов млекопитающих (Burke et al., 2022). Однако профилирование геномной экспрессии само по себе не может выявить точную регуляцию, обеспечиваемую пост-транскрипционными механизмами, такими как 5' кэппинг, сплайсинг, полиаденилирование, ядерный экспорт, трансляция и распад. Чтобы преодолеть это ограничение, можно использовать метод полисомного профилирования для выделения свободных от рибосом и ассоциированных с полисомами РНК для дальнейшего независимого анализа (Pereira et al., 2018) Этот метод предполагает разделение мРНК в градиенте сахарозы на две фракции: связанную с полисомами и свободную от полисом. Затем мРНК выделяют из обеих фракций и секвенируют с помощью одной из доступных высокопроизводительных платформ.
При изучении нескольких вариантов также важна оценка стабильности. Чтобы выявить полноразмерные молекулы, которые не подверглись деградации, необходимо амплифицировать кДНК, которая была обратно транскрибирована с РНК, а затем секвенировать ее для количественного определения количества неповрежденной мРНК в каждой временной точке. Этот метод позволяет оценить стабильность мРНК как в растворе, так и в клетках. Раствор воспроизводит условия, в которых молекулы могут находиться во время терапии, обычно это высокий pH и положительно заряженные среды. Важно отметить, что результаты, полученные после инкубации в растворе, значительно отличаются от результатов, полученных после выделения из клеток. Вероятно, это связано с клеточными механизмами деградации РНК (Leppek et al., 2022).
Таким образом, существуют подходы, позволяющие оценить эффективность и стабильность последовательностей нуклеиновых кислот, полученных в ходе оптимизации кодонов. Выбор конкретного метода зависит от количества анализируемых вариантов. Если вариантов всего несколько, можно описать свойства каждого варианта в отдельности, получив достаточно точное представление о его характеристиках. Если речь идет о сотнях или тысячах вариантов, необходимы высокопроизводительные методы. Это позволяет тестировать пул образцов, а не отдельные пробы, что значительно повышает производительность экспериментальной работы. Важно отметить, что методы массивно-параллельного секвенирования обеспечивают высокую точность анализа, а полисомное профилирование может дать дополнительные сведения о влиянии оптимизации кодонов на качество конечного продукта.
6 Future directions


В настоящее время существует несколько генотерапий, использующих различные метрики оптимизации кодонов, одобренные FDA (FDA, 2024). Чтобы проанализировать другие методы лечения, проходящие клинические испытания, в которых использовалась оптимизация кодонов, мы провели тщательное изучение данных, доступных на сайте ClinicalTrials.gov (ClinicalTrials.gov, 2024) до декабря 2023 года...
...Такая тщательная стратегия исключения обеспечила то, что отобранные исследования были направлены именно на оптимизацию кодонов. Поиск проводился в течение 20 лет, чтобы охватить широкий спектр релевантных клинических исследований.
Из 395 проанализированных клинических исследований только 12 содержали информацию об оптимизации кодонов (рис. 4).



Figure 4. Dynamics of the number of studies reported on clinicaltrails.gov testing gene therapeutics with and without codon optimization by year (2014-2023). Since 2020, a trend towards an increase in the proportion of studies with codon optimization can be observed.

Перед экспериментальной проверкой кодон-оптимизированных последовательностей с помощью любого из вышеупомянутых методов необходимо синтезировать эти последовательности, часто в больших количествах. Наиболее распространенным методом в настоящее время является фосфорамидитный синтез, который предполагает взаимодействие мономеров нуклеотидного фосфорамидита, защищенных кислотно-лабильными группами, с активирующим агентом, связывающимся с растущим олигонуклеотидом (Sinyakov et al., 2021). Существует два основных типа реализации данного подхода в зависимости от используемого оборудования: синтез на колонках или на микрочипах. Первый вариант позволяет синтезировать олигонуклеотиды по относительно низкой цене и с частотой ошибок в среднем 1 на 600 пар оснований или меньше. Однако он не обеспечивает достаточной пропускной способности для массового синтеза олигонуклеотидов (Ma et al., 2012). Кроме того, если интересующая последовательность превышает 200 пар оснований (по некоторым оценкам, 300 (Palluk et al., 2018)), требуется дополнительный этап сборки с помощью молекулярного клонирования (Casini et al., 2015). Эти факторы существенно ограничивают скорость тестирования и являются основным узким местом при разработке экспериментов.
Эта проблема может быть решена путем внедрения в лабораторную практику более высокопроизводительных синтезаторов олигонуклеотидных микрочипов (Song et al., 2021). Коммерчески доступные технологии также основаны на фосфорамидитовом синтезе, хотя и с небольшими изменениями. Хотя синтез нуклеотидов на основе микромассивов более склонен к ошибкам из-за гетерогенности и краевых эффектов, он позволяет синтезировать пулы олигонуклеотидов, а также снижает стоимость одного нуклеотида на 2-4 порядка по сравнению с колоночным синтезом (Kosuri and Church, 2014). Это говорит о том, что достижения в области синтеза ДНК de novo и экспериментальной проверки кодон-оптимизированных последовательностей, скорее всего, будут связаны с подходом микрочипов.
.
С 2020 года наблюдается тенденция к увеличению доли кодон-оптимизированных исследований. В 2020 году оптимизация кодонов использовалась в 1 из 34 (2,9 %) клинических исследований, а в первые 11 месяцев 2023 года - в 4 из 42 (9,5 %) (рис. 4). Основной целью оптимизации кодонов было повышение уровня экспрессии трансгена и стабильности мРНК. Кроме того, в 2021 году сообщалось об исследовании, в котором оптимизация кодонов использовалась для снижения иммуногенности.
Для эффективного достижения целей оптимизации кодонов в исследованиях важно следовать установленным метрикам. Однако на сегодняшний день не существует единого общепринятого стандарта оптимизации кодонов. Поэтому для создания оптимальных вариантов РНК можно использовать большое количество комбинаций описанных выше методов. Некоторые из этих подходов значительно повышают эффективность генотерапии. Поэтому в клинических испытаниях зарегистрировано несколько вариантов лекарств.
Оптимизация кодонов сыграла важную роль в разработке вакцин COVID-19 на основе РНК. В настоящее время исследовательские усилия направлены на дальнейшее развитие области оптимизации кодонов для вакцин COVID-19 с целью борьбы с новыми штаммами коронавируса (Wu et al., 2023). К сожалению, здесь невозможно представить конкретные метрики, использованные для оптимизации кодонов в вышеупомянутых исследованиях для разработки коммерческих продуктов. Это ограничение связано с интеллектуальной собственностью на оригинальные конструкции, оптимизированные по кодонам. В этой статье мы рассмотрели различные метрики для оценки использования кодонов, основанные как на составе кодирующей последовательности, так и на составе эталонного набора генов. Одной из широко используемых метрик является индекс адаптации кодонов (CAI). Хотя эти показатели предоставляют полезную информацию об адаптации к организму-хозяину, они не обязательно указывают на повышение эффективности трансляции в результате давления отбора (Rahman et al., 2018; Feng et al., 2022). Кроме того, CAI также интерпретируется как показатель скорости трансляционной элонгации (Kudla et al., 2009). В свою очередь, увеличение скорости трансляции не обязательно приведет к образованию белка с аналогичными свойствами в большем количестве.
По-видимому, в процессе трансляции наиболее важными для оптимизации кодонов являются области вокруг стартового кодона. Это подтверждается работами, демонстрирующими вклад положения CDS вблизи стартового кодона (Hollerer and Jeschek, 2023; Nieuwkoop et al., 2023) и области последовательности 5'UTR (Capell et al., 2014). Эффективность трансляции существенно зависит от энергии сворачивания мРНК, особенно вблизи стартового кодона (Gu et al., 2010). Это связано с тем, что разворачивание более стабильных вторичных структур РНК требует больших затрат энергии перед началом трансляции (рис. 5). Кроме того, наличие в мРНК структур типа hairpin, stem-loop и pseudoknot может препятствовать транслокации рибосомы и связыванию тРНК, что мешает удлинению трансляции (Kozak, 2005; Bao et al., 2020).



Figure 5. The secondary structure of RNA reduces the efficiency of translation. The process of translation initiation is completed by the recognition of the start codon by the 43S preinitiation complex and the assembly of the ribosome. If the region of the start codon is hidden in the secondary structure of the RNA (A), translation is likely to be less efficient. At the same time, if there are no pronounced secondary RNA structures in the region of the start codon (B), the probability of translation initiation increases.

Таким образом, прогресс в генотерапии может быть направлен на более полное изучение влияния оптимизации кодонов на характеристики и вторичную структуру мРНК. Также можно применять метрики оптимизации локально к стартовой области, но существуют ограничения, поскольку многие из них основаны на частоте использования кодонов без учета особенностей не транслируемых областей.
Кроме того, учет локальной оптимизации кодонов является критическим аспектом, который необходимо учитывать при оптимизации кодонов для конкретного интересующего белка. Кроме того, из-за возможного влияния оптимизации кодонов на конформацию результирующего белка могут измениться важнейшие функции белка, что также необходимо принимать во внимание.