Пользователи:
ДИАГНОСТИКА СТРУКТУРНЫХ НАРУШЕНИЙ СЕРДЦА



Использование ИИ для анализа ЭКГ

Detecting structural heart disease from electrocardiograms using AI
Timothy J. Poterucha, Linyuan Jing, Ramon Pimentel Ricart, et al.
Nature volume 644, pages221–230 (2025)

Early detection of structural heart disease is critical to improving outcomes, but widespread screening remains limited by the cost and accessibility of imaging tools such as echocardiography1,2. Recent advances in machine learning applied to heart rhythm recordings have shown promise in identifying disease3,4, although previous work has been limited by development in narrow populations or targeting only select heart conditions5. Here we introduce a deep learning model, EchoNext, trained on more than 1 million heart rhythm and imaging records across a large and diverse health system to detect many forms of structural heart disease. The model demonstrated high diagnostic accuracy in internal and external validation, outperforming cardiologists in a controlled evaluation and showing consistent performance across different care settings and racial and/or ethnic groups. The models were prospectively evaluated in a clinical trial of patients without previous cardiac imaging, successfully identifying previously undiagnosed heart disease. These findings support the potential of artificial intelligence to expand access to heart disease screening at scale. To enable further development and transparency, we have publicly released model weights and a large, annotated dataset linking heart rhythm data to imaging-based diagnoses.
Структурные заболевания сердца (SHD) становятся всё более распространёнными, но при этом часто остаются не-диагностированными. SHD включают в себя патологии, поражающие клапаны, стенки или камеры сердца, в том числе пороки клапанов сердца (VHD), право- и левостороннюю сердечную недостаточность, лёгочную гипертензию и гипертрофию левого желудочка6. Ежегодные прямые и косвенные расходы на SHD в США составляют более 100 миллиардов долларов, и эта цифра будет расти по мере увеличения бремени заболевания7-9. Эти заболевания оказывают серьёзное влияние на здоровье: от сердечной недостаточности и врождённого порока сердца страдают примерно 64 миллиона и 75 миллионов человек соответственно, и их распространённость растёт10-13. Несмотря на свою клиническую значимость, врождённый порок сердца остаётся недооценённым заболеванием. Исследование с участием 2500 человек в возрасте 65 лет и старше показало, что у 4,9 % из них ранее была диагностирована клинически значимая (умеренной или тяжёлой степени) VHD а ещё у 6,4 % была не-диагностированная VHD что более чем в два раза превышает общую распространённость заболевания14. Было доказано, что выявление пациентов с SHD на ранних стадиях заболевания снижает смертность, уменьшает расходы и улучшает качество жизни, но постановка диагноза по-прежнему остаётся сложной задачей1,15,16. По крайней мере, при двух формах SHD — сердечной недостаточности и врождённом пороке сердца — симптомы могут быть вызваны множеством потенциальных диагнозов и часто проявляются только на поздних стадиях заболевания. Все формы SHD можно точно диагностировать с помощью эхокардиографии, но её стоимость, требуемая квалификация специалистов и правильный отбор пациентов ограничивают её применение. Таким образом, сохраняется острая необходимость в более точной стратификации пациентов по группам риска и определении того, кого следует направлять на эхокардиографию, чтобы повысить эффективность диагностики SHD и раннего лечения.
Было доказано, что применение глубокого обучения, разновидности искусственного интеллекта (ИИ), помогает выявлять определённые заболевания сердца по результатам электрокардиограммы (ЭКГ) в 12 отведениях. К таким заболеваниям относятся аортальный стеноз, низкая фракция выброса левого желудочка (LVEF) и низкая гипертрофия левого желудочка, а также многие пороки клапанов3,17-21. Также были разработаны более общие модели ИИ-ЭКГ, которые могут точно определять совокупность признаков: низкую систолическую дисфункцию левого желудочка, низкую гипертрофию левого желудочка и умеренную или выраженную гипертрофию правого желудочка4. Поскольку на точность модели (положительную прогностическую ценность) влияет распространённость исхода, использование составной цели прогнозирования позволяет повысить распространённость исхода (суммировать распространённость компонентов, если они независимы) и добиться более высокой точности модели, чем это возможно при обучении моделей для отдельных компонентов. Более того, если компоненты, обозначающие заболевание, связаны с клиническим диагностическим процессом (например, требуют подтверждения с помощью эхокардиографии), то повышение точности достигается без дополнительных операционных затрат, поскольку высокий балл риска во всех случаях указывает на необходимость проведения эхокардиографии. Проблемы, связанные с этими моделями, включают в себя обеспечение их работоспособности в широком диапазоне заболеваний, клинических ситуаций и демографических характеристик пациентов. Самое главное, что эти модели и лежащие в их основе обучающие данные, как правило, являются собственностью компании, что ограничивает возможности сравнения и более широкой оценки их применимости.
Это исследование было разработано с целью использования данных из большой и разнообразной больничной системы для достижения следующих целей: (1) разработать модель ЭКГ с глубоким обучением, которая может точно выявлять широкий спектр SHD (2) оценить возможность обобщения результатов работы модели в разных учреждениях, демографических данных пациентов и клинических условиях; (3) протестировать эти технологии в пилотном клиническом испытании, чтобы определить, можно ли их использовать для практического выявления не-диагностированных заболеваний сердца; и (4) опубликовать как модель выявления SHD так и большой набор не-идентифицированных данных ЭКГ с метками, полученными с помощью эхокардиографии, для стимулирования дальнейших исследований.
Model development and validation


Мы подготовили набор данных, включающий 1 245 273 пары ЭКГ и эхокардиограмм 230 318 уникальных пациентов (в возрасте 18 лет и старше), собранных в период с декабря 2008 года по 2022 год в одной из восьми больниц, входящих в Нью-Йоркскую пресвитерианскую медицинскую ассоциацию (NYP) (рис. 1). Этот набор данных был обозначен как многоцентровая когорта NYP. Данные были разделены на уровне пациентов на обучающую (149 819 уникальных пациентов с 796 816 парами ЭКГ и эхокардиограмм), проверочную (35 780 уникальных пациентов с 35 780 парами ЭКГ и эхокардиограмм) и тестовую (44 719 уникальных пациентов с 44 719 парами ЭКГ и эхокардиограмм) выборки. Характеристики пациентов описаны в таблице 1. Следует отметить, что для проверки и тестирования была сохранена только самая последняя пара ЭКГ и эхокардиограммы для каждого пациента.



Fig. 1: Model development: NYP multicentre cohort derivation.
The deep learning model was trained and tested using data from an eight-hospital system (NYP Hospital). ECG data were accessed using the MUSE system with removal of ECGs with missing age, sex and patient identifier, poor study quality designation by machine recommending repeating of ECG or presence of ventricular pacing. Echocardiogram data were accessed using hospital systems with removal of patients with repaired or replaced heart failures. This yielded 1.2 million ECG–echocardiogram pairs in 230,018 unique patients with data split into train, validation and test sets.

Table 1 Characteristics of NYP multicentre cohort used for model development
Наличие SHD было обусловлено следующими состояниями, выявленными в отчетах о клинической эхокардиографии на основании соответствующих рекомендаций по эхокардиографии: низкая LVEF менее или равная 45%; максимально низкая толщина стенки левого желудочка более или равная 1,3 см; умеренная или тяжелая дисфункция правого желудочка; легочная гипертензия (легочная артерия систолическое давление (PASP), превышающее или равное 45 мм рт. ст., или скорость струи при трехстворчатой регургитации, превышающая или равная 3,2 м с-1); умеренный или тяжелый аортальный стеноз, аортальная регургитация, митральная регургитация, трехстворчатая регургитация или легочная регургитация, или умеренный или большой перикардиальный выпот22-25. Эти пороговые значения были выбраны таким образом, чтобы в целом соответствовать клинически принятым определениям умеренной или выраженной патологии, а также для выявления пациентов с низкой систолической дисфункцией левого желудочка, которые могут быть кандидатами на медикаментозную терапию в соответствии с рекомендациями, как было установлено в недавних исследованиях26-30. Чтобы ЭКГ была признана «положительной» на наличие заболевания, она должна быть сделана в течение 1 года до проведения эхокардиографии при SHD. У пациентов без ишемической болезни сердца (подтвержденной хотя бы одной «отрицательной» эхокардиограммой) все ЭКГ до последней эхокардиограммы были помечены как отрицательные и включены в исследование. С учетом этих определений распространенность ишемической болезни сердца в исследуемой группе составила 36%.
Эти данные были использованы для обучения convolutional модели нейронной сети EchoNext (дополнительная таблица 1), позволяющей прогнозировать наличие SHD с использованием данных ЭКГ и семи стандартных значений, включенных в ЭКГ (возраст; пол (получен из демографических данных ЭКГ); частота сердечных сокращений; частота желудочковых сокращений; интервал легочной регургитации; зубец Q)., длительность зубцов R и S (QRS); и скорректированный интервал между зубцами Q и T). Производительность EchoNext на многоцентровом тестовом наборе NYP была высокой и хорошо откалиброванной (рис. 2 и 3 и дополнительный рис. 1), с площадью под кривой рабочих характеристик приёмника (AUROC) 85,2 % (95 % доверительный интервал (CI) 84,5–85,9 %), площадью под кривой точности-полноты (AUPRC) 78,5 % (95 % CI 77,2–79,6 %) и отношением шансов диагностики 12,8 (95 % CI 11,6–14,1) (рис. 2). Помимо composite показателя SHD, модель EchoNext была обучена как многозадачный классификатор для прогнозирования каждого отдельного показателя заболевания в составе композитного показателя, чтобы лучше оценить коллинеарность показателей и обеспечить согласованность прогнозов для сильно коррелирующих показателей (дополнительное изображение 4). Например, лёгочная регургитация сильно коррелирует с максимальной скоростью трикуспидальной регургитации и дисфункцией правого желудочка. Эффективность модели варьировалась в зависимости от каждого из этих отдельных компонентов. Наилучшая эффективность наблюдалась при оценке систолической дисфункции правого желудочка (AUROC 91 %) и левого желудочка (90 %) (рис. 2 и дополнительная таблица 2). Наименьшая эффективность наблюдалась при оценке толщины стенок левого желудочка (AUROC 77 %), артериальной гипертензии (78 %), легочной регургитации (79 %) и перикардиального выпота (80 %). Мы также оценили эффективность модели в разных больницах, клинических условиях, а также с учетом возраста, расы и/или этнической принадлежности пациентов (таблица 2). В разных больницах (диапазон AUROC 82–87 %) (рис. 3) и клинических контекстах (диапазон AUROC 79–84 %) модель показала стабильную и воспроизводимую эффективность. Аналогичным образом, не было выявлено клинически значимых различий в эффективности модели в зависимости от расы и/или этнической принадлежности или пола; дискриминация модели была немного улучшена для более молодых групп населения, что согласуется с результатами других исследований3,17,20,31.



Fig. 2: Multicentre EchoNext performance.
Performance of the model in detection of individual and compositive SHDs. a,b, By AUROC (a) and AUPRC (b), the model had high performance in detection of SHD in the internal eight-hospital NYP system test set and three geographically distinct external test sets (Montreal Heart, Cedars-Sinai and University of California San Francisco (UCSF)). c, Individual disease models had the highest performance in the detection of reduced low left ventricular (LV) and right ventricular (RV) systolic function by AUROC with favourable performance for other disease states. d, Assessment of the AUPRC for the individual disease states is highly dependent on the underlying prevalence of the individual disease states. TR, tricuspid regurgitation. Dashed lines (a,c) indicate random classifier.



Fig. 3: Performance characteristics of EchoNext in retrospective validation, comparison to cardiologists, silent deployment, and clinical trial.
a, In test sets of held-out patients at these sites, as well as in three geographically distinct external test sets, the model demonstrated high accuracy, as demonstrated by AUROC. Dashed line indicates random classifier. b, In a survey of ECGs shown to cardiologists to assess for the presence of SHD, the AI model demonstrated superior performance in SHD detection compared with cardiologists alone or cardiologists given the EchoNext risk score (n = 3,200 cardiologist interpretations). Error bars show the CIs derived from results across 13 cardiologists; because the AI model was run once on the entire set of 150 ECGs, there are no error bars for the ‘AI alone’ results. c, This model was evaluated in a temporally distinct held-out set with similar accuracy, with 45% (n = 3,444) of patients labelled as high risk by the model failing to undergo echocardiography as part of routine clinical care. d, The clinical use of AI-ECG to detect SHD was evaluated in a single-arm, single-site, open-label pilot clinical trial, DISCOVERY, with stratified recruitment of patients (N = 100) with an ECG but no previous echocardiogram. This trial used a related ECG model, ValveNet, which was trained to detect left-sided VHD (Left-VHD) with patients selected stratified sampling by their AI-ECG scores. This trial showed a high-level of discrimination in the detection of Left-VHD (primary endpoint) and SHD (secondary endpoint), and post hoc assessment using the second-generation EchoNext model demonstrated an even greater degree of risk stratification with 73% of patients in the highest risk and 6% of patients in the lowest-risk groups being found to have SHD. Left-VHD, moderate or severe aortic stenosis, aortic regurgitation or mitral regurgitation; SHD, LVEF less than or equal to 45%, low left ventricular wall thickness greater than or equal to 1.3 cm, moderate or severe right ventricular dysfunction, any moderate or severe VHD, PASP greater than or equal to 45 mm Hg or a moderate or large pericardial effusion.

Table 2 EchoNext model performance by patient subgroups from the NYP multicentre test set

Наконец, версии модели, обученные на более строгих определениях фенотипа («тяжелая» SHD дополнительная информация, дополнительный рис. 2 и дополнительная таблица 3) или с использованием различных разделов многоцентровой когорты NYP (дополнительная информация, дополнительный рис. 3 и дополнительные таблицы 4–8), показали минимальные различия в производительности. Когда модель обучалась на данных четырех из восьми больниц NYP и тестировалась на независимых данных из четырех других больниц, изменения в производительности были минимальными. То же самое наблюдалось при смене больниц, используемых для обучения и тестирования. Кроме того, производительность была стабильной как в академических, так и в общественных больницах. Производительность оставалась высокой при тестировании на различных комбинациях компонентов заболевания (дисфункция левого или правого желудочка, все пороки клапанов, левосторонние и правосторонние заболевания сердца).
External validation


Эффективность модели была проверена на трёх внешних когортах из Медицинского центра Сидарс-Синай (n = 10 177 пациентов), Монреальского института сердца (n = 10 862) и Медицинского центра Калифорнийского университета в Сан-Франциско (n = 6106). Распространённость SHD была выше во внешних когортах (54 %, 52 % и 46 % соответственно) по сравнению с когортой NYP (36 %). В этих внешних когортах показатель AUROC (78–80 %) у EchoNext был на 5–7 % ниже, чем в отдельных больницах в рамках многоцентровой когорты NYP (рис. 3). При фиксированной чувствительности в 70 % внешние когорты продемонстрировали сопоставимую положительную прогностическую ценность, но специфичность снизилась на 10 % (дополнительная таблица 10). Эти различия могут быть связаны с существенными различиями в распространённости заболевания и других демографических характеристиках пациентов по сравнению с обучающей моделью (дополнительная таблица 9). Аналогичные или более значительные колебания производительности наблюдались при проверке технологий обнаружения, не связанных с искусственным интеллектом, таких как анализ тропонина и скрининговая маммография.
Silent deployment validation


Далее мы попытались оценить эффективность модели в когорте пациентов с новым типом приступа, отличающейся во времени, что в большей степени отражало реальное целевое использование этой модели. На 124 027 ЭКГ, снятых в период с 1 января 2023 года по 16 сентября 2023 года у 84 875 уникальных пациентов, ранее не проходивших эхокардиографию, в фоновом режиме автоматически запускалась программа EchoNext, а прогноз модели сохранялся для дальнейшего использования. Ни один из этих пациентов не был включён в исходные наборы данных для обучения, проверки или тестирования. Затем за пациентами велось наблюдение, чтобы выяснить, проходили ли они эхокардиографию в какой-либо из восьми больниц. В этой когорте 18 % (15 094 пациента) прошли первое эхокардиографическое исследование в рамках стандартного клинического обследования после ЭКГ; у 38 % (5744 пациента) была впервые диагностирована SHD В этой подгруппе с последующим наблюдением с помощью эхокардиографии модель снова показала хорошие результаты, аналогичные показателям ретроспективной когорты (AUROC 83 %, AUPRC 81 %). При использовании заранее установленного порогового значения модели, равного 0,6, 27 % (4135 пациентов) из тех, у кого была проведена ЭКГ и/или эхокардиограмма, были отнесены к группе высокого риска, что соответствует точности (положительной прогностической ценности) и полноте (чувствительности) в 74 % и 53 % соответственно.
Среди 69 781 пациента, у которых была проведена ЭКГ, но не была проведена повторная эхокардиограмма, 3444 (5 %) были отнесены к группе высокого риска развития SHD при том же пороговом значении, что и выше. Учитывая, что фактическая распространенность заболевания в этой популяции неизвестна, в таблице 3 приведены оценки точности модели в зависимости от различной распространенности и выбранной чувствительности. Например, если распространенность SHD в данной популяции составляет 10%, прогнозируемая положительная прогностическая ценность составит 46,5% при чувствительности 50%. Таким образом, из 3444 пациентов, относящихся к группе высокого риска, примерно у 1998 пациентов можно было бы впервые диагностировать SHD с помощью модельного вмешательства.

Table 3 Estimates of prospective screening performance using EchoNext

Model performance versus cardiologists


Мы создали специальный опросник, чтобы проверить, насколько хорошо кардиологи выявляют SHD с помощью ЭКГ по сравнению с моделью EchoNext. Из многоцентрового тестового набора NYP была извлечена выборка из 150 ЭКГ с аналогичной распространенностью SHD (41 %) и возрастным распределением (в среднем 67,0 ± 19,6), как и во всем наборе данных. ЭКГ были обезличены и встроены в специальный интерфейс для опроса. При анализе без использования ИИ кардиологу показывали форму волны ЭКГ, стандартные показатели, полученные на основе ЭКГ (частота сердечных сокращений в предсердии или желудочке, интервал легочной регургитации, продолжительность комплекса QRS, скорректированный интервал от зубца Q до зубца T), возраст и пол пациента, и просили определить, есть ли у пациента SHD. Отзывы заполнялись блоками по 50 ЭКГ таким образом, что после заполнения блока без использования ИИ тот же набор из 50 ЭКГ повторялся, но к интерфейсу опроса добавлялась оценка EchoNext (отзывы с использованием ИИ). Каждый кардиолог мог заполнить до 300 отзывов (150 без использования ИИ и 150 с использованием ИИ).
В общей сложности 13 кардиологов проанализировали 3200 ЭКГ (1600 без помощи ИИ и 1600 с помощью ИИ, в среднем по 246 ЭКГ на каждого кардиолога; дополнительная таблица 11). В наборе из 150 ЭКГ модель EchoNext показала точность 77,3 %, чувствительность 72,6 % и специфичность 80,7 %. Для 1600 заключений, не основанных на искусственном интеллекте, точность кардиологов составила 64,0 % (95 % CI 61,6–66,4 %) при чувствительности 61,1 % (95 % CI 57,3–64,8 %) и специфичности 66,1 % (95 % CI 63,0–69,1 %). Примечательно, что точность кардиологов различалась при работе с клинически нормальными и аномальными ЭКГ (69 % против 62 % соответственно), в то время как EchoNext показал одинаково хорошие результаты (77 % в обоих случаях), несмотря на существенную разницу в распространённости нарушений сердечного ритма (25 % против 46,5 % при нормальных и аномальных ЭКГ) (дополнительная таблица 12). С помощью ИИ точность кардиологов значительно повысилась и составила 69,2 % (95 % CI 66,9–71,4 %) при чувствительности 64,7 % (95 % CI 60,9–68,3 %) и специфичности 72,4 % (95 % CI 69,4–75,3 %). Таким образом, хотя ИИ помог кардиологам в решении этой задачи и повысил точность прогнозирования, совокупная эффективность всё равно была ниже, чем при использовании только ИИ. Эта задача заключалась в использовании ЭКГ для выявления SHD без использования другой информации (клинического анамнеза, результатов физикального осмотра, других данных обследования), которая обычно доступна врачу в клинической практике.
Prospective validation


Перед разработкой EchoNext исследователи создали ValveNet — модель ИИ-ЭКГ с аналогичной архитектурой, обученную выявлять умеренные или более выраженные SHD с левой стороны (в частности, аортальный стеноз, аортальную регургитацию и митральную регургитацию), которые являются подмножеством SHD3. Чтобы проверить способность модели выявлять клинически значимые заболевания сердца, мы разработали исследование DISCOVERY (выявление ишемической болезни сердца с помощью глубокого обучения на основе массива электрокардиографических сигналов). Это было открытое проспективное исследование со стратифицированной выборкой, в котором приняли участие 100 пациентов, отобранных на основе их оценки риска по шкале ValveNet. Взрослые пациенты подходили для участия в исследовании, если у них была цифровая ЭКГ в 12 отведениях, сделанная в Колумбийском университете, и если они не проходили эхокардиографию в течение последних 3 лет в нашей системе, не страдали левосторонней врождённой сердечной недостаточностью, деменцией или другим не связанным с сердцем заболеванием, ограничивающим продолжительность жизни, с ожидаемой продолжительностью жизни менее 1 года. Подходящих пациентов отбирали по шкале ValveNet, которая была разделена на заранее определённые терцили риска (0–0,3, 0,3–0,6, более 0,6). Группа с самым низким риском была исключена из исследования из-за очень низкого прогнозируемого риска сердечно-сосудистых заболеваний. Пациенты, давшие согласие, прошли эхокардиографию. Первичной конечной точкой было выявление умеренного или тяжёлого аортального стеноза, аортальной регургитации или митральной регургитации. Ключевой вторичной конечной точкой было выявление всех форм клинически значимого нарушения сердечного ритма с использованием тех же определений и пороговых значений, что и в исследовании EchoNext. Пациентам и врачам сообщали критически важные результаты, а исследователи координировали надлежащее клиническое наблюдение за пациентами с недавно диагностированным заболеванием.
Средний возраст включенных в исследование пациентов составлял 80 лет (межквартильный размах 72–86 лет), 43 % из них были мужчинами (дополнительная таблица 16). В общей сложности были включены 53 пациента с высоким риском по шкале ValveNet, у 17 % из них была выявлена умеренная или более выраженная левосторонняя VHD, а у 53 % — SHD. В общей сложности были включены 47 пациентов со средним риском по шкале ValveNet, у 0 % из них была выявлена левосторонняя VHD, а у 19 % — SHD. При сравнении показателей ValveNet высокого и среднего риска была выявлена значительная разница в количестве пациентов с левосторонней VHD (P = 0,005) и SHD (P = 0,003).
После завершения исследования ЭКГ 100 пациентов были ретроспективно проанализированы с помощью EchoNext и разделены на группы высокого, среднего и низкого риска. Показатели заболеваемости в этих группах сильно коррелировали следующим образом: высокий риск (n = 33, 24 % с левосторонней ВПС и 73 % с СН), средний риск (n = 50, 2 % с левосторонней ВПС, 28 % с СН) и низкий риск (n = 17, 0 % с левосторонней VHD и 6 % с SHD). Все различия между группами риска по данным EchoNext были значимыми (P = 0,002 для левосторонней VHD и P менее 0,001 для SHD). Отдельные исходы заболевания, стратифицированные по группам риска, приведены в дополнительной таблице 17.
AI benchmark in SHD


Чтобы облегчить будущие исследования в этой области и создать общедоступные данные для сравнительного анализа моделей, мы публикуем деидентифицированный и аннотированный набор данных ЭКГ. Эти данные включают 100 000 ЭКГ от 36 286 уникальных пациентов из Медицинского центра Ирвинга при Колумбийском университете (рис. 4). Эти ЭКГ представляют собой подмножество многоцентровой когорты NYP и были помечены в соответствии с наличием SHD (а также отдельных компонентов) на основании сопоставленных эхокардиограмм, полученных в ходе той же процедуры. Мы разделили ЭКГ на обучающую, проверочную и тестовую выборки и обучили модель de novo на этой выборке, которую далее будем называть мини-моделью Колумбийского университета. Распространённость SHD в этой выборке составила 43 %.



Fig. 4: Characteristics of the released Columbia ECG dataset and performance of the Columbia mini-model trained on these data for SHD prediction.
A 100,000 ECG dataset is being released from data from Columbia University Irving Medical Center as part of this paper. These data consist of the ECG waveform, ECG tabular features and paired echocardiographic data. A model trained and tested on this dataset demonstrated similar performance in SHD detection as the multisite model that served as the primary analysis in this study when assessed by AUROC and AUPRC. Dashed line indicates random classifier.

Мини-модель Columbia показала высокую эффективность в выявлении нарушений сердечного ритма во всех восьми больницах: AUROC составила 82,0 % (95 % CI 80,9–83,0 %) (рис. 4). Следует отметить, что, несмотря на меньший размер обучающей выборки и обучение в одном центре, эффективность этой модели была лишь незначительно ниже, чем у модели EchoNext, обученной в нескольких центрах, с AUROC в том же наборе данных, обученном в нескольких центрах, равной 83,1 %.
Этот набор данных, включающий в себя форму волны ЭКГ, демографические данные и табличную информацию, относящуюся к ЭКГ, а также все соответствующие эхокардиографические метки, был обезличен в соответствии со стандартными процедурами. Все данные о датах были случайным образом сдвинуты на уровне каждого пациента более чем на 1 год, при этом сохранялось время, прошедшее между отдельными исследованиями одного и того же пациента. Чтобы стимулировать дальнейшие исследования и служить эталоном для ЭКГ, этот набор данных, а также код предварительной обработки и веса мини-модели Columbia доступны в библиотеке EchoNext. Дополнительные инструкции по использованию приведены в разделе «Дополнительная информация». Со временем эта тема будет раскрыта в ходе дальнейших исследований и с помощью других методов.
Discussion


Здесь мы представляем разработку и эффективность модели глубокого обучения ЭКГ EchoNext для выявления SHD а также пилотное проспективное исследование модели AI-ЭКГ для выявления SHD 3,4. Основные результаты этого исследования следующие: (1) модель EchoNext точно определяет широкий спектр клинически значимых факторов, связанных с соответствующие показатели SHD, которые могли бы послужить основанием для назначения эхокардиограммы, были усилены за счет применения многоуровневого подхода для наилучшего выявления коллинеарности и корреляции между компонентами, обозначающими заболевания; (2) EchoNext был распространен в 11 больницах из 4 систем здравоохранения (как включительно, так и без учета когорты разработчиков модели); (3) результаты были надежными в отношении демографических данных пациентов (возраст, пол, раса и/или этническая принадлежность) в различных клинических условиях в очень разнообразной популяции пациентов; (4) EchoNext обладает более высокой точностью, чувствительностью и специфичностью в выявлении SHD по данным ЭКГ по сравнению с кардиологами как при получении прогноза с помощью искусственного интеллекта для консультации, так и при его отсутствии; и (5) возможность использование ИИ-анализа ЭКГ для проспективного выявления не-диагностированных сердечных заболеваний с достаточной положительной прогностической ценностью было подтверждено в исследовании DISCOVERY. Кроме того, публикация данных, кода и весов модели, разработанной в рамках этой работы, может послужить ориентиром и катализатором для будущих исследований в этой области.
Expanding ECG use through AI


ЭКГ остаётся основным диагностическим тестом в кардиологии, даже несмотря на то, что в 1924 году доктор Эйнтховен получил Нобелевскую премию по физиологии и медицине. История ЭКГ — это история неустанного технологического прогресса, начиная с 600-фунтового гальванометрического электрокардиографа, который можно было использовать только в исследовательских целях, и заканчивая цифровыми ЭКГ, которые можно проводить где угодно и которые доступны повсеместно, в том числе дома и на запястье32,33. Работа, проделанная за последнее десятилетие с применением методов глубокого обучения ЭКГ, продолжает эту тенденцию, открывая новые возможности и подходы к выявлению заболеваний сердца.
В этой работе мы приводим прямые доказательства возможности такого нового применения, сравнивая эффективность модели искусственного интеллекта EchoNext с результатами сертифицированных кардиологов в выявлении нарушений сердечного ритма по ЭКГ. Для ясности: явное выявление большинства нарушений сердечного ритма по ЭКГ — особенно без учёта других аспектов клинической истории и физического осмотра — не является стандартной клинической практикой, и поэтому, как и ожидалось, кардиологи справились с этой задачей лишь отчасти успешно. Для сравнения: эффективность модели EchoNext была значительно выше, как по диагностической чувствительности, так и по специфичности, по сравнению с экспертами-людьми. В совокупности эти данные демонстрируют потенциал ИИ в дальнейшем расширении клинического и диагностического применения уже широко используемого и доступного теста. Тот факт, что EchoNext показал значительно более высокие результаты, чем кардиологи, даже при использовании результатов ИИ, требует дальнейшего изучения. Клиницисты могут по-прежнему не доверять системам ИИ, особенно в ситуациях, когда ранее считалось невозможным добиться таких результатов с помощью ИИ. Например, кардиологи не полагаются на данные ЭКГ для определения вероятности снижения LVEF, у пациента, но снижение LVEF, является одним из наиболее эффективных компонентов прогноза заболевания в EchoNext (AUROC 90.4) (рис. 2в). Необходимы дальнейшие исследования для определения оптимальных стратегий, которые объединяют специализированную интерпретацию ЭКГ с помощью искусственного интеллекта с более обширными и разнообразными знаниями клинициста, чтобы улучшить выявление пациентов с едва заметными клиническими признаками или тех, кому может не хватать постоянной клинической помощи.
Медицинские ИИ-модели должны перейти от интерпретации результатов одного исследования в конкретный момент времени к составлению комплексного прогноза для пациента. Будущие модели могут выиграть от использования мультимодального подхода (например, интеграции рентгеновских снимков грудной клетки, результатов лабораторных исследований и ЭКГ) и мультитемпорального подхода (например, использования всех предыдущих ЭКГ пациента). Эти усовершенствования направлены на создание комплексного прогноза рисков для пациента. Однако такой подход сопряжен с рядом трудностей. По мере увеличения требований к данным возрастает риск смешения и утечки меток, что может привести к тому, что модели будут хорошо работать, но плохо обобщать данные. Кроме того, значительно возрастает сложность интеграции и внедрения таких моделей.
Translation to clinical care


Преодоление разрыва между ретроспективной разработкой клинических моделей ИИ и изучением их эффективности в улучшении клинической практики имеет первостепенное значение. На данный момент проведено мало проспективных исследований моделей ИИ-ЭКГ. Исследование DISCOVERY — первое исследование, специально посвящённое выявлению VHD и более широкого спектра всех SHD. Положительные результаты этого исследования стали важным подтверждением того, что (1) применение модели ИИ-ЭКГ к реальной целевой популяции (то есть к популяции с более низкой распространенностью заболевания, чем в когорте разработчиков) по-прежнему обеспечивает клинически значимую эффективность (в данном случае прогностическая ценность положительного результата для синдрома слабости синусового узла составляет более 50 %); и (2) помимо простого бинарного прогнозирования риска, бремя наблюдаемых заболеваний варьирует в зависимости от уровня прогнозируемого моделью риска (умеренный или высокий), что потенциально позволяет настраивать эффективность для различных сценариев использования.
В свете этих положительных результатов испытаний другие аспекты этой модели ИИ-ЭКГ хорошо подходят для внедрения в клиническую практику. Во-первых, понятно, какие клинические действия следует предпринимать на основе результатов работы модели: при высоком риске следует провести эхокардиографию. Тот факт, что аномальная ЭКГ уже является распространённым показанием для проведения эхокардиографии, ещё больше упрощает эту задачу. Использование широкого комплексного показателя, определяемого как все причины клинически значимой сердечной недостаточности, в качестве целевой модели — это продуманная стратегия, направленная на оптимизацию прогностической ценности модели. Хотя истинная «оптимальная» прогностическая ценность с точки зрения врачей, пациентов и плательщиков еще не определена, тот факт, что EchoNext еще больше улучшила стратификацию риска сердечной недостаточности в исследуемой когорте по сравнению с ValveNet, подтверждает эту мотивацию. В настоящее время проводятся дальнейшие проспективные исследования, в которых технология нового поколения тестируется на более крупных группах населения.
Следует признать, что идеальный метод внедрения анализа ЭКГ с помощью ИИ в клинических условиях продолжает активно изучаться. В целом внедрение может быть сосредоточено либо на «подстраховке», либо на «контроле». В первом случае анализ ЭКГ с помощью ИИ используется для назначения дополнительной эхокардиографии, которая в противном случае не была бы рекомендована в рамках оппортунистического скрининга. Такой подход может улучшить выявление сердечно-сосудистых заболеваний на популяционном уровне и быть особенно полезным для малообеспеченных групп пациентов, подверженных риску недостаточного обследования. В рамках стратегии «привратника» результаты анализа ЭКГ с помощью ИИ можно использовать для определения того, нужно ли пациентам проходить эхокардиографию, если вероятность, рассчитанная врачом, ниже определенного порога. Это позволяет избежать ненужного тестирования. У этих двух стратегий совершенно разные цели и последствия, и идеальные статистические показатели — чувствительность, специфичность, положительная и отрицательная прогностическая ценность — для оценки их успешности, скорее всего, будут различаться. Баланс этих показателей также может варьироваться в зависимости от клинического сценария. Например, отрицательная прогностическая ценность может быть самым важным показателем для пациентов с симптомами, поступивших в отделение неотложной помощи, в то время как при обследовании бессимптомных амбулаторных пациентов основное внимание может уделяться поддержанию высокой положительной прогностической ценности в ущерб умеренной чувствительности. Из-за того, что для того, чтобы отменить решение врача о проведении эхокардиографии, требуется очень высокий уровень доказательности, учитывая обширную информацию, доступную при сборе анамнеза и физическом обследовании, мы ожидаем, что на ранних этапах успешного внедрения основное внимание будет уделяться оппортунистическому скринингу, а не функциям контроля. Для определения экономической эффективности оппортунистических подходов к скринингу с использованием моделей ИИ потребуются дополнительные исследования.
С другой стороны, использование моделей ИИ для скрининга может быть сопряжено с потенциальным вредом и/или предвзятостью. Например, одним из потенциальных рисков является повышенная тревожность пациентов, связанная с прогнозом высокого риска, особенно в случаях, которые в конечном итоге оказываются ложно-положительными. Возможна произвольная предвзятость со стороны технических специалистов или врачей, которая может привести к тому, что скептики будут отвергать диагноз, а энтузиасты — поддерживать его. Однако в долгосрочной перспективе эта модель должна стать неотличимой от других технологических достижений в медицине и помочь «нормализовать» и тем самым смягчить эти опасения. Тем не менее необходимы дальнейшие исследования по этим темам.
Relationship to previous work


Сравнение точности различных моделей глубокого обучения на разных наборах медицинских данных — чрезвычайно сложная задача, поскольку различные характеристики пациентов оказывают значительное влияние на статистические показатели, такие как AUROC и AUPRC. Другие модели диагностики SHD на основе ЭКГ, такие как rECHOmmend, продемонстрировали отличную производительность с показателем AUROC 91 % в ретроспективном наборе данных4. Из-за отсутствия общего набора данных и различий в определении SHD (например, поражение клапана от лёгкой до умеренной степени классифицируется как умеренное в rECHOmmend и как лёгкое в EchoNext) и распространённости (17,9 % в rECHOmmend против 36,3 % в EchoNext из-за различий в критериях исключения) эти результаты нельзя напрямую сравнивать. Например, было замечено, что эффективность rECHOmmend снижается (AUROC 0,88), если рассматривать только пациентов с заболеванием, подтверждённым эхокардиографией, тем самым увеличивая распространённость заболевания, как это было сделано в настоящем исследовании. Кроме того, в текущем исследовании метка SHD охватывает 98,9 % всех диагнозов, поставленных на основе эхокардиографии, по сравнению с 65,6 % в rECHOmmend. По сравнению с другими моделями, разработанными для выявления схожих патологий, в текущем исследовании значительно повысилось расовое и/или этническое разнообразие во многих внутренних и внешних институтах. В целом этот анализ в сочетании с ранее опубликованными работами демонстрирует, что анализ с использованием глубокого обучения может точно выявлять сердечно-сосудистые заболевания как по отдельности, так и в совокупности, с высокой точностью в различных группах населения в нескольких клинических контекстах и на географически удалённых внешних тестовых наборах.
Limitations


Следует отметить несколько ограничений нашего исследования. Некоторые метки требовали произвольного определения двоичных отсечек для значений, которые в остальном являются непрерывными, таких как LVEF, и низкая толщина стенки левого желудочка. В недавних регистрах и исследованиях сердечная недостаточность определялась как умеренно сниженная фракция выброса с верхним порогом в 55%, 52,5%, 50% и 45%. Пороговое значение, выбранное для этого исследования, составляло 45%, и результаты могли отличаться, если бы было выбрано другое ограничение. Дополнительная таблица 3 включает показатели модели только для "тяжелого" заболевания из всех патологий (например, LVEF, меньше или равна 35% вместо 45%). Ограничение модели другим произвольным порогом показало аналогичный показатель AUROC в 87,7%, что свидетельствует о том, что эффективность не зависела от какого-либо конкретного порога для определения заболевания. AUPRC, представленные в этом исследовании, основаны на ретроспективных данных, полученных от пациентов, которым были сделаны как ЭКГ, так и эхокардиограмма. В этой группе пациентов распространённость SHD гораздо выше, поэтому AUPRC, которые мы ожидаем увидеть, если эта модель будет использоваться в качестве скринингового исследования среди пациентов с ЭКГ без эхокардиограммы, не репрезентативны. Поскольку неясно, какова истинная распространённость не-диагностированных нарушений сердечного ритма среди пациентов с ЭКГ, но без эхокардиографии, мы смоделировали ряд потенциальных показателей распространённости и представили результаты в таблице 3.
Эффективность некоторых меток компонентов была неоптимальной. Например, низкая толщина стенки левого желудочка — очень распространённая метка, но она субъективна и подвержена большим колебаниям в зависимости от наблюдателя, что приводит к естественному шуму в метках. Редкие состояния, такие как лёгочная регургитация, недостаточно представлены и сильно коррелируют с другими, более распространёнными состояниями, такими как максимальная скорость трикуспидальной регургитации (дополнительное изображение 4), что затрудняет выявление закономерностей, характерных только для лёгочной регургитации. Кроме того, поскольку мы использовали многоуровневый подход для обучения всех меток в одной модели, чтобы наилучшим образом отразить коллинеарность, оптимизация модели была упорядочена, чтобы свести к минимуму общие потери на всех этикетках, производительность на некоторых этикетках могла быть снижена для обеспечения более высокой производительности. Подход с использованием нескольких меток помогает наилучшим образом выявить коллинеарность и корреляцию между компонентами, обозначающими заболевания, и дает представление о конкретных заболеваниях, что приводит к прогнозированию высокого риска, хотя и не является окончательным. Необходимы дальнейшие исследования для выявления конкретных заболеваний.
В рамках исследования DISCOVERY проводился проспективный набор пациентов для оценки эффективности модели в клинической практике. Пациенты отбирались с помощью модели предыдущего поколения, ValveNet, которая была обучена только для выявления левосторонних пороков развития сердца. После завершения исследования эффективность модели EchoNext была оценена на 100 пациентах, ни один из которых не участвовал в обучении, проверке или тестировании модели. Со всех участников было получено письменное согласие. Это небольшое исследование показало многообещающие результаты, но для определения потенциальной пользы от использования EchoNext по сравнению с обычным клиническим лечением потребуются более масштабные и прагматичные вмешательства.
В заключение отметим, что модель ЭКГ в 12 отведениях EchoNext может точно выявлять различные виды нарушений сердечного ритма в различных клинических и географических условиях, а публикация базового набора данных ЭКГ с клинически значимыми метками может послужить эталоном для сравнения моделей и дальнейших инноваций. Для определения того, можно ли использовать анализ ЭКГ с помощью глубокого обучения для улучшения диагностики и лечения ишемической болезни сердца в клинической практике, необходимы дальнейшие исследования, посвященные стратегиям внедрения.