Разработка и валидация моделей прогнозирования общего риска преэклампсии и риска ранней преэклампсии с использованием алгоритмов машинного обучения в первом триместре беременности
Андрейченко А.Е., Лучинин А.С., Ившин А.А., Ермак А.Д., Новицкий Р.Э., Гусев А.В.
Актуальность: Преэклампсия (ПЭ) представляет собой грозное, трудно прогнозируемое осложнение беременности, характеризующееся полиорганной дисфункцией. Заболевание встречается с частотой 2–8% среди всех беременностей и является одной из ведущих причин перинатальной и материнской смертности, в особенности при раннем дебюте. Цель: Разработка моделей прогнозирования общего риска ПЭ и риска ранней ПЭ с использованием технологий машинного обучения (МО) на основе данных реальной клинической практики в I триместре беременности. Материалы и методы: По сведениям из электронных медицинских карт, полученных через платформу Webiomed, были проанализированы 21 092 записи, соответствующие 12 434 уникальным беременностям 12 283 женщин в возрасте от 11 до 60 лет на сроке до 16 недель включительно. В качестве потенциальных факторов прогноза ПЭ отобраны анамнестические, конституциональные, клинические, инструментальные и лабораторные данные, широко используемые в рутинной врачебной практике, всего – 53 переменные. Для создания моделей применялись логистическая регрессия (LR), методы градиентного бустинга (LightGBM, XGBoost, CatBoost) и методы, основанные на деревьях решений (RandomForest и ExtraTrees). Результаты: Наилучшие результаты при решении задачи прогнозирования ПЭ показала модель ExtraTrees – площадь под кривой (AUC) 0,858 (95% ДИ 0,827–0,890). Точность модели составила 0,634 (95% ДИ 0,616–0,652), чувствительность – 0,897 (95% ДИ 0,837–0,953), специфичность – 0,624 (95% ДИ 0,605–0,643). В числе моделей оценки риска ранней ПЭ наилучшие результаты продемонстрировал алгоритм RandomForest. По результатам его валидации AUC составила 0,848 (95% ДИ 0,785–0,904), точность – 0,813 (95% ДИ 0,798–0,828), чувствительность – 0,733 (95% ДИ 0,565–0,885), специфичность – 0,814 (95% ДИ 0,799–0,828). Заключение: Метрики полученных итоговых моделей соответствовали опубликованным ранее аналогам. Результаты внешней валидации показали относительную устойчивость моделей к новым данным, что в совокупности с показателями качества предполагает возможность их использования в реальной клинической практике. Это наш первый опыт прогнозирования сложного по механизму развития осложнения беременности на основе данных реальной клинической практики. Качество прогностической модели напрямую зависит от используемых данных и статистических алгоритмов, которые нам предстоит улучшить в будущих исследованиях.
Вклад авторов: Андрейченко А.Е. – руководство исследованием, редактирование текста статьи; Лучинин А.С. – составление текста статьи; Ившин А.А. – концепция исследования, экспертный анализ результатов, редактирование текста статьи; Ермак А.Д. – моделирование и анализ данных; Новицкий Р.Э., Гусев А.В. – концепция исследования.
Конфликт интересов: Авторы заявляют об отсутствии конфликта интересов.
Финансирование: Исследование выполнено с использованием Уникальной научной установки (УНУ) «Многокомпонентный программно-аппаратный комплекс для автоматизированного сбора, хранения, разметки научно-исследовательских и клинических биомедицинских данных, их унификации и анализа на базе ЦОД с использованием технологий искусственного интеллекта» (рег. номер: 2075518).
Благодарности: Авторы выражают свою признательность Д.В. Гаврилову за ценные консультации при сборе данных и валидации результатов работы моделей, а также В.О. Баркиной и В.Ю. Борисову за помощь в обработке данных и построении моделей.
Обмен исследовательскими данными: Данные, подтверждающие выводы этого исследования, доступны по запросу у автора, ответственного за переписку, после одобрения ведущим исследователем.
Для цитирования: Андрейченко А.Е., Лучинин А.С., Ившин А.А., Ермак А.Д., Новицкий Р.Э., Гусев А.В. Разработка и валидация моделей прогнозирования общего риска преэклампсии и риска ранней преэклампсии с использованием алгоритмов машинного обучения в первом триместре беременности. Акушерство и гинекология. 2023; 10: 94-107 https://dx.doi.org/10.18565/aig.2023.101
Ключевые слова
Список литературы
- English F.A., Kenny L.C., McCarthy F.P. Risk factors and effective management of preeclampsia. Integr. Blood Pressure Control. 2015; 8: 7-12. https://dx.doi.org/10.2147/IBPC.S50641.
- Jim B., Karumanchi S.A. Preeclampsia: pathogenesis, prevention, and long-term complications. Semin. Nephrol. 2017; 37(4): 386-97. https://dx.doi.org/10.1016/j.semnephrol.2017.05.011.
- Bartsch E., Medcalf K.E., Park A.L., Ray J.G.; High Risk of Pre-eclampsia Identification Group. Clinical risk factors for pre-eclampsia determined in early pregnancy: systematic review and meta-analysis of large cohort studies. BMJ. 2016; 353: i1753. https://dx.doi.org/10.1136/bmj.i1753.
- De Kat A.C., Hirst J., Woodward M., Kennedy S., Peters S.A. Prediction models for preeclampsia: a systematic review. Pregnancy Hypertens. 2019; 16: 48-66. https://dx.doi.org/10.1016/j.preghy.2019.03.005.
- Thangaratinam S., Allotey J., Marlin N., Dodds J., Cheong-See F., von Dadelszen P. et al. Prediction of complications in early-onset pre-eclampsia (PREP): development and external multinational validation of prognostic models. BMC Med. 2017; 15(1): 68. https://dx.doi.org/10.1186/s12916-017-0827-3.
- Zhang Y., Chen X.L., Chen W.M., Zhou H.B. Prognostic nomogram for the overall survival of patients with newly diagnosed multiple myeloma. Biomed. Res. Int. 2019; 2019: 5652935. https://dx.doi.org/10.1155/2019/5652935.
- Chen W., Sun S. Clinical application of a multiparameter-based nomogram model in predicting preeclampsia. Evid. Based Complement. Alternat. Med. 2022; 2022: 7484112. https://dx.doi.org/10.1155/2022/7484112.
- Moons K.G., Altman D.G., Reitsma J.B., Ioannidis J.P., Macaskill P., Steyerberg E. W. et al. Transparent Reporting of a multivariable prediction model for Individual Prognosis or Diagnosis (TRIPOD): explanation and elaboration. Ann. Intern. Med. 2015; 162(1): W1-73. https://dx.doi.org/10.7326/M14-0698.
- Ding Y., Simonoff J.S. An investigation of missing data methods for classification trees. Econometrics: Data Collection & Data Estimation Methodology eJournal. Publ. 1 December 2006. https://dx.doi.org/10.5555/1756006.1756012.
- Awais M., Shamshad F., Bae S. Towards an adversarially robust normalization approach. Cite as:arXiv:2006.11007
- Лучинин А.С. Искусственный интеллект в гематологии. Клиническая онкогематология. Фундаментальные исследования и клиническая практика. 2022; 15(1): 16-27.
- Van Calster B., McLernon D.J., van Smeden M., Wynants L., Steyerberg E.W.; Topic Group ‘Evaluating diagnostic tests and prediction models’ of the STRATOS initiative. Calibration: the Achilles heel of predictive analytics. BMC Med. 2019; 17(1): 230. https://dx.doi.org/10.1186/s12916-019-1466-7.
- Zoubir A.M., Iskandler D.R. Bootstrap methods and applications. IEEE Signal Process. Mag. 2007; 24(4): 10-9. https://dx.doi.org/1010.1109/MSP.2007.4286560.
- Lundberg S.M., Erion G., Chen H., DeGrave A., Prutkin J.M., Nair B. et al. From local explanations to global understanding with explainable AI for trees. Nat. Mach. Intell. 2020; 2(1): 56-67. https://dx.doi.org/10.1038/s42256-019-0138-9.
- Министерство здравоохранения Российской Федерации. Преэклампсия. Эклампсия. Отеки, протеинурия и гипертензивные расстройства во время беременности, в родах и послеродовом периоде. Клинические рекомендации. М.; 2021. 79с.
- Palomaki G.E., Haddow J.E., Haddow H.R., Salahuddin S., Geahchan C., Cerdeira A.S. et al. Modeling risk for severe adverse outcomes using angiogenic factor measurements in women with suspected preterm preeclampsia. Prenat. Diagn. 2015; 35(4): 386-93. https://dx.doi.org/10.1002/pd.4554.
- March M.I., Geahchan C., Wenger J., Raghuraman N., Berg A., Haddow H. et al. Circulating angiogenic factors and the risk of adverse outcomes among haitian women with preeclampsia. PloS One. 2015; 10(5): e0126815. https://dx.doi.org/10.1371/journal.pone.0126815.
- Marić I., Tsur A., Aghaeepour N., Montanari A., Stevenson D.K., Shaw G.M., Winn V.D. Early prediction of preeclampsia via machine learning Am. J. Obstet. Gynecol. MFM. 2020; 2(2): 100100. https://dx.doi.org/10.1016/j.ajogmf.2020.100100.
- Tan M.Y., Syngelaki A., Poon L.C., Rolnik D.L., O’Gorman N., Delgado J.L. et al. Screening for pre-eclampsia by maternal factors and biomarkers at 11-13 weeks’ gestation. Ultrasound Obstet. Gynecol. 2018; 52(2): 186-95. https://dx.doi.org/10.1002/uog.19112.
- Riley R.D., Debray T.P.A., Collins G.S., Archer L., Ensor J., van Smeden M., Snell K.I.E. Minimum sample size for external validation of a clinical prediction model with a binary outcome. Stat. Med. 2021; 40(19): 4230-51. https://dx.doi.org/10.1002/sim.9025.
Поступила 18.04.2023
Принята в печать 29.09.2023
Об авторах / Для корреспонденции
Андрейченко Анна Евгеньевна, к.ф.-м.н., руководитель направления искусственного интеллекта, ООО «К-Скай», +7(916)321-25-70, aandreychenko@webiomed.ru,https://orcid.org/0000-0001-6359-0763, 185910, Россия, Петрозаводск, набережная Варкауса, д. 17.
Лучинин Александр Сергеевич, к.м.н., с.н.с. отдела организации и сопровождения научных исследований, Кировский научно-исследовательский институт гематологии и переливания крови ФМБА России, +7(919)506-87-86, luchinin@niigpk.ru, https://orcid.org/0000-0002-5016-210X,
610027, Россия, Киров, ул. Дерендяева, д. 84.
Ившин Александр Анатольевич, к.м.н., доцент, заведующий кафедрой акушерства и гинекологии, дерматовенерологии, Петрозаводский государственный университет, +7(909)567-12-51, scipeople@mail.ru, https://orcid.org/0000-0001-7834-096X, 185001, Россия, Петрозаводск, ул. Красноармейская, д. 31.
Новицкий Роман Эдвардович, генеральный директор, ООО «К-Скай», +7(911)400-50-00, roman@webiomed.ru, https://orcid.org/0000-0002-2350-977X,
185910, Россия, Петрозаводск, набережная Варкауса, д. 17.
Ермак Андрей Дмитриевич, аналитик данных направления искусственного интеллекта, ООО «К-Скай», +7 (977) 563-52-72, aermak@webiomed.ru,
https://orcid.org/0000-0002-0513-8557, 185910, Россия, Петрозаводск, набережная Варкауса, д. 17.
Гусев Александр Владимирович, к.т.н., с.н.с. отдела научных основ организации здравоохранения, Центральный научно-исследовательский институт организации и информатизации здравоохранения Минздрава России, +7(911)402-35-00, agusev@webiomed.ai, https://orcid.org/0000-0002-7380-8460,
127254, Россия, Москва, ул. Добролюбова, д. 11.
Автор, ответственный за переписку: Александр Анатольевич Ившин, scipeople@mail.ru