Açıklanabilir yapay zekâ yöntemlerine dayalı bilgisayar destekli tahmin modelinin geliştirilmesi: metabolomik teknolojileri üzerine uygulaması

Küçük Resim Yok

Tarih

2024

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

İnönü Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Amaç: Bu çalışmanın amacı polikistik over sendromunun (PKOS) tanısında uygun metabolomik biyobelirteçlerin biyoinformatik ve yapay zekâ (AI) yaklaşımları ile saptanması, ağaç tabanlı makine öğrenme (ML) yöntemleri kullanılarak PKOS için prognostik bir modelin geliştirilmesi ve açıklanabilir AI (XAI) kullanılarak optimal modelin klinik olarak yerel ve küresel açıdan yorumlanmasıdır. Materyal ve Metot: Veri seti 22 kontrol ve 67 PKOS hastasına ilişkin serum örneklerine uygulanan metabolomik analizler sonucu elde edilen 70 metabolitten oluşmaktadır. PKOS'un moleküler alt yapısını inceleyebilmek için benzerlik ağ, kümelemeye dayalı ısı haritası ve yolak zenginleştirme analizleri uygulandı. Biyobelirteç keşfi için kat değişimi, kısmi en küçük kareler diskriminant analizi (PLS-DA) projeksiyon değişken önem (VIP) skoru, Boruta ve minimum artıklık ve maksimum alaka (MRMR) yöntemleri kullanıldı. Bu dört yöntemde ortak olan metabolitler biyobelirteç olarak belirlendi ve altı farklı ağaç tabanlı ML algoritması [rastgele orman, kategorik arttırma (CatBoost), aşırı gradyan arttırma (XGBoost), hafif gradyan artırma makinesi (LightGBM), uyarlanabilir arttırma (AdaBoost) ve doğal gradyan arttırma (NGBoost)] kullanıldı. Optimal modelin klinik açıklamaları yorumlanabilir model-agnostik açıklamalar (LIME) ve Shapley katkı açıklamaları (SHAP yöntemleri) ile incelendi. Bulgular: Taurolitokolik asit (M-H)-, Hipoksantin (M-H)-, Homovanilik asit (2M-H)-, S-Adenosil-L-Homosistein (M-H)-, Tridekanoik asit (M-H)- ve Süksinik asit (M-H)- biyobelirteç olarak belirlendi. Optimal tahmin modeli XGBoost için doğruluk, AUC ve duyarlılık ölçütleri sırasıyla %92.3, %95.4, %90.9 skoruna sahipti. LIME sonuçlarına göre %100 olasılıkla PKOS olarak tahmin edilen bir hastada özellikle Tridekanoik asit (M-H)- seviyesinin yüksek olması modelin doğru pozitif kararını açıkladı. SHAP açıklamalarında Tridekanoik asit (M-H)-, Süksinik asit (M-H)- ve Hipoksantin (M-H)- seviyelerindeki artışın, Homovanilik asit (2M-H)- ve Taurolitokolik asit (M-H)- seviyelerindeki azalmanın PKOS riskini arttırdığı gözlendi. Sonuç: Sonuç olarak XGBoost modeli PKOS'u başarılı bir şekilde tespit edebildi. Biyobelirteç metabolitlerin PKOS ile ilişkisinin anlaşılması, hastalığın moleküler düzeyde açıklanmasının yanısıra daha etkili tanı ve tedavi yöntemleri geliştirmek için önemlidir.
Aim: The aim of this study was to identify metabolomic biomarkers suitable for the diagnosis of polycystic ovary syndrome (PCOS) using bioinformatics and artificial intelligence (AI) approaches, to develop a prognostic model for PCOS using tree-based machine learning (ML) methods, and to interpret the optimal model clinically locally and globally using explainable AI (XAI). Material and Method: The dataset consists of 70 metabolites obtained from metabolomic analysis of serum samples of 22 controls and 67 PCOS patients. Similarity network, clustering-based heatmap, and pathway enrichment analyses were applied to examine the molecular substructure of PCOS. For biomarker discovery, fold change, partial least squares discriminant analysis (PLS-DA), projection variable importance (VIP) score, Boruta, and minimum redundancy and maximum relevance (MRMR) methods were used. Metabolites common to these four methods were identified as biomarkers and six different tree-based ML algorithms [random forest, categorical boosting (CatBoost), extreme gradient boosting (XGBoost), light gradient boosting machine (LightGBM), adaptive boosting (AdaBoost) and natural gradient boosting (NGBoost)] were used. Clinical explanations of the optimal model were analyzed by interpretable model-agnostic explanations (LIME) and Shapley additive explanations (SHAP). Results: Taurolithocholic acid (M-H)-, Hypoxanthine (M-H)-, Homovanilic acid (2M-H)-, S-Adenosyl-L-Homocysteine (M-H)-, Tridecanoic acid (M-H)- and Succinic acid (M-H)- were identified as biomarkers. The accuracy, AUC and sensitivity measures for the optimal prediction model XGBoost were 92.3%, 95.4%, and 90.9%, respectively. The high level of Tridecanoic acid (M-H)- especially in a patient predicted as PCOS with 100% probability according to LIME results, explained the model's true positive decision. SHAP annotation showed that increased levels of Tridecanoic acid (M-H)-, Succinic acid (M-H)- and Hypoxanthine (M-H)- and decreased levels of Homovanilic acid (2M-H)- and Taurolithocholic acid (M-H)- increased the risk of PCOS. Conclusion: In conclusion, the XGBoost model was able to successfully detect PCOS. Understanding the relationship between biomarker metabolites and PCOS is important to explain the disease at the molecular level as well as to develop more effective diagnostic and therapeutic methods.

Açıklama

Anahtar Kelimeler

Biyoistatistik, Biostatistics

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye