Makine öğrenimi yöntemlerine dayali bilgisayar destekli tani sisteminin geliştirilmesi: Proteomik teknolojileri üzerine uygulaması

Küçük Resim Yok

Tarih

2023

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

İnönü Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Amaç: Bu çalışmanın birinci temel amacı proteomik veriler kullanılarak, Plasenta Akreata sendromu hastalığının tanısına ilişkin uygun biyobelirteçlerinin saptanması ile makine öğrenme yöntemleri kullanılarak hastalığın sınıflandırılmasıdır. İkinci amacı ise, kütle spektrometrisi ile etiketsiz kantitasyon proteomik deneyleri için kullanılan çeşitli yazılım çıktıları üzerinden biyoinformatik analizleri yapmaya imkan sağlayan web tabanlı yazılım geliştirilmesidir. Materyal ve Metot: Çalışmada kullanılan veri seti, 10 kontrol ve 10 Plasenta Akreata sendromu hastasına ilişkin maternal serum örneklerine uygulanan proteomik analizler sonucu elde edilen 214 proteinden oluşmaktadır. Biyoinformatik analizler ile iki grup arasında farklı ekspresyona sahip proteinler belirlenmiştir. Çalışmada Plasenta Akreata sendromunun sınıflandırılması 16 proteine dayalı olarak gerçekleştirilmiştir. Sınıflandırma algoritmaları olarak Random Forest, Gradyan Artırılmış Ağaçlar, Destek Vektör Makineleri ve Extreme Gradient Boosting modelleri uygulanmıştır. Bulgular: Deneysel proteomik verilerine uygulanan biyoinformatik analizler sonrasında 98 proteinin iki grup arasında farklı ekspresyona sahip olduğu bulunmuştur. Bu 98 protein arasından RF-RFE değişken seçim yöntemiyle 16 protein seçilmiş ve en iyi sınıflandırma model performansının Extreme Gradient Boosting yöntemine ait olduğu belirlenmiş ve bu modele ilişkin doğruluk, seçicilik, duyarlılık, G-ortalama, Matthews'in Korelasyon Katsayısı, F1-skor değerleri sırasıyla, 99.9, 99.8, 100, 99.9, 99.9 ve 99.7 olarak hesaplanmıştır. Sonuç: Gerçekleştirilen proteomik biyoinformatik analizler ve makine öğrenme yöntemleri sonuçları gözönüne alındığında, P01703, Q96IY4, P06312 kodlu proteinler plasenta akreata sendromu tanı ve tedavisinde olası biyobelirteç olarak kullanılabilir. Öte yandan geliştirilen web tabanlı yazılım sayesinde çeşitli yazılımlardan elde edilen deneysel proteomik verilerinin biyoinformatik analizleri gerçekleştirilebilecektir.
Aim: The primary aim of this study is to identify appropriate biomarkers for the diagnosis of Placenta Acreata syndrome using proteomic data, and to classify the disease using machine learning methods. The second aim is to develop web-based software that allows to perform bioinformatic analyzes on various software outputs used for mass spectrometry and label-free quantitation proteomics experiments. Material and Method: The data set used in the study consists of 214 proteins obtained as a result of proteomic analyzes applied to maternal serum samples of 10 controls and 10 patients with Placenta Acreata syndrome. Proteins with different expression between the two groups were determined by bioinformatic analysis. In the study, classification of Placenta Accreta syndrome was performed based on 16 proteins. Random Forest, Gradient Augmented Trees, Support Vector Machines and Extreme Gradient Boosting models were applied as classification algorithms. Results: After bioinformatic analyzes applied to the experimental proteomics data, it was found that 98 proteins had different expression between the two groups. Among these 98 proteins, 16 proteins were selected by the RF-RFE variable selection method and it was determined that the best classification model performance belonged to the Extreme Gradient Boosting method, and the accuracy, selectivity, sensitivity, G-mean, Matthews's Correlation Coefficient, F1-score values for this model. 99.9, 99.8, 100, 99.9, 99.9 and 99.7 respectively. Conclusion: Considering the results of proteomic bioinformatic analyzes and machine learning methods, the proteins P01703, Q96IY4, P06312 can be used as a possible biomarker in the diagnosis and treatment of placenta accreta syndrome. On the other hand, thanks to the developed web-based software, bioinformatic analysis of experimental proteomics data obtained from various software will be possible.

Açıklama

Anahtar Kelimeler

Biyoistatistik, Biostatistics

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye