Ağaç tabanlı makine öğrenmesi yöntemleri ile genomik verilerin sınıflandırılmasına yönelik klinik karar destek sisteminin geliştirilmesi

dc.contributor.advisorYoloğlu, Saı?m
dc.contributor.authorÇı?çek, İpek Balıkçı
dc.date.accessioned2024-08-11T19:26:19Z
dc.date.available2024-08-11T19:26:19Z
dc.date.issued2023
dc.departmentEnstitüler, Sağlık Bilimleri Enstitüsü, Biyoistatistik ve Tıp Bilişimi Ana Bilim Dalıen_US
dc.description.abstractAmaç: Bu çalışmanın amacı, MTX ile nefrotoksisitesi olan ve patolojisi olmayan sıçanlardan alınan böbrek doku örneklerinin genomik analizleri sonucu elde edilen büyük verilerin biyoinformatik analizlerinin yapılması ve sonuçların görselleştirilmesi amacıyla bir yazılım geliştirilmesidir. Ayrıca verilerin makine öğrenmesi yöntemlerinden ağaç tabanlı öğrenme yöntemleri ile modellenmesi ve açıklanabilir yapay zeka yöntemleri ile modelin yorumlanabilirliğini sağlayarak nefrotoksisite tanısına yönelik olası biyobelirteçlerin belirlenmesi amaçlanmıştır. Materyal ve Metot: Bu çalışmada 20 adet dişi Wistar Albino cinsi sıçan alınarak oluşturulmuş bir deney düzeneğinden elde edilen genomik veriler kullanılmıştır. Biyoinformatik analiz yapmak için R programlama dili kullanıldı. Modellerde ağaç tabanlı makine öğrenmesi yöntemlerinden karar ağaçları, Random Forest, AdaBoost, Baged CART ve XGBoost modelleri kullanılmıştır. XGBoost modelinin yorumlanabilirliğini artırmak için Local Interpretable Model-Agnostic Explanations ve SHapley Additive Explanations yöntemleri kullanılmıştır. Modellerin ve açıklanabilir yapay zeka yöntemlerinin analizinde Python programlama dili kullanılmıştır. Bulgular: Çalışmada kullanılan genomik veri seti 16.386 lncRNA ifadesini içermektedir. Biyoinformatik analiz sonuçlarına göre nefrotoksisite ve kontrol grupları için lncRNA ların 35 tanesi yukarı regülasyon göstermiş iken 17 tanesi aşağı regülasyon göstermiştir. Boruta değişken seçimi ile seçilmiş olan lncRNA lar ile yapılan modellemeler sonucunda performans ölçütlerine göre XGBoost yöntemi en başarılı makine öğrenimi yöntemi olmuştur. SHAP'ın bir sonucu olarak, Nefrotoksisite için öngörücü biyobelirteç adaylarından en önemli ilk üçü rna-XR_591534.3 (LOC103691816), rna-XR_351582.4 (LOC102555118), rna-XR_005499541.1 (LOC120099962) idi. Sonuç: Bu çalışma yapılan biyoinformatik analiz, modellemeler ve modelleme yorumlanabilirliği sonucunda nefrotoksisitesi olan sıçanlar ile kontrol grubunda yer alan sıçanların lncRNA ekspresyon verileri kullanılarak nefrotoksisite için olası genomik biyobelirteçleri belirlenmiştir. Anahtar Kelimeler: Açıklanabilir Yapay Zeka, Ağaç Tabanlı Öğrenme, Karar Destek Sistemi, Genomik, Makine Öğrenmesi, Sınıflandırma, Yapay Zekâen_US
dc.description.abstractAim: The aim of this study is to develop a software for bioinformatic analysis of large data obtained as a result of genomic analysis of kidney tissue samples taken from rats with nephrotoxicity and without pathology with MTX and to visualize the results. In addition, it was aimed to model the data with tree-based learning methods, one of the machine learning methods, and to determine possible biomarkers for the diagnosis of nephrotoxicity by providing the interpretability of the model with explainable artificial intelligence methods. Material and Method: In this study, genomic data obtained from an experimental setup created by taking 20 female Wistar Albino rats were used. R programming language was used to perform bioinformatic analysis. Decision trees, Random Forest, AdaBoost, Bagged CART and XGBoost models from tree-based machine learning methods were used in the models. Local Interpretable Model-Agnostic Explanations and SHapley Additive Explanations methods were used to improve the interpretability of the XGBoost model. Python programming language was used in the analysis of models and explainable artificial intelligence methods. Results: The genomic dataset used in the study includes 16,386 lncRNA expressions. According to the results of bioinformatics analysis, 35 of the lncRNAs for nephrotoxicity and control groups showed up-expression, while 17 of them showed down-expression. As a result of the models made with lncRNAs selected by Boruta variable selection, the XGBoost method has been the most successful machine learning method according to performance criteria. As a result of SHAP, the top three most important candidates for predictive biomarkers for Nephrotoxicity were RNA-XR_591534.3 (LOC103691816), RNA-XR_351582.4 (LOC102555118), RNA-XR_005499541.1 (LOC120099962). Conclusion: As a result of the bioinformatic analysis, models and modeling interpretability performed in this study, possible genomic biomarkers for nephrotoxicity were determined by using lncRNA expression data of rats with nephrotoxicity and rats in the control group. Keywords: Explainable Artificial Intelligence, Tree-Based Learning, Decision Support System, Genomics, Machine Learning, Classification, Artificial Intelligenceen_US
dc.identifier.endpage91en_US
dc.identifier.startpage1en_US
dc.identifier.urihttps://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=a0OMTmEd_3mfOBxT8SiBTNvo-90_3a69Piw-qlXliZuoNwhUcxtD0l4JD2B-yOMC
dc.identifier.urihttps://hdl.handle.net/11616/105175
dc.identifier.yoktezid811322en_US
dc.language.isotren_US
dc.publisherİnönü Üniversitesien_US
dc.relation.publicationcategoryTezen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectBiyoistatistiken_US
dc.subjectBiostatisticsen_US
dc.titleAğaç tabanlı makine öğrenmesi yöntemleri ile genomik verilerin sınıflandırılmasına yönelik klinik karar destek sisteminin geliştirilmesien_US
dc.title.alternativeDevelopment of a clinical decision support system for classification of genomic data with TREE-based machine learning methodsen_US
dc.typeDoctoral Thesisen_US

Dosyalar