Gen ifade veri setlerinde boyut indirgeme yöntemlerinin sınıflama performansına etkilerinin karşılaştırılması

Yükleniyor...
Küçük Resim

Tarih

2020

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

İnönü Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Amaç: Bu çalışmanın amacı, yüksek boyutlu Akut Miyeloid Lösemi (AML) hastalığı gen ifade veri setinde boyut indirgeme yöntemlerinin (LASSO, temel bileşenler analizi (PCA) ve bağımsız bileşenler analizi (ICA)) çeşitli destek vektör makinesi sınıflandırma yöntemlerine etkilerinin karşılaştırılmasıdır. Materyal ve Metot: Bu çalışmada GEO veri deposunda GDS3057 kodu ile yüklenen Akut miyeloid lösemi (AML: Acute myeloid leukemia) gen ifade veri seti kullanılmıştır. Veri setinde 38 sağlıklı donörden alınan normal hematopoietik hücreler ile 26 AML hastasından gelen lösemik blastlar arasındaki gen ifade profilleri bulunmaktadır. AML veri seti 64 kişi ve 22283 gene ait ifade seviyelerini içermektedir. Veri setine filtreleme işlemi yapıldıktan sonra, LASSO, temel bileşenler analizi(PCA), bağımsız bileşenler analizi (ICA) yöntemleri uygulanarak boyut indirgeme analizleri yapılmıştır. Bu yöntemlerden elde edilen boyutu indirgenmiş veri setlerine Doğrusal, Polinomiyal ve Radyal tabanlı çekirdek fonksiyonlu Destek Vektör Makinesi (DVM) yöntemleri uygulanmıştır. Modelleme analizlerinde yeniden örnekleme yöntemi olarak 10 tekrarlı 10 katlı çapraz geçerlik yöntemi kullanılmıştır. Hiperparametre optimizasyonu için rasgele arama yöntemi kullanılmıştır. Oluşturulan modellerin performansını değerlendirmek için doğru sınıflama oranı, duyarlılık, seçicilik, kesinlik ve F ölçütü değerlerinin ortalamaları verilmiştir. Bu ölçütlere ek olarak boyut indirgeme analizlerinin modelleme süresine etkilerini görebilmek için analiz süreleri de saniye olarak verilmiştir. Bulgular: Filtreleme işlemi yapıldıktan sonra AML veri setinde 6201 gen kalmıştır. PCA/ICA uygulandıktan sonra AML gen ifade veri setinden 10 bileşen çıkarılmıştır. LASSO uygulandıktan sonra ise veri setinden AML hastalığı için biyobelirteç olabilecek 21 gen seçilmiştir. Kurulan modellerin test verileri için doğruluk oranları sonuçlarına göre veri setine PCA uygulandıktan sonra Polinomiyal çekirdek fonksiyon ile kurulan model en yüksek doğruluk oranını vermiştir. Yapılan analizlerin tümü için Polinomiyal çekirdek fonksiyon ile kurulan DVM modelleri en iyi performansı göstermiştir. Sonuç: Gen ifade veri setleri ile sınıflandırma modelleri oluşturulmadan önce boyut indirgeme yöntemleri kullanılarak yüksek boyutluluk sorunu giderilmeli, modeller daha sonra kurulmalıdır. Bu sayede analiz süresi kısalır ve modellerin tahmin performansı artar. AML gen ifade veri setinde Polinomiyal çekirdek fonksiyon ile kurulan DVM modelleri, Doğrusal ve Radyal tabanlı çekirdek fonksiyonu ile kurulan DVM modellerine göre daha iyi sonuç vermiştir. Ancak birden fazla veri setinde ve/veya simüle veri setinde bu yöntemleri deneyerek sonuçları karşılaştırmak daha kesin sonuçlara ulaşılması açısından önemlidir. Anahtar Kelimeler: Boyut İndirgeme, Gen İfade Veri Seti, Özellik Çıkarımı, Özellik Seçimi, Sınıflandırma
Aim: The aim of this study is to compare the effects of size reduction methods (LASSO, principal components analysis (PCA) and independent components analysis (ICA)) on various support vector machine classification methods in the high-dimensional Acute Myeloid Leukemia (AML) disease gene expression data set. Material and Method: In this study, Acute myeloid leukemia (AML: Acute myeloid leukemia) data set loaded with GDS3057 code was used in the GEO data warehouse. The data set includes gene expression profiles between normal hematopoietic cells from 38 healthy donors and leukemic blasts from 26 AML patients. The AML data set contains expression levels for 64 people and 22283 genes. After filtering the data set, dimention reduction analyzes were performed by applying LASSO, PCA, ICA, methods. Support Vector Machine (DVM) methods with linear, polynamial and radial based kernel functions were applied to the size-reduced data sets obtained from these methods. In modeling analysis, 10-repeated 10-fold cross validity method was used as the resampling method. Random search method was used for hyperparameter optimization. In order to evaluate the performance of the model, the average accuracy rate, sensitivity, spectivity, precision and F criteria values of 500 replicate samples are given. In addition to these criteria, analysis times are given in seconds to see the effects of size reduction analyzes on modeling time. Results: After filtering, 6201 genes remained in the AML data set. After applying PCA / ICA, 10 components removed from the AML gene expression dataset. After applying LASSO, 21 genes that could be biomarkers for AML disease selected from the data set. According to the results of the accuracy rates for the test data of the created models, the model established with the polynomial kernel function after applying PCA to the data set gave the highest accuracy rate. The best performance for all analyzes obtained from DVM models with polynamial kernel function. Conclusion: Before creating classification models with gene expression data sets, the problem of high dimensionality should be eliminated by using dimention reduction methods and models should be established later. In this way, the analysis time is shortened and increases the prediction performance of the models . DVM models with polynamial kernel function in the AML gene expression dataset gave better results than DVM models with linear and radial based kernel function. However, comparing the results by trying these methods in more than one dataset and / or simulated dataset is important for achieving more precise results. Key words: Dimension Reduction, Gene Expression Data Set, Feature Extraction, Feature Selection, Classification

Açıklama

Anahtar Kelimeler

Biyoistatistik, Biostatistics

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Yağın, Fatma Hilal (2020). Gen ifade veri setlerinde boyut indirgeme yöntemlerinin sınıflama performansına etkilerinin karşılaştırılması. Yayımlanmış Yüksek Lisans tezi, İnönü Üniversitesi, Malatya.1-68 ss.