Performance Comparison of Some Imputation Methods Used in Missing Value(s) Analysis: A Simulation Study

dc.contributor.authorArslan, Ahmet Kadir
dc.contributor.authorTunç, Zeynep
dc.contributor.authorGüldoğan, Emek
dc.contributor.authorÇolak, Cemil
dc.date.accessioned2021-05-29T11:42:52Z
dc.date.available2021-05-29T11:42:52Z
dc.date.issued2019
dc.departmentİnönü Üniversitesien_US
dc.description.abstractAbstract: Objective: In a research, it is not desirable that the dataset to be used contains missing value (s) and researchers try to cope with this situation. The main purpose of this research is to develop new user-friendly web-based software that uses various techniques to handle missing value(s). Material and Methods: In this study, to assess the performance of the software, various scenarios were tested: 5 variables were normally distributed, different sample sizes (n=1000, 1500, 2000 and 2500), high (r <-0.70 or r> 0.70) and low correlations (-0.30 <r <0.30) among between variables, different number of missing value in variables (5%, 10% and 20% missing data). The missing values were imputed by the developed web software and the results were compared. Thus, the performance of the software under different conditions was evaluated. Shiny, an open source R package was used to develop the web tool. In the developed software, linear regression (LR), random forest (RF), classification and regression trees (CART) and predictive mean matching (PMM) methods were used to impute missing values. In order to achieve more unbiased and reliable results, the ‘number of repetitions’ and ‘number of multiple imputations’ sections were used in the software. The normalized root mean squared error (NRMSE) metric was used to assess performance of imputation techniques. The developed web-based application can be accessed free of charge at http: //biostatapps.inonu.edu.tr/KDAY/. Results: According to the outputs of the developed web-based application, better results were obtained by LR and PMM models for missing value imputation in datasets with high correlation. For missing value imputation in low-correlated data sets, the models showed similar imputation performances. Conclusion: For the datasets used in this study, when the correlation between the variables is high, the best imputation performance is obtained with the DR and PMM models regardless of the size of the dataset and the percentage of missing values.en_US
dc.description.abstractÖz: Amaç: Bir araştırmada kullanılacak veri setinin kayıp değer(ler) içermesi istenmeyen bir durum olup, araştırıcılar kayıp veri ile ilgili sorunları gidermeye çalışırlar. Bu araştırmanın temel amacı kayıp veri analizini ele almak için çeşitli teknikleri kullanan, yeni kullanıcı dostu bir web yazılımı geliştirmektir. Gereç ve Yöntemler: Bu çalışmada, yazılımın performansını değerlendirmek için çeşitli senaryolar test edilmiştir: 5 değişkenin normal olarak dağılması, Farklı örneklem büyüklüklerinin (n = 1000, 1500, 2000 ve 2500) olması, Değişkenler arasında yüksek (r <-0.70 veya r> 0.70) ve düşük korelasyonların (-0.30 <r <0.30) olması, Değişkenlerde farklı sayıda eksik değerlerin (% 5,% 10 ve% 20 eksik veri) olması Bu kayıp veriler geliştirilen web yazılımı ile doldurularak çıkan sonuçlar karşılaştırılmıştır. Böylece yazılımın farklı koşullardaki çalışma performansları değerlendirilmiştir. Açık kaynaklı bir R paketi olan Shiny, web aracını geliştirmek için kullanıldı. Yazılımımızda eksik değerlere atama yapmak için doğrusal regresyon (DR), rastgele orman (RF), sınıflandırma ve regresyon ağaçları (CART) ve tahmini ortalama eşleme (PMM) ele alındı. Kayıp veri atamalarından daha iyi sonuçlar alabilmek için yazılımda ‘Tekrar sayısı’ ve ‘Çoklu Atama Sayısı’ kısımları kullanıldı. Atama tekniklerinin performansını değerlendirmek için normalleştirilmiş hata kareler ortalamasının karekökü (NRMSE) metriği kullanılmıştır. Geliştirilen web tabanlı uygulamaya http: //biostatapps. inonu.edu.tr/KDAY/ adresinden ücretsiz olarak erişilebilir. Bulgular: Geliştirilen web tabanlı uygulamanın çıktılarına göre yüksek korelasyona sahip veri setlerinde kayıp değer atama işlem için DR ve PMM modelleri ile daha iyi sonuçlar elde edilmiştir. Düşük korelasyona sahip veri setlerinde kayıp değer atama işlem için ise yazılımda yer verilen dört kayıp değer atama yönteminin hiçbirinin üstünlük sağlayamadığı görülmüştür. Sonuç: Bu çalışmada kullanılan veri kümeleri için, değişkenler arasındaki korelasyon yüksek olduğunda, verisetinin büyüklüğüne ve kayıp değerlerin yüzdesine bakılmaksızın DR ve PMM modelleri ile en iyi atama performansı elde edilmektedir.en_US
dc.identifier.citationARSLAN A. K,TUNÇ Z,GÜLDOĞAN E,ÇOLAK C (2019). Performance Comparison of Some Imputation Methods Used in Missing Value(s) Analysis: A Simulation Study. Türkiye Klinikleri Biyoistatistik Dergisi, 11(1), 15 - 23. Doi: 10.5336/biostatic.2018-62788en_US
dc.identifier.doi10.5336/biostatic.2018-62788en_US
dc.identifier.endpage23en_US
dc.identifier.issn1308-7894
dc.identifier.issn2146-8877
dc.identifier.issue1en_US
dc.identifier.startpage15en_US
dc.identifier.trdizinid334272en_US
dc.identifier.urihttps://doi.org/10.5336/biostatic.2018-62788
dc.identifier.urihttps://hdl.handle.net/11616/41997
dc.identifier.urihttps://search.trdizin.gov.tr/yayin/detay/334272
dc.identifier.volume11en_US
dc.indekslendigikaynakTR-Dizinen_US
dc.language.isoenen_US
dc.relation.ispartofTürkiye Klinikleri Biyoistatistik Dergisien_US
dc.relation.publicationcategoryMakale - Ulusal Hakemli Dergi - Kurum Öğretim Elemanıen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.titlePerformance Comparison of Some Imputation Methods Used in Missing Value(s) Analysis: A Simulation Studyen_US
dc.title.alternativeKayıp Değer Atamasında Kullanılan Bazı Yöntemlerin Atama Performanslarının Karşılaştırılması: Bir Benzetim Çalışmasıen_US
dc.typeArticleen_US

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
Makale Dosyası.pdf
Boyut:
553.21 KB
Biçim:
Adobe Portable Document Format
Açıklama:
Makale Dosyası
Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.71 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: