Abstract:Objective: In a research, it is not desirable that the dataset to be used contains missing value (s) and researchers try to cope with this situation. The main purpose of this research is to develop new user-friendly web-based software that uses various techniques to handle missing value(s). Material and Methods: In this study, to assess the performance of the software, various scenarios were tested: 5 variables were normally distributed, different sample sizes (n=1000, 1500, 2000 and 2500), high (r <-0.70 or r> 0.70) and low correlations (-0.30 <r <0.30) among between variables, different number of missing value in variables (5%, 10% and 20% missing data). The missing values were imputed by the developed web software and the results were compared. Thus, the performance of the software under different conditions was evaluated. Shiny, an open source R package was used to develop the web tool. In the developed software, linear regression (LR), random forest (RF), classification and regression trees (CART) and predictive mean matching (PMM) methods were used to impute missing values. In order to achieve more unbiased and reliable results, the ‘number of repetitions’ and ‘number of multiple imputations’ sections were used in the software. The normalized root mean squared error (NRMSE) metric was used to assess performance of imputation techniques. The developed web-based application can be accessed free of charge at http://biostatapps.inonu.edu.tr/KDAY/. Results: According to the outputs of the developed web-based application, better results were obtained by LR and PMM models for missing value imputation in datasets with high correlation. For missing value imputation in low-correlated data sets, the models showed similar imputation performances. Conclusion: For the datasets used in this study, when the correlation between the variables is high, the best imputation performance is obtained with the DR and PMM models regardless of the size of the dataset and the percentage of missing values.
Öz:Amaç: Bir araştırmada kullanılacak veri setinin kayıp değer(ler) içermesi istenmeyen bir durum olup, araştırıcılar kayıp veri ile ilgili sorunları gidermeye çalışırlar. Bu araştırmanın temel amacı kayıp veri analizini ele almak için çeşitli teknikleri kullanan, yeni kullanıcı dostu bir web yazılımı geliştirmektir. Gereç ve Yöntemler: Bu çalışmada, yazılımın performansını değerlendirmek için çeşitli senaryolar test edilmiştir: 5 değişkenin normal olarak dağılması, Farklı örneklem büyüklüklerinin (n = 1000, 1500, 2000 ve 2500) olması, Değişkenler arasında yüksek (r <-0.70 veya r> 0.70) ve düşük korelasyonların (-0.30 <r <0.30) olması, Değişkenlerde farklı sayıda eksik değerlerin (% 5,% 10 ve% 20 eksik veri) olması Bu kayıp veriler geliştirilen web yazılımı ile doldurularak çıkan sonuçlar karşılaştırılmıştır. Böylece yazılımın farklı koşullardaki çalışma performansları değerlendirilmiştir. Açık kaynaklı bir R paketi olan Shiny, web aracını geliştirmek için kullanıldı. Yazılımımızda eksik değerlere atama yapmak için doğrusal regresyon (DR), rastgele orman (RF), sınıflandırma ve regresyon ağaçları (CART) ve tahmini ortalama eşleme (PMM) ele alındı. Kayıp veri atamalarından daha iyi sonuçlar alabilmek için yazılımda ‘Tekrar sayısı’ ve ‘Çoklu Atama Sayısı’ kısımları kullanıldı. Atama tekniklerinin performansını değerlendirmek için normalleştirilmiş hata kareler ortalamasının karekökü (NRMSE) metriği kullanılmıştır. Geliştirilen web tabanlı uygulamaya http://biostatapps. inonu.edu.tr/KDAY/ adresinden ücretsiz olarak erişilebilir. Bulgular: Geliştirilen web tabanlı uygulamanın çıktılarına göre yüksek korelasyona sahip veri setlerinde kayıp değer atama işlem için DR ve PMM modelleri ile daha iyi sonuçlar elde edilmiştir. Düşük korelasyona sahip veri setlerinde kayıp değer atama işlem için ise yazılımda yer verilen dört kayıp değer atama yönteminin hiçbirinin üstünlük sağlayamadığı görülmüştür. Sonuç: Bu çalışmada kullanılan veri kümeleri için, değişkenler arasındaki korelasyon yüksek olduğunda, verisetinin büyüklüğüne ve kayıp değerlerin yüzdesine bakılmaksızın DR ve PMM modelleri ile en iyi atama performansı elde edilmektedir.