Modeling studies performed with data mining algorithms have increased with the development of computer technology. However, the deterioration of data quality in studies with these algorithms plays an important role in the classification performances to be obtained. In this study, it has been examined how the performance of data mining classification algorithms is affected when censored data, which is one of the factors that deteriorates data quality, is included in the data set. In order to show the effect of the censored data in the data set, the K nearest neighbor algorithm (KNN) imputation method was used. Then, applications were carried out with Naive Bayes (NB), Logistic Regression (LR) and K nearest neighbor algorithm (KNN), which are among the classification algorithms. To inspect the performance of the mentioned methods, simulation study and real data example are carried out. According to the results of the analysis, it was determined that Logistic Regression algorithm at high and low censorship level showed remarkable performance in dealing with censorship. In addition, it was observed that the correct classification performance of the algorithms increased as the sample size increased. In summary, it can be said that the correct classification success of Logistic Regression algorithm in data sets with large samples show successful classification performance with values.
Veri madenciliği algoritmaları ile gerçekleştirilen modelleme çalışmaları bilgisayar teknolojisinin gelişmesiyle birlikte artış göstermiştir. Ancak bu algoritmalar ile yapılan çalışmalarda veri kalitesinin bozulması elde edilecek sınıflandırma performanslarında önemli rol oynamaktadır. Bu çalışmada veri madenciliği sınıflandırma algoritmalarının performanslarının veri kalitesini bozan etmenlerden biri olan sansürlü verinin veri setinde yer alması durumunda nasıl etkilendiği incelenmiştir. Sansürlü verilerinin etkisini veri setinde gösterilebilmesi amacı ile K en yakın komşu algoritması (kNN) imputasyon yöntemi kullanılmıştır. Daha sonra sınıflandırma algoritmalarından olan Naive Bayes (NB), Lojistik Regresyon (LR) ve K en yakın komşu algoritması (kNN) ile uygulamalar gerçekleştirilmiştir. Yöntemlerin performanslarının incelenmesi için simülasyon çalışması ve gerçek veri seti çalışmaları yapılmış, sonuçlar sunulmuştur. Analiz sonuçlarına göre, yüksek sansür seviyesinde ve düşük sansür seviyesinde Lojistik Regresyon algoritmasının sansür ile baş etmede dikkate değer performans gösterdiği belirlenmiştir. Ayrıca örneklem büyüklüğü arttıkça genel olarak algoritmaların doğru sınıflama performanslarının arttığı gözlenmiştir. Özetle büyük örneklemeli veri setlerinde Lojistik Regresyon algoritmasının doğru sınıflandırma oranı ile başarılı sınıflandırma performansı gösterdiği söylenebilir.
Birincil Dil | Türkçe |
---|---|
Konular | İstatistik |
Bölüm | Araştırma Makaleleri |
Yazarlar | |
Yayımlanma Tarihi | 26 Temmuz 2023 |
Yayımlandığı Sayı | Yıl 2023 Cilt: 13 Sayı: 1 |