EN
TR
Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması
Öz
Veri madenciliği algoritmaları ile gerçekleştirilen modelleme çalışmaları bilgisayar teknolojisinin gelişmesiyle birlikte artış göstermiştir. Ancak bu algoritmalar ile yapılan çalışmalarda veri kalitesinin bozulması elde edilecek sınıflandırma performanslarında önemli rol oynamaktadır. Bu çalışmada veri madenciliği sınıflandırma algoritmalarının performanslarının veri kalitesini bozan etmenlerden biri olan sansürlü verinin veri setinde yer alması durumunda nasıl etkilendiği incelenmiştir. Sansürlü verilerinin etkisini veri setinde gösterilebilmesi amacı ile K en yakın komşu algoritması (kNN) imputasyon yöntemi kullanılmıştır. Daha sonra sınıflandırma algoritmalarından olan Naive Bayes (NB), Lojistik Regresyon (LR) ve K en yakın komşu algoritması (kNN) ile uygulamalar gerçekleştirilmiştir. Yöntemlerin performanslarının incelenmesi için simülasyon çalışması ve gerçek veri seti çalışmaları yapılmış, sonuçlar sunulmuştur. Analiz sonuçlarına göre, yüksek sansür seviyesinde ve düşük sansür seviyesinde Lojistik Regresyon algoritmasının sansür ile baş etmede dikkate değer performans gösterdiği belirlenmiştir. Ayrıca örneklem büyüklüğü arttıkça genel olarak algoritmaların doğru sınıflama performanslarının arttığı gözlenmiştir. Özetle büyük örneklemeli veri setlerinde Lojistik Regresyon algoritmasının doğru sınıflandırma oranı ile başarılı sınıflandırma performansı gösterdiği söylenebilir.
Anahtar Kelimeler
Kaynakça
- Ahmed, S. E., Aydin, D., & Yılmaz, E. (2020). Nonparametric regression estimates based on imputation techniques for right-censored data. Advances in Intelligent Systems and Computing, 1001, 109–120. https://doi.org/10.1007/978-3-030-21248-3_8
- Akpınar, H. (2014). Data : Veri Madenciliği Veri Analizi (Genişletil). Papatya Bilim Yayınevi.
- Alpar, R. (2013). Çok Değişkenli İstatistiksel Yöntemler. Detay Yayıncılık.
- Aydin, D., & Yilmaz, E. (2018). Modified spline regression based on randomly right-censored data: A comparative study. Communications in Statistics: Simulation and Computation, 47(9), 2587–2611. https://doi.org/10.1080/03610918.2017.1353615
- Balaban, M. E., & Kartal, E. (2015). Veri Madenciliği ve Makine Öğrenmesi Temel Algoritmaları ve R Dili İle Uygulamaları (Birinci Ba). Çağlayan Kitapevi.
- Bandyopadhyay, S., Wolfson, J., Vock, D. M., Vazquez-Benitez, G., Adomavicius, G., Elidrisi, M., Johnson, P. E., & O’Connor, P. J. (2015). Data mining for censored time-to-event data: a Bayesian network model for predicting cardiovascular risk from electronic health record data. In Data Mining and Knowledge Discovery (Vol. 29, Issue 4, pp. 1033–1069). https://doi.org/10.1007/s10618-014-0386-6
- Batista, G. E. A. P. A., & Monard, M. C. (2002). A study of k-nearest neighbour as an imputation method. In Frontiers in Artificial Intelligence and Applications (Vol. 87, pp. 251–260).
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Ayrıntılar
Birincil Dil
Türkçe
Konular
İstatistik
Bölüm
Araştırma Makalesi
Yayımlanma Tarihi
26 Temmuz 2023
Gönderilme Tarihi
27 Ekim 2022
Kabul Tarihi
17 Ocak 2023
Yayımlandığı Sayı
Yıl 2023 Cilt: 13 Sayı: 1
APA
Diler, S., & Demir, Y. (2023). Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması. İstatistik Araştırma Dergisi, 13(1), 34-47. https://izlik.org/JA94BU89KH
AMA
1.Diler S, Demir Y. Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması. JSRTR. 2023;13(1):34-47. https://izlik.org/JA94BU89KH
Chicago
Diler, Saygın, ve Yıldırım Demir. 2023. “Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması”. İstatistik Araştırma Dergisi 13 (1): 34-47. https://izlik.org/JA94BU89KH.
EndNote
Diler S, Demir Y (01 Temmuz 2023) Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması. İstatistik Araştırma Dergisi 13 1 34–47.
IEEE
[1]S. Diler ve Y. Demir, “Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması”, JSRTR, c. 13, sy 1, ss. 34–47, Tem. 2023, [çevrimiçi]. Erişim adresi: https://izlik.org/JA94BU89KH
ISNAD
Diler, Saygın - Demir, Yıldırım. “Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması”. İstatistik Araştırma Dergisi 13/1 (01 Temmuz 2023): 34-47. https://izlik.org/JA94BU89KH.
JAMA
1.Diler S, Demir Y. Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması. JSRTR. 2023;13:34–47.
MLA
Diler, Saygın, ve Yıldırım Demir. “Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması”. İstatistik Araştırma Dergisi, c. 13, sy 1, Temmuz 2023, ss. 34-47, https://izlik.org/JA94BU89KH.
Vancouver
1.Saygın Diler, Yıldırım Demir. Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması. JSRTR [Internet]. 01 Temmuz 2023;13(1):34-47. Erişim adresi: https://izlik.org/JA94BU89KH