Araştırma Makalesi

Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması

Cilt: 13 Sayı: 1 26 Temmuz 2023
PDF İndir
EN TR

Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması

Öz

Veri madenciliği algoritmaları ile gerçekleştirilen modelleme çalışmaları bilgisayar teknolojisinin gelişmesiyle birlikte artış göstermiştir. Ancak bu algoritmalar ile yapılan çalışmalarda veri kalitesinin bozulması elde edilecek sınıflandırma performanslarında önemli rol oynamaktadır. Bu çalışmada veri madenciliği sınıflandırma algoritmalarının performanslarının veri kalitesini bozan etmenlerden biri olan sansürlü verinin veri setinde yer alması durumunda nasıl etkilendiği incelenmiştir. Sansürlü verilerinin etkisini veri setinde gösterilebilmesi amacı ile K en yakın komşu algoritması (kNN) imputasyon yöntemi kullanılmıştır. Daha sonra sınıflandırma algoritmalarından olan Naive Bayes (NB), Lojistik Regresyon (LR) ve K en yakın komşu algoritması (kNN) ile uygulamalar gerçekleştirilmiştir. Yöntemlerin performanslarının incelenmesi için simülasyon çalışması ve gerçek veri seti çalışmaları yapılmış, sonuçlar sunulmuştur. Analiz sonuçlarına göre, yüksek sansür seviyesinde ve düşük sansür seviyesinde Lojistik Regresyon algoritmasının sansür ile baş etmede dikkate değer performans gösterdiği belirlenmiştir. Ayrıca örneklem büyüklüğü arttıkça genel olarak algoritmaların doğru sınıflama performanslarının arttığı gözlenmiştir. Özetle büyük örneklemeli veri setlerinde Lojistik Regresyon algoritmasının doğru sınıflandırma oranı ile başarılı sınıflandırma performansı gösterdiği söylenebilir.

Anahtar Kelimeler

Kaynakça

  1. Ahmed, S. E., Aydin, D., & Yılmaz, E. (2020). Nonparametric regression estimates based on imputation techniques for right-censored data. Advances in Intelligent Systems and Computing, 1001, 109–120. https://doi.org/10.1007/978-3-030-21248-3_8
  2. Akpınar, H. (2014). Data : Veri Madenciliği Veri Analizi (Genişletil). Papatya Bilim Yayınevi.
  3. Alpar, R. (2013). Çok Değişkenli İstatistiksel Yöntemler. Detay Yayıncılık.
  4. Aydin, D., & Yilmaz, E. (2018). Modified spline regression based on randomly right-censored data: A comparative study. Communications in Statistics: Simulation and Computation, 47(9), 2587–2611. https://doi.org/10.1080/03610918.2017.1353615
  5. Balaban, M. E., & Kartal, E. (2015). Veri Madenciliği ve Makine Öğrenmesi Temel Algoritmaları ve R Dili İle Uygulamaları (Birinci Ba). Çağlayan Kitapevi.
  6. Bandyopadhyay, S., Wolfson, J., Vock, D. M., Vazquez-Benitez, G., Adomavicius, G., Elidrisi, M., Johnson, P. E., & O’Connor, P. J. (2015). Data mining for censored time-to-event data: a Bayesian network model for predicting cardiovascular risk from electronic health record data. In Data Mining and Knowledge Discovery (Vol. 29, Issue 4, pp. 1033–1069). https://doi.org/10.1007/s10618-014-0386-6
  7. Batista, G. E. A. P. A., & Monard, M. C. (2002). A study of k-nearest neighbour as an imputation method. In Frontiers in Artificial Intelligence and Applications (Vol. 87, pp. 251–260).
  8. Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.

Ayrıntılar

Birincil Dil

Türkçe

Konular

İstatistik

Bölüm

Araştırma Makalesi

Yayımlanma Tarihi

26 Temmuz 2023

Gönderilme Tarihi

27 Ekim 2022

Kabul Tarihi

17 Ocak 2023

Yayımlandığı Sayı

Yıl 2023 Cilt: 13 Sayı: 1

Kaynak Göster

APA
Diler, S., & Demir, Y. (2023). Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması. İstatistik Araştırma Dergisi, 13(1), 34-47. https://izlik.org/JA94BU89KH
AMA
1.Diler S, Demir Y. Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması. JSRTR. 2023;13(1):34-47. https://izlik.org/JA94BU89KH
Chicago
Diler, Saygın, ve Yıldırım Demir. 2023. “Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması”. İstatistik Araştırma Dergisi 13 (1): 34-47. https://izlik.org/JA94BU89KH.
EndNote
Diler S, Demir Y (01 Temmuz 2023) Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması. İstatistik Araştırma Dergisi 13 1 34–47.
IEEE
[1]S. Diler ve Y. Demir, “Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması”, JSRTR, c. 13, sy 1, ss. 34–47, Tem. 2023, [çevrimiçi]. Erişim adresi: https://izlik.org/JA94BU89KH
ISNAD
Diler, Saygın - Demir, Yıldırım. “Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması”. İstatistik Araştırma Dergisi 13/1 (01 Temmuz 2023): 34-47. https://izlik.org/JA94BU89KH.
JAMA
1.Diler S, Demir Y. Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması. JSRTR. 2023;13:34–47.
MLA
Diler, Saygın, ve Yıldırım Demir. “Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması”. İstatistik Araştırma Dergisi, c. 13, sy 1, Temmuz 2023, ss. 34-47, https://izlik.org/JA94BU89KH.
Vancouver
1.Saygın Diler, Yıldırım Demir. Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması. JSRTR [Internet]. 01 Temmuz 2023;13(1):34-47. Erişim adresi: https://izlik.org/JA94BU89KH