EN
TR
Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması
Abstract
Veri madenciliği algoritmaları ile gerçekleştirilen modelleme çalışmaları bilgisayar teknolojisinin gelişmesiyle birlikte artış göstermiştir. Ancak bu algoritmalar ile yapılan çalışmalarda veri kalitesinin bozulması elde edilecek sınıflandırma performanslarında önemli rol oynamaktadır. Bu çalışmada veri madenciliği sınıflandırma algoritmalarının performanslarının veri kalitesini bozan etmenlerden biri olan sansürlü verinin veri setinde yer alması durumunda nasıl etkilendiği incelenmiştir. Sansürlü verilerinin etkisini veri setinde gösterilebilmesi amacı ile K en yakın komşu algoritması (kNN) imputasyon yöntemi kullanılmıştır. Daha sonra sınıflandırma algoritmalarından olan Naive Bayes (NB), Lojistik Regresyon (LR) ve K en yakın komşu algoritması (kNN) ile uygulamalar gerçekleştirilmiştir. Yöntemlerin performanslarının incelenmesi için simülasyon çalışması ve gerçek veri seti çalışmaları yapılmış, sonuçlar sunulmuştur. Analiz sonuçlarına göre, yüksek sansür seviyesinde ve düşük sansür seviyesinde Lojistik Regresyon algoritmasının sansür ile baş etmede dikkate değer performans gösterdiği belirlenmiştir. Ayrıca örneklem büyüklüğü arttıkça genel olarak algoritmaların doğru sınıflama performanslarının arttığı gözlenmiştir. Özetle büyük örneklemeli veri setlerinde Lojistik Regresyon algoritmasının doğru sınıflandırma oranı ile başarılı sınıflandırma performansı gösterdiği söylenebilir.
Keywords
References
- Ahmed, S. E., Aydin, D., & Yılmaz, E. (2020). Nonparametric regression estimates based on imputation techniques for right-censored data. Advances in Intelligent Systems and Computing, 1001, 109–120. https://doi.org/10.1007/978-3-030-21248-3_8
- Akpınar, H. (2014). Data : Veri Madenciliği Veri Analizi (Genişletil). Papatya Bilim Yayınevi.
- Alpar, R. (2013). Çok Değişkenli İstatistiksel Yöntemler. Detay Yayıncılık.
- Aydin, D., & Yilmaz, E. (2018). Modified spline regression based on randomly right-censored data: A comparative study. Communications in Statistics: Simulation and Computation, 47(9), 2587–2611. https://doi.org/10.1080/03610918.2017.1353615
- Balaban, M. E., & Kartal, E. (2015). Veri Madenciliği ve Makine Öğrenmesi Temel Algoritmaları ve R Dili İle Uygulamaları (Birinci Ba). Çağlayan Kitapevi.
- Bandyopadhyay, S., Wolfson, J., Vock, D. M., Vazquez-Benitez, G., Adomavicius, G., Elidrisi, M., Johnson, P. E., & O’Connor, P. J. (2015). Data mining for censored time-to-event data: a Bayesian network model for predicting cardiovascular risk from electronic health record data. In Data Mining and Knowledge Discovery (Vol. 29, Issue 4, pp. 1033–1069). https://doi.org/10.1007/s10618-014-0386-6
- Batista, G. E. A. P. A., & Monard, M. C. (2002). A study of k-nearest neighbour as an imputation method. In Frontiers in Artificial Intelligence and Applications (Vol. 87, pp. 251–260).
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Details
Primary Language
Turkish
Subjects
Statistics
Journal Section
Research Article
Publication Date
July 26, 2023
Submission Date
October 27, 2022
Acceptance Date
January 17, 2023
Published in Issue
Year 2023 Volume: 13 Number: 1
APA
Diler, S., & Demir, Y. (2023). Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması. İstatistik Araştırma Dergisi, 13(1), 34-47. https://izlik.org/JA94BU89KH
AMA
1.Diler S, Demir Y. Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması. JSRTR. 2023;13(1):34-47. https://izlik.org/JA94BU89KH
Chicago
Diler, Saygın, and Yıldırım Demir. 2023. “Sağdan Sansürlü Veriler Için Veri Madenciliği Algoritmaları Performanslarının Karşılaştırılması”. İstatistik Araştırma Dergisi 13 (1): 34-47. https://izlik.org/JA94BU89KH.
EndNote
Diler S, Demir Y (July 1, 2023) Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması. İstatistik Araştırma Dergisi 13 1 34–47.
IEEE
[1]S. Diler and Y. Demir, “Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması”, JSRTR, vol. 13, no. 1, pp. 34–47, July 2023, [Online]. Available: https://izlik.org/JA94BU89KH
ISNAD
Diler, Saygın - Demir, Yıldırım. “Sağdan Sansürlü Veriler Için Veri Madenciliği Algoritmaları Performanslarının Karşılaştırılması”. İstatistik Araştırma Dergisi 13/1 (July 1, 2023): 34-47. https://izlik.org/JA94BU89KH.
JAMA
1.Diler S, Demir Y. Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması. JSRTR. 2023;13:34–47.
MLA
Diler, Saygın, and Yıldırım Demir. “Sağdan Sansürlü Veriler Için Veri Madenciliği Algoritmaları Performanslarının Karşılaştırılması”. İstatistik Araştırma Dergisi, vol. 13, no. 1, July 2023, pp. 34-47, https://izlik.org/JA94BU89KH.
Vancouver
1.Saygın Diler, Yıldırım Demir. Sağdan sansürlü veriler için veri madenciliği algoritmaları performanslarının karşılaştırılması. JSRTR [Internet]. 2023 Jul. 1;13(1):34-47. Available from: https://izlik.org/JA94BU89KH