Research Article

Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi

Volume: 27 Number: 2 August 25, 2023
EN TR

Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi

Abstract

Son yıllarda gelişen teknoloji sürekli akan, farklı yapılarda ve yüksek boyutlarda verileri de beraberinde getirmiştir. Bu hızlı değişim ve veri setlerinde rastlanan problemler özellikle geleneksel yöntemleri bir noktadan sonra yetersiz bırakmaktadır. Bu çalışma kapsamında iki önemli veri problemi ele alınmıştır: i) kayıp gözlem içeren veri setleri ve ii) dengesiz sınıf dağılımı içeren veri setleri. Bu çalışmanın amacı aynı anda hem kayıp gözlem hem de dengesiz sınıf dağılımı sorununa sahip veri setlerini çeşitli kayıp gözlem atama yöntemleri kullanarak doldurmak ve elde edilen veri üzerinde topluluk öğrenme algoritmalarının başarı düzeylerini değerlendirmektir. Uygulama için sensörler aracılığıyla toplanan veri setinde eğitim için 59000 gözlemden oluşan negatif sınıfa karşılık 1000 adet pozitif sınıfa ait gözlem bulunmaktadır. Elde edilen modeller %2.4 oranında dengesiz sınıf dağılımına sahip sınama verisi ile sınanmıştır. Ayrıca veri setinde bulunan değişkenlerin yaklaşık %99’unda %82’ye varan kayıp veri söz konusudur. Bu kayıp gözlemler sıcak deste ataması, ortalama, ortanca, tepe değeri, çoklu atama, beklenti en büyükleme ve k en yakın komşu yöntemleri ile giderilmeye çalışılmıştır. Atama metodu ile eksik veri tamamlaması yapılan veri setleri Extra Trees, Random Forest, Gradient Boosting, LightGBM ve XGBoost gibi algoritmalar ile karşılaştırmalı sınanmış, en iyi sonuç XGBoost algoritması ile elde edilmiştir.

Keywords

Thanks

Bu çalışma, Mimar Sinan Güzel Sanatlar Üniversitesi Fen Bilimleri Enstitüsü, İstatistik Anabilim Dalı Yüksek Lisans Programı’nda, Enis Gümüştaş tarafından, Doç. Dr. Ayça Çakmak Pehlivanlı danışmanlığında tamamlanan “Kayıp Gözlem İçeren Dengesiz Veri Setlerinin Topluluk Öğrenme Algoritmaları ile Sınıflandırılması” başlıklı Yüksek Lisans tezinden üretilmiştir. Tezin inceleme ve değerlendirme aşamasında yapmış oldukları katkılardan dolayı jüri üyelerine teşekkür ederiz.

References

  1. [1] Rubin, D. B. 1976. Inference and missing data. Biometrika, 63(3), pp. 581-592.
  2. [2] Dempster, A. P., Laird, N. M. and Rubin, D. B. 1977. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society: Series B: Methodological, 39(1), pp. 1-22.
  3. [3] Little, R. J. 1988. A test of missing completely at random for multivariate data with missing values. Journal of the American Statistical Association, 83(404), pp. 1198-1202.
  4. [4] Chan, P., and Stolfo, S. 1998. Toward scalable learning with non-uniform class and cost distributions: A case study in credit card fraud detection. In Proc. of Knowledge Discovery and Data Mining, pp:164–168.
  5. [5] Fu K., Cheng D., Tu Y., Zhang L. 2016. Credit Card Fraud Detection Using Convolutional Neural Networks. Neural Information Processing. ICONIP 2016. Lecture Notes in Computer Science, vol 9949. Springer, Cham.
  6. [6] Sanz, J. A., Bernardo, D., Herrera, F., Bustince, H., and Hagras, H. 2015. A compact evolutionary interval-valued fuzzy rule-based classification system for the modeling and prediction of real-world financial applications with imbalanced data. Fuzzy Systems, IEEE Transactions on, 23(4), pp. 973–990
  7. [7] Mitchell P.S., Parkin R.K., Kroh E.M., et al. 2008. Circulating microRNAs as stable blood-based markers for cancer detection. Proc. of the National Academy of Sciences, 105(30) pp. 10513-8.
  8. [8] Oh, S., Lee, M. S. And Zhang, B.T. 2011. Ensemble learning with active example selection for imbalanced biomedical data classification. IEEE-ACM Trans. on Computational Biology and Bioinformatics (TCBB), 8(2), pp. 316–325

Details

Primary Language

Turkish

Subjects

Engineering

Journal Section

Research Article

Publication Date

August 25, 2023

Submission Date

March 20, 2022

Acceptance Date

December 7, 2022

Published in Issue

Year 2023 Volume: 27 Number: 2

APA
Gumustas, E., & Çakmak Pehlivanlı, A. (2023). Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 27(2), 181-190. https://doi.org/10.19113/sdufenbed.1090596
AMA
1.Gumustas E, Çakmak Pehlivanlı A. Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi. J. Nat. Appl. Sci. 2023;27(2):181-190. doi:10.19113/sdufenbed.1090596
Chicago
Gumustas, Enis, and Ayça Çakmak Pehlivanlı. 2023. “Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu Için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi”. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 27 (2): 181-90. https://doi.org/10.19113/sdufenbed.1090596.
EndNote
Gumustas E, Çakmak Pehlivanlı A (August 1, 2023) Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 27 2 181–190.
IEEE
[1]E. Gumustas and A. Çakmak Pehlivanlı, “Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi”, J. Nat. Appl. Sci., vol. 27, no. 2, pp. 181–190, Aug. 2023, doi: 10.19113/sdufenbed.1090596.
ISNAD
Gumustas, Enis - Çakmak Pehlivanlı, Ayça. “Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu Için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi”. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 27/2 (August 1, 2023): 181-190. https://doi.org/10.19113/sdufenbed.1090596.
JAMA
1.Gumustas E, Çakmak Pehlivanlı A. Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi. J. Nat. Appl. Sci. 2023;27:181–190.
MLA
Gumustas, Enis, and Ayça Çakmak Pehlivanlı. “Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu Için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi”. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, vol. 27, no. 2, Aug. 2023, pp. 181-90, doi:10.19113/sdufenbed.1090596.
Vancouver
1.Enis Gumustas, Ayça Çakmak Pehlivanlı. Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi. J. Nat. Appl. Sci. 2023 Aug. 1;27(2):181-90. doi:10.19113/sdufenbed.1090596

e-ISSN :1308-6529
Linking ISSN (ISSN-L): 1300-7688

All published articles in the journal can be accessed free of charge and are open access under the Creative Commons CC BY-NC (Attribution-NonCommercial) license. All authors and other journal users are deemed to have accepted this situation. Click here to access detailed information about the CC BY-NC license.