Araştırma Makalesi

Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi

Cilt: 27 Sayı: 2 25 Ağustos 2023
PDF İndir
EN TR

Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi

Öz

Son yıllarda gelişen teknoloji sürekli akan, farklı yapılarda ve yüksek boyutlarda verileri de beraberinde getirmiştir. Bu hızlı değişim ve veri setlerinde rastlanan problemler özellikle geleneksel yöntemleri bir noktadan sonra yetersiz bırakmaktadır. Bu çalışma kapsamında iki önemli veri problemi ele alınmıştır: i) kayıp gözlem içeren veri setleri ve ii) dengesiz sınıf dağılımı içeren veri setleri. Bu çalışmanın amacı aynı anda hem kayıp gözlem hem de dengesiz sınıf dağılımı sorununa sahip veri setlerini çeşitli kayıp gözlem atama yöntemleri kullanarak doldurmak ve elde edilen veri üzerinde topluluk öğrenme algoritmalarının başarı düzeylerini değerlendirmektir. Uygulama için sensörler aracılığıyla toplanan veri setinde eğitim için 59000 gözlemden oluşan negatif sınıfa karşılık 1000 adet pozitif sınıfa ait gözlem bulunmaktadır. Elde edilen modeller %2.4 oranında dengesiz sınıf dağılımına sahip sınama verisi ile sınanmıştır. Ayrıca veri setinde bulunan değişkenlerin yaklaşık %99’unda %82’ye varan kayıp veri söz konusudur. Bu kayıp gözlemler sıcak deste ataması, ortalama, ortanca, tepe değeri, çoklu atama, beklenti en büyükleme ve k en yakın komşu yöntemleri ile giderilmeye çalışılmıştır. Atama metodu ile eksik veri tamamlaması yapılan veri setleri Extra Trees, Random Forest, Gradient Boosting, LightGBM ve XGBoost gibi algoritmalar ile karşılaştırmalı sınanmış, en iyi sonuç XGBoost algoritması ile elde edilmiştir.

Anahtar Kelimeler

Teşekkür

Bu çalışma, Mimar Sinan Güzel Sanatlar Üniversitesi Fen Bilimleri Enstitüsü, İstatistik Anabilim Dalı Yüksek Lisans Programı’nda, Enis Gümüştaş tarafından, Doç. Dr. Ayça Çakmak Pehlivanlı danışmanlığında tamamlanan “Kayıp Gözlem İçeren Dengesiz Veri Setlerinin Topluluk Öğrenme Algoritmaları ile Sınıflandırılması” başlıklı Yüksek Lisans tezinden üretilmiştir. Tezin inceleme ve değerlendirme aşamasında yapmış oldukları katkılardan dolayı jüri üyelerine teşekkür ederiz.

Kaynakça

  1. [1] Rubin, D. B. 1976. Inference and missing data. Biometrika, 63(3), pp. 581-592.
  2. [2] Dempster, A. P., Laird, N. M. and Rubin, D. B. 1977. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society: Series B: Methodological, 39(1), pp. 1-22.
  3. [3] Little, R. J. 1988. A test of missing completely at random for multivariate data with missing values. Journal of the American Statistical Association, 83(404), pp. 1198-1202.
  4. [4] Chan, P., and Stolfo, S. 1998. Toward scalable learning with non-uniform class and cost distributions: A case study in credit card fraud detection. In Proc. of Knowledge Discovery and Data Mining, pp:164–168.
  5. [5] Fu K., Cheng D., Tu Y., Zhang L. 2016. Credit Card Fraud Detection Using Convolutional Neural Networks. Neural Information Processing. ICONIP 2016. Lecture Notes in Computer Science, vol 9949. Springer, Cham.
  6. [6] Sanz, J. A., Bernardo, D., Herrera, F., Bustince, H., and Hagras, H. 2015. A compact evolutionary interval-valued fuzzy rule-based classification system for the modeling and prediction of real-world financial applications with imbalanced data. Fuzzy Systems, IEEE Transactions on, 23(4), pp. 973–990
  7. [7] Mitchell P.S., Parkin R.K., Kroh E.M., et al. 2008. Circulating microRNAs as stable blood-based markers for cancer detection. Proc. of the National Academy of Sciences, 105(30) pp. 10513-8.
  8. [8] Oh, S., Lee, M. S. And Zhang, B.T. 2011. Ensemble learning with active example selection for imbalanced biomedical data classification. IEEE-ACM Trans. on Computational Biology and Bioinformatics (TCBB), 8(2), pp. 316–325

Ayrıntılar

Birincil Dil

Türkçe

Konular

Mühendislik

Bölüm

Araştırma Makalesi

Yayımlanma Tarihi

25 Ağustos 2023

Gönderilme Tarihi

20 Mart 2022

Kabul Tarihi

7 Aralık 2022

Yayımlandığı Sayı

Yıl 2023 Cilt: 27 Sayı: 2

Kaynak Göster

APA
Gumustas, E., & Çakmak Pehlivanlı, A. (2023). Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 27(2), 181-190. https://doi.org/10.19113/sdufenbed.1090596
AMA
1.Gumustas E, Çakmak Pehlivanlı A. Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi. Süleyman Demirel Üniv. Fen Bilim. Enst. Derg. 2023;27(2):181-190. doi:10.19113/sdufenbed.1090596
Chicago
Gumustas, Enis, ve Ayça Çakmak Pehlivanlı. 2023. “Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi”. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 27 (2): 181-90. https://doi.org/10.19113/sdufenbed.1090596.
EndNote
Gumustas E, Çakmak Pehlivanlı A (01 Ağustos 2023) Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 27 2 181–190.
IEEE
[1]E. Gumustas ve A. Çakmak Pehlivanlı, “Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi”, Süleyman Demirel Üniv. Fen Bilim. Enst. Derg., c. 27, sy 2, ss. 181–190, Ağu. 2023, doi: 10.19113/sdufenbed.1090596.
ISNAD
Gumustas, Enis - Çakmak Pehlivanlı, Ayça. “Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi”. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi 27/2 (01 Ağustos 2023): 181-190. https://doi.org/10.19113/sdufenbed.1090596.
JAMA
1.Gumustas E, Çakmak Pehlivanlı A. Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi. Süleyman Demirel Üniv. Fen Bilim. Enst. Derg. 2023;27:181–190.
MLA
Gumustas, Enis, ve Ayça Çakmak Pehlivanlı. “Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi”. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, c. 27, sy 2, Ağustos 2023, ss. 181-90, doi:10.19113/sdufenbed.1090596.
Vancouver
1.Enis Gumustas, Ayça Çakmak Pehlivanlı. Dengesiz Sınıf Dağılımında Kayıp Gözlem Sorunu için Topluluk Öğrenmesi Sonuçlarının İstatistiksel Değerlendirmesi. Süleyman Demirel Üniv. Fen Bilim. Enst. Derg. 01 Ağustos 2023;27(2):181-90. doi:10.19113/sdufenbed.1090596

e-ISSN :1308-6529
Linking ISSN (ISSN-L): 1300-7688

Dergide yayımlanan tüm makalelere ücretiz olarak erişilebilinir ve Creative Commons CC BY-NC Atıf-GayriTicari lisansı ile açık erişime sunulur. Tüm yazarlar ve diğer dergi kullanıcıları bu durumu kabul etmiş sayılırlar. CC BY-NC lisansı hakkında detaylı bilgiye erişmek için tıklayınız.