Araştırma Makalesi

DENGESİZ VERİLER İÇİN AĞIRLIKLI GEOMETRİK ORTALAMA TABANLI YENİ BİR YENİDEN ÖRNEKLEME YAKLAŞIMI

Cilt: 8 Sayı: 15 31 Aralık 2021
PDF İndir
TR EN

DENGESİZ VERİLER İÇİN AĞIRLIKLI GEOMETRİK ORTALAMA TABANLI YENİ BİR YENİDEN ÖRNEKLEME YAKLAŞIMI

Öz

Son yıllarda makine öğrenmesi yöntemleri kullanılarak veri sınıflandırma işlemlerinde büyük gelişmeler yaşanmıştır. Teknolojik gelişmeler arttıkça, internet ortamında ve diğer ortamlarda verilerin boyutu da hızla artmaktadır. Bununla beraber dengesiz ve sınıflandırılmamış veriler ortaya çıkmıştır. Dengesizlik problemi iki sınıftan birinin diğerine göre daha az örneğe sahip olması durumudur. Özellikle tıbbi alanda kullanılan veri kümelerin çoğu dengesiz dağılıma sahiptir. Dengesiz dağılıma sahip bir veri kümesi sınıflandırıcı algoritmaların başarım performansını olumsuz yönde etkilemektedir. Bu dağılımı dengelemek ve sınıflandırmak için bir çok çalışma yapılmıştır. Bu çalışmalar veri ve algoritma düzeyinde olup, yeniden örnekleme yöntemi ile örneklem azaltma ve örneklem çoğaltma işlemleridir. Bu çalışmada azınlık sınıfa ait mevcut örnekler, yeniden sentetik olarak çoğaltılmıştır ve veri kümesi dengelenmiştir. Yeniden örnekleme işlemi için, azınlık sınıfa ait örnekler arasında, Öklid uzaklık metriğiyle tüm data noktaları için en yakın komşular tespit edilmiştir. Bu komşular baz alınarak, her örnek arasında Ağırlıklı Geometrik Ortalama kullanılarak istenen sayıda yeni sentetik örnekler oluşturulmuştur. Bu işlem sonucunda veri kümesi dengeli hale getirilmiştir. Orijinal ve dengelenmiş veri kümesi Random Forest algoritması ile sınıflandırılmış ve sonuçları kıyaslanmıştır. Çalışmanın sonucunda, orijinal ve yeniden örneklenmiş veri kümesi performans değerlerinden, genel doğruluk 0,751'den 0,797'ye ve azınlık sınıfı F-ölçüm ise 0,599'dan 0,805'e yükselmiştir. Çalışmada önerilen yaklaşım ile yeniden örneklenerek dengelenen veri kümesi, orijinal veri kümesine göre sınıflandırma performansını arttırdığı görülmüştür.

Anahtar Kelimeler

Yeniden Örnekleme , Ağırlıklı Geometrik Ortalama , Dengesiz Veri

Kaynakça

  1. [1] E. Alpaydin, Introduction to machine learning. MIT press, 2020.
  2. [2] D. T. Larose and C. D. Larose, Discovering knowledge in data: an introduction to data mining. John Wiley & Sons, 2014.
  3. [3] K. Kowsari, K. Jafari Meimandi, M. Heidarysafa, S. Mendu, L. Barnes, and D. Brown, "Text classification algorithms: A survey," Information, vol. 10, no. 4, p. 150, 2019.
  4. [4] M. S. Shelke, P. R. Deshmukh, and V. K. Shandilya, "A review on imbalanced data handling using undersampling and oversampling technique," International Journal of Recent Trends in Engineering and Research, vol. 3, no. 4, pp. 444-449, 2017.
  5. [5] N. V. Chawla, K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer, "SMOTE: synthetic minority over-sampling technique," Journal of artificial intelligence research, vol. 16, pp. 321-357, 2002.
  6. [6] H. Han, W.-Y. Wang, and B.-H. Mao, "Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning," in International conference on intelligent computing, 2005: Springer, pp. 878-887.
  7. [7] H. M. Nguyen, E. W. Cooper, and K. Kamei, "Borderline over-sampling for imbalanced data classification," International Journal of Knowledge Engineering and Soft Data Paradigms, vol. 3, no. 1, pp. 4-21, 2011.
  8. [8] G. E. Batista, R. C. Prati, and M. C. Monard, "A study of the behavior of several methods for balancing machine learning training data," ACM SIGKDD explorations newsletter, vol. 6, no. 1, pp. 20-29, 2004.
  9. [9] I. Mani and I. Zhang, "kNN approach to unbalanced data distributions: a case study involving information extraction," in Proceedings of workshop on learning from imbalanced datasets, 2003, vol. 126: ICML United States.
  10. [10] Y. Sun, M. S. Kamel, A. K. Wong, and Y. Wang, "Cost-sensitive boosting for classification of imbalanced data," Pattern Recognition, vol. 40, no. 12, pp. 3358-3378, 2007.

Kaynak Göster

APA
Dal, A., Gümüş, İ. H., Güldal, S., & Yavaş, M. (2021). DENGESİZ VERİLER İÇİN AĞIRLIKLI GEOMETRİK ORTALAMA TABANLI YENİ BİR YENİDEN ÖRNEKLEME YAKLAŞIMI. Adıyaman Üniversitesi Mühendislik Bilimleri Dergisi, 8(15), 343-352. https://doi.org/10.54365/adyumbd.940539
AMA
1.Dal A, Gümüş İH, Güldal S, Yavaş M. DENGESİZ VERİLER İÇİN AĞIRLIKLI GEOMETRİK ORTALAMA TABANLI YENİ BİR YENİDEN ÖRNEKLEME YAKLAŞIMI. Adıyaman Üniversitesi Mühendislik Bilimleri Dergisi. 2021;8(15):343-352. doi:10.54365/adyumbd.940539
Chicago
Dal, Abdullah, İbrahim Halil Gümüş, Serkan Güldal, ve Mustafa Yavaş. 2021. “DENGESİZ VERİLER İÇİN AĞIRLIKLI GEOMETRİK ORTALAMA TABANLI YENİ BİR YENİDEN ÖRNEKLEME YAKLAŞIMI”. Adıyaman Üniversitesi Mühendislik Bilimleri Dergisi 8 (15): 343-52. https://doi.org/10.54365/adyumbd.940539.
EndNote
Dal A, Gümüş İH, Güldal S, Yavaş M (01 Aralık 2021) DENGESİZ VERİLER İÇİN AĞIRLIKLI GEOMETRİK ORTALAMA TABANLI YENİ BİR YENİDEN ÖRNEKLEME YAKLAŞIMI. Adıyaman Üniversitesi Mühendislik Bilimleri Dergisi 8 15 343–352.
IEEE
[1]A. Dal, İ. H. Gümüş, S. Güldal, ve M. Yavaş, “DENGESİZ VERİLER İÇİN AĞIRLIKLI GEOMETRİK ORTALAMA TABANLI YENİ BİR YENİDEN ÖRNEKLEME YAKLAŞIMI”, Adıyaman Üniversitesi Mühendislik Bilimleri Dergisi, c. 8, sy 15, ss. 343–352, Ara. 2021, doi: 10.54365/adyumbd.940539.
ISNAD
Dal, Abdullah - Gümüş, İbrahim Halil - Güldal, Serkan - Yavaş, Mustafa. “DENGESİZ VERİLER İÇİN AĞIRLIKLI GEOMETRİK ORTALAMA TABANLI YENİ BİR YENİDEN ÖRNEKLEME YAKLAŞIMI”. Adıyaman Üniversitesi Mühendislik Bilimleri Dergisi 8/15 (01 Aralık 2021): 343-352. https://doi.org/10.54365/adyumbd.940539.
JAMA
1.Dal A, Gümüş İH, Güldal S, Yavaş M. DENGESİZ VERİLER İÇİN AĞIRLIKLI GEOMETRİK ORTALAMA TABANLI YENİ BİR YENİDEN ÖRNEKLEME YAKLAŞIMI. Adıyaman Üniversitesi Mühendislik Bilimleri Dergisi. 2021;8:343–352.
MLA
Dal, Abdullah, vd. “DENGESİZ VERİLER İÇİN AĞIRLIKLI GEOMETRİK ORTALAMA TABANLI YENİ BİR YENİDEN ÖRNEKLEME YAKLAŞIMI”. Adıyaman Üniversitesi Mühendislik Bilimleri Dergisi, c. 8, sy 15, Aralık 2021, ss. 343-52, doi:10.54365/adyumbd.940539.
Vancouver
1.Abdullah Dal, İbrahim Halil Gümüş, Serkan Güldal, Mustafa Yavaş. DENGESİZ VERİLER İÇİN AĞIRLIKLI GEOMETRİK ORTALAMA TABANLI YENİ BİR YENİDEN ÖRNEKLEME YAKLAŞIMI. Adıyaman Üniversitesi Mühendislik Bilimleri Dergisi. 01 Aralık 2021;8(15):343-52. doi:10.54365/adyumbd.940539