MAKİNE ÖĞRENMESİNDE YENİDEN ÖRNEKLEME: ALGORİTMALARIN PERFORMANSLARINA YANSIMALARI

Ömer Çağrı Yavuz

doi:10.25287/ohuiibf.1539535

Araştırma Makalesi

RESAMPLING IN MACHINE LEARNING: IMPLICATIONS FOR ALGORITHM PERFORMANCES

Yıl 2025, Cilt: 18 Sayı: 1, 292 - 304, 30.01.2025

Ömer Çağrı Yavuz

https://doi.org/10.25287/ohuiibf.1539535

Öz

Machine learning techniques, used in various applications across different domains, contribute to the development by addressing complex problems. These techniques are utilized for various purposes such as processing, interpreting, and predicting data. In classification algorithms used to solve complex problems, labeled output values are predicted based on input values. However, in such machine learning applications, performance losses occur due to imbalanced distributions of clusters. To mitigate these performance losses, various resampling methods are used. These methods are categorized into two groups: undersampling and oversampling. Undersampling methods are used to approach the number of records to the number of records with low class counts. Oversampling methods, on the other hand, are used to increase the number of records with low class counts. In this study, a dataset consisting of 569 records was used to demonstrate the effect of various resampling methods on the performance of machine learning algorithms. Resampling filters were applied to breast cancer records belonging to two different classes: benign and malignant. Subsequently, performance metrics obtained by applying four algorithms to the resulting datasets were compared. The applications conducted revealed that the use of resampling methods positively contributes to the performance of machine learning algorithms.

Anahtar Kelimeler

Machine Learning , Resampling , Classification , Performance Metrics

Kaynakça

Alahmari, F. (2020). A comparison of resampling techniques for medical data using machine learning. Journal of Information & Knowledge Management, 19(01), 2040016.
Aydın, M. A. (2022). Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi. Politeknik Dergisi, 2022, 25 (1), 351-360.
Caruana, R., & Niculescu-Mizil, A. (2006). Denetimli öğrenme algoritmalarının ampirik bir karşılaştırması. 23. Uluslararası Makine Öğrenimi Konferansı Bildiri Kitabı, s. 161-168.
Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. IEEE Transactions on Information Theory, 13(1), 21–27.
Dua, D., & Graff, C. (2019). “UCI ML Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science, 2019.
Ercire, M., Ünsal, A. (2021). Kısa süreli güç kalitesi bozulmalarının dalgacık analizi ve rastgele orman yöntemi ile sınıflandırılması. Uludağ Üniversitesi Mühendislik Fakültesi Dergisi, 26(3), 903-920.
Estabrooks, A., Jo, T., & Japkowicz, N. (2004). A multiple resampling method for learning from imbalanced data sets. Computational intelligence, 20(1), 18-36.
Fernández, A., Garcia, S., Herrera, F., & Chawla, N. V. (2018). SMOTE for learning from imbalanced data: progress and challenges, marking the 15-year anniversary. Journal of Artificial Intelligence Research, 61, 863-905.
Ghorbani, R., & Ghousi, R. (2020). Comparing different resampling methods in predicting students’ performance using machine learning techniques. IEEE Access, 8, 67899-67911.
Goy, G., Gezer, C., & Gungor, V. C. (2019, September). Credit Card Fraud Detection with Machine Learning Methods. In 2019 4th International Conference on Computer Science and Engineering (UBMK), pp. 350-354. IEEE.
Gupta, V. (2017). Classification of satisfaction level based on survey questions and features selection using decision trees.
Harman G. (2021). Destek vektör makineleri ve naive bayes sınıflandırma algoritmalarını kullanarak diabetes mellitus tahmini. Avrupa Bilim ve Teknoloji Dergisi, (32), 7-13.
Katore, L. S., & Umale, J. S. (2015). Comparative study of recommendation algorithms and systems using WEKA. International Journal of Computer Applications, 110 (3).
Kotu, V., & Deshpande, B. (2018). Data science: concepts and practice. Morgan Kaufmann. Kubus, M. (2020). Evaluation of resampling methods in the class unbalance problem. Econometrics, 24(1), 39-50.
Mirmozaffari, M., Golilarz, N. A., & Band, S. S. (2020). Machine learning algorithms based on an optimization model.
Nakatsu, R. T. (2020). An evaluation of four resampling methods used in machine learning classification. IEEE Intelligent Systems, 36(3), 51-57.
Nizam, H., & Akın, S. S. (2014). Sosyal medyada makine öğrenmesi ile duygu analizinde dengeli ve dengesiz veri setlerinin performanslarının karşılaştırılması. XIX. Türkiye'de İnternet Konferansı, 1-6.
Türkmenoğlu, B. K.,& Yıldız, O. (2021). Predicting the survival of heart failure patients in unbalanced data sets. In 2021 29th Signal Processing and Communications Applications Conference (SIU) (pp. 1-4). IEEE.
W. Sullivan, “ML For Beginners Guide Algorithms: Supervised & Unsupervised Learning, Decision Tree & Random Forest Introduction”, CreateSpace Independent Publishing Platform, 2017.

MAKİNE ÖĞRENMESİNDE YENİDEN ÖRNEKLEME: ALGORİTMALARIN PERFORMANSLARINA YANSIMALARI

Yıl 2025, Cilt: 18 Sayı: 1, 292 - 304, 30.01.2025

Ömer Çağrı Yavuz

https://doi.org/10.25287/ohuiibf.1539535

Öz

Farklı alanlarda çeşitli uygulamalarda kullanılan makine öğrenmesi teknikleri karmaşık problemlerin çözümünde katkı sağlayarak gelişim göstermektedir. Bu teknikler verilerin işlenmesi, anlamlandırılması ve tahmini gibi çeşitli amaçlarla kullanılmaktadır. Karmaşık problemlerin çözümünde kullanılan sınıflandırma algoritmalarında giriş değerleri üzerinden etiketlenmiş çıkış değerleri tahmin edilmektedir. Ancak bu tür makine öğrenmesi uygulamalarında küme sayılarının dengesiz dağılımlarına bağlı olarak performans kayıpları yaşanmaktadır. Bu performans kayıplarının önüne geçmek amacıyla çeşitli yeniden örnekleme yöntemleri kullanılmaktadır. Alt örnekleme ve aşırı örnekleme olmak üzere iki farklı grupta ele alınan bu yöntemler veri setlerinde yer alan dengesizlikleri ortadan kaldırmak için sıklıkla kullanılır. Alt örnekleme yöntemleri kayıt sayısını sınıf sayısı düşük olan kayıtların sayısına yaklaştırmak amacıyla kullanılır. Aşırı örnekleme yöntemleri ise sınıf sayısı düşük olan kayıtların sayısını yükseltmek amacıyla kullanılır. Bu çalışma kapsamında çeşitli yeniden örnekleme yöntemlerinin makine öğrenmesi algoritmalarının performansları üzerindeki etkisinin ortaya konması amaçlanarak 569 kayıttan oluşan veri seti kullanılmıştır. İyi huylu ve kötü huylu olmak üzere iki farklı sınıftan oluşan göğüs kanseri kayıtlarına çeşitli yeniden örnekleme filtreleri uygulanmıştır. Sonrasında elde edilen veri setlerine dört farklı algoritma uygulanarak elde edilen performans metrikleri karşılaştırılarak sunulmuştur. Yapılan uygulamalar sonucunda yeniden örnekleme yöntemlerinin kullanımının makine öğrenmesi algoritmalarının performanslarına olumlu katkı sağladığı görülmüştür.

Anahtar Kelimeler

Makine Öğrenmesi , Yeniden Örnekleme , Sınıflandırma , Performans Metrikleri

Kaynakça

Alahmari, F. (2020). A comparison of resampling techniques for medical data using machine learning. Journal of Information & Knowledge Management, 19(01), 2040016.
Aydın, M. A. (2022). Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi. Politeknik Dergisi, 2022, 25 (1), 351-360.
Caruana, R., & Niculescu-Mizil, A. (2006). Denetimli öğrenme algoritmalarının ampirik bir karşılaştırması. 23. Uluslararası Makine Öğrenimi Konferansı Bildiri Kitabı, s. 161-168.
Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. IEEE Transactions on Information Theory, 13(1), 21–27.
Dua, D., & Graff, C. (2019). “UCI ML Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science, 2019.
Ercire, M., Ünsal, A. (2021). Kısa süreli güç kalitesi bozulmalarının dalgacık analizi ve rastgele orman yöntemi ile sınıflandırılması. Uludağ Üniversitesi Mühendislik Fakültesi Dergisi, 26(3), 903-920.
Estabrooks, A., Jo, T., & Japkowicz, N. (2004). A multiple resampling method for learning from imbalanced data sets. Computational intelligence, 20(1), 18-36.
Fernández, A., Garcia, S., Herrera, F., & Chawla, N. V. (2018). SMOTE for learning from imbalanced data: progress and challenges, marking the 15-year anniversary. Journal of Artificial Intelligence Research, 61, 863-905.
Ghorbani, R., & Ghousi, R. (2020). Comparing different resampling methods in predicting students’ performance using machine learning techniques. IEEE Access, 8, 67899-67911.
Goy, G., Gezer, C., & Gungor, V. C. (2019, September). Credit Card Fraud Detection with Machine Learning Methods. In 2019 4th International Conference on Computer Science and Engineering (UBMK), pp. 350-354. IEEE.
Gupta, V. (2017). Classification of satisfaction level based on survey questions and features selection using decision trees.
Harman G. (2021). Destek vektör makineleri ve naive bayes sınıflandırma algoritmalarını kullanarak diabetes mellitus tahmini. Avrupa Bilim ve Teknoloji Dergisi, (32), 7-13.
Katore, L. S., & Umale, J. S. (2015). Comparative study of recommendation algorithms and systems using WEKA. International Journal of Computer Applications, 110 (3).
Kotu, V., & Deshpande, B. (2018). Data science: concepts and practice. Morgan Kaufmann. Kubus, M. (2020). Evaluation of resampling methods in the class unbalance problem. Econometrics, 24(1), 39-50.
Mirmozaffari, M., Golilarz, N. A., & Band, S. S. (2020). Machine learning algorithms based on an optimization model.
Nakatsu, R. T. (2020). An evaluation of four resampling methods used in machine learning classification. IEEE Intelligent Systems, 36(3), 51-57.
Nizam, H., & Akın, S. S. (2014). Sosyal medyada makine öğrenmesi ile duygu analizinde dengeli ve dengesiz veri setlerinin performanslarının karşılaştırılması. XIX. Türkiye'de İnternet Konferansı, 1-6.
Türkmenoğlu, B. K.,& Yıldız, O. (2021). Predicting the survival of heart failure patients in unbalanced data sets. In 2021 29th Signal Processing and Communications Applications Conference (SIU) (pp. 1-4). IEEE.
W. Sullivan, “ML For Beginners Guide Algorithms: Supervised & Unsupervised Learning, Decision Tree & Random Forest Introduction”, CreateSpace Independent Publishing Platform, 2017.

Toplam 19 adet kaynakça vardır.

Ayrıntılar

Birincil Dil	Türkçe
Konular	İstatistik (Diğer)
Bölüm	Makaleler
Yazarlar	Ömer Çağrı Yavuz 0000-0002-6655-3754
Yayımlanma Tarihi	30 Ocak 2025
Gönderilme Tarihi	27 Ağustos 2024
Kabul Tarihi	28 Kasım 2024
Yayımlandığı Sayı	Yıl 2025 Cilt: 18 Sayı: 1

Kaynak Göster

APA	Yavuz, Ö. Ç. (2025). MAKİNE ÖĞRENMESİNDE YENİDEN ÖRNEKLEME: ALGORİTMALARIN PERFORMANSLARINA YANSIMALARI. Ömer Halisdemir Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 18(1), 292-304. https://doi.org/10.25287/ohuiibf.1539535

Kapak Resmi İndir

Makale Dosyaları

Tam Metin

Ömer Halisdemir Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi Creative Commons Atıf-GayriTicari-AynıLisanslaPaylaş 4.0 Uluslararası Lisansı ile lisanslanmıştır.