Research Article
BibTex RIS Cite

MAKİNE ÖĞRENMESİNDE YENİDEN ÖRNEKLEME: ALGORİTMALARIN PERFORMANSLARINA YANSIMALARI

Year 2025, Volume: 18 Issue: 1, 292 - 304, 30.01.2025

Abstract

Farklı alanlarda çeşitli uygulamalarda kullanılan makine öğrenmesi teknikleri karmaşık problemlerin çözümünde katkı sağlayarak gelişim göstermektedir. Bu teknikler verilerin işlenmesi, anlamlandırılması ve tahmini gibi çeşitli amaçlarla kullanılmaktadır. Karmaşık problemlerin çözümünde kullanılan sınıflandırma algoritmalarında giriş değerleri üzerinden etiketlenmiş çıkış değerleri tahmin edilmektedir. Ancak bu tür makine öğrenmesi uygulamalarında küme sayılarının dengesiz dağılımlarına bağlı olarak performans kayıpları yaşanmaktadır. Bu performans kayıplarının önüne geçmek amacıyla çeşitli yeniden örnekleme yöntemleri kullanılmaktadır. Alt örnekleme ve aşırı örnekleme olmak üzere iki farklı grupta ele alınan bu yöntemler veri setlerinde yer alan dengesizlikleri ortadan kaldırmak için sıklıkla kullanılır. Alt örnekleme yöntemleri kayıt sayısını sınıf sayısı düşük olan kayıtların sayısına yaklaştırmak amacıyla kullanılır. Aşırı örnekleme yöntemleri ise sınıf sayısı düşük olan kayıtların sayısını yükseltmek amacıyla kullanılır. Bu çalışma kapsamında çeşitli yeniden örnekleme yöntemlerinin makine öğrenmesi algoritmalarının performansları üzerindeki etkisinin ortaya konması amaçlanarak 569 kayıttan oluşan veri seti kullanılmıştır. İyi huylu ve kötü huylu olmak üzere iki farklı sınıftan oluşan göğüs kanseri kayıtlarına çeşitli yeniden örnekleme filtreleri uygulanmıştır. Sonrasında elde edilen veri setlerine dört farklı algoritma uygulanarak elde edilen performans metrikleri karşılaştırılarak sunulmuştur. Yapılan uygulamalar sonucunda yeniden örnekleme yöntemlerinin kullanımının makine öğrenmesi algoritmalarının performanslarına olumlu katkı sağladığı görülmüştür.

References

  • Alahmari, F. (2020). A comparison of resampling techniques for medical data using machine learning. Journal of Information & Knowledge Management, 19(01), 2040016.
  • Aydın, M. A. (2022). Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi. Politeknik Dergisi, 2022, 25 (1), 351-360.
  • Caruana, R., & Niculescu-Mizil, A. (2006). Denetimli öğrenme algoritmalarının ampirik bir karşılaştırması. 23. Uluslararası Makine Öğrenimi Konferansı Bildiri Kitabı, s. 161-168.
  • Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. IEEE Transactions on Information Theory, 13(1), 21–27.
  • Dua, D., & Graff, C. (2019). “UCI ML Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science, 2019.
  • Ercire, M., Ünsal, A. (2021). Kısa süreli güç kalitesi bozulmalarının dalgacık analizi ve rastgele orman yöntemi ile sınıflandırılması. Uludağ Üniversitesi Mühendislik Fakültesi Dergisi, 26(3), 903-920.
  • Estabrooks, A., Jo, T., & Japkowicz, N. (2004). A multiple resampling method for learning from imbalanced data sets. Computational intelligence, 20(1), 18-36.
  • Fernández, A., Garcia, S., Herrera, F., & Chawla, N. V. (2018). SMOTE for learning from imbalanced data: progress and challenges, marking the 15-year anniversary. Journal of Artificial Intelligence Research, 61, 863-905.
  • Ghorbani, R., & Ghousi, R. (2020). Comparing different resampling methods in predicting students’ performance using machine learning techniques. IEEE Access, 8, 67899-67911.
  • Goy, G., Gezer, C., & Gungor, V. C. (2019, September). Credit Card Fraud Detection with Machine Learning Methods. In 2019 4th International Conference on Computer Science and Engineering (UBMK), pp. 350-354. IEEE.
  • Gupta, V. (2017). Classification of satisfaction level based on survey questions and features selection using decision trees.
  • Harman G. (2021). Destek vektör makineleri ve naive bayes sınıflandırma algoritmalarını kullanarak diabetes mellitus tahmini. Avrupa Bilim ve Teknoloji Dergisi, (32), 7-13.
  • Katore, L. S., & Umale, J. S. (2015). Comparative study of recommendation algorithms and systems using WEKA. International Journal of Computer Applications, 110 (3).
  • Kotu, V., & Deshpande, B. (2018). Data science: concepts and practice. Morgan Kaufmann. Kubus, M. (2020). Evaluation of resampling methods in the class unbalance problem. Econometrics, 24(1), 39-50.
  • Mirmozaffari, M., Golilarz, N. A., & Band, S. S. (2020). Machine learning algorithms based on an optimization model.
  • Nakatsu, R. T. (2020). An evaluation of four resampling methods used in machine learning classification. IEEE Intelligent Systems, 36(3), 51-57.
  • Nizam, H., & Akın, S. S. (2014). Sosyal medyada makine öğrenmesi ile duygu analizinde dengeli ve dengesiz veri setlerinin performanslarının karşılaştırılması. XIX. Türkiye'de İnternet Konferansı, 1-6.
  • Türkmenoğlu, B. K.,& Yıldız, O. (2021). Predicting the survival of heart failure patients in unbalanced data sets. In 2021 29th Signal Processing and Communications Applications Conference (SIU) (pp. 1-4). IEEE.
  • W. Sullivan, “ML For Beginners Guide Algorithms: Supervised & Unsupervised Learning, Decision Tree & Random Forest Introduction”, CreateSpace Independent Publishing Platform, 2017.

RESAMPLING IN MACHINE LEARNING: IMPLICATIONS FOR ALGORITHM PERFORMANCES

Year 2025, Volume: 18 Issue: 1, 292 - 304, 30.01.2025

Abstract

Machine learning techniques, used in various applications across different domains, contribute to the development by addressing complex problems. These techniques are utilized for various purposes such as processing, interpreting, and predicting data. In classification algorithms used to solve complex problems, labeled output values are predicted based on input values. However, in such machine learning applications, performance losses occur due to imbalanced distributions of clusters. To mitigate these performance losses, various resampling methods are used. These methods are categorized into two groups: undersampling and oversampling. Undersampling methods are used to approach the number of records to the number of records with low class counts. Oversampling methods, on the other hand, are used to increase the number of records with low class counts. In this study, a dataset consisting of 569 records was used to demonstrate the effect of various resampling methods on the performance of machine learning algorithms. Resampling filters were applied to breast cancer records belonging to two different classes: benign and malignant. Subsequently, performance metrics obtained by applying four algorithms to the resulting datasets were compared. The applications conducted revealed that the use of resampling methods positively contributes to the performance of machine learning algorithms.

References

  • Alahmari, F. (2020). A comparison of resampling techniques for medical data using machine learning. Journal of Information & Knowledge Management, 19(01), 2040016.
  • Aydın, M. A. (2022). Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi. Politeknik Dergisi, 2022, 25 (1), 351-360.
  • Caruana, R., & Niculescu-Mizil, A. (2006). Denetimli öğrenme algoritmalarının ampirik bir karşılaştırması. 23. Uluslararası Makine Öğrenimi Konferansı Bildiri Kitabı, s. 161-168.
  • Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. IEEE Transactions on Information Theory, 13(1), 21–27.
  • Dua, D., & Graff, C. (2019). “UCI ML Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science, 2019.
  • Ercire, M., Ünsal, A. (2021). Kısa süreli güç kalitesi bozulmalarının dalgacık analizi ve rastgele orman yöntemi ile sınıflandırılması. Uludağ Üniversitesi Mühendislik Fakültesi Dergisi, 26(3), 903-920.
  • Estabrooks, A., Jo, T., & Japkowicz, N. (2004). A multiple resampling method for learning from imbalanced data sets. Computational intelligence, 20(1), 18-36.
  • Fernández, A., Garcia, S., Herrera, F., & Chawla, N. V. (2018). SMOTE for learning from imbalanced data: progress and challenges, marking the 15-year anniversary. Journal of Artificial Intelligence Research, 61, 863-905.
  • Ghorbani, R., & Ghousi, R. (2020). Comparing different resampling methods in predicting students’ performance using machine learning techniques. IEEE Access, 8, 67899-67911.
  • Goy, G., Gezer, C., & Gungor, V. C. (2019, September). Credit Card Fraud Detection with Machine Learning Methods. In 2019 4th International Conference on Computer Science and Engineering (UBMK), pp. 350-354. IEEE.
  • Gupta, V. (2017). Classification of satisfaction level based on survey questions and features selection using decision trees.
  • Harman G. (2021). Destek vektör makineleri ve naive bayes sınıflandırma algoritmalarını kullanarak diabetes mellitus tahmini. Avrupa Bilim ve Teknoloji Dergisi, (32), 7-13.
  • Katore, L. S., & Umale, J. S. (2015). Comparative study of recommendation algorithms and systems using WEKA. International Journal of Computer Applications, 110 (3).
  • Kotu, V., & Deshpande, B. (2018). Data science: concepts and practice. Morgan Kaufmann. Kubus, M. (2020). Evaluation of resampling methods in the class unbalance problem. Econometrics, 24(1), 39-50.
  • Mirmozaffari, M., Golilarz, N. A., & Band, S. S. (2020). Machine learning algorithms based on an optimization model.
  • Nakatsu, R. T. (2020). An evaluation of four resampling methods used in machine learning classification. IEEE Intelligent Systems, 36(3), 51-57.
  • Nizam, H., & Akın, S. S. (2014). Sosyal medyada makine öğrenmesi ile duygu analizinde dengeli ve dengesiz veri setlerinin performanslarının karşılaştırılması. XIX. Türkiye'de İnternet Konferansı, 1-6.
  • Türkmenoğlu, B. K.,& Yıldız, O. (2021). Predicting the survival of heart failure patients in unbalanced data sets. In 2021 29th Signal Processing and Communications Applications Conference (SIU) (pp. 1-4). IEEE.
  • W. Sullivan, “ML For Beginners Guide Algorithms: Supervised & Unsupervised Learning, Decision Tree & Random Forest Introduction”, CreateSpace Independent Publishing Platform, 2017.
There are 19 citations in total.

Details

Primary Language Turkish
Subjects Statistics (Other)
Journal Section Articles
Authors

Ömer Çağrı Yavuz 0000-0002-6655-3754

Publication Date January 30, 2025
Submission Date August 27, 2024
Acceptance Date November 28, 2024
Published in Issue Year 2025 Volume: 18 Issue: 1

Cite

APA Yavuz, Ö. Ç. (2025). MAKİNE ÖĞRENMESİNDE YENİDEN ÖRNEKLEME: ALGORİTMALARIN PERFORMANSLARINA YANSIMALARI. Ömer Halisdemir Üniversitesi İktisadi Ve İdari Bilimler Fakültesi Dergisi, 18(1), 292-304.

Creative Commons Lisansı
Ömer Halisdemir Universitesi Iktisadi ve Idari Bilimler Fakültesi Dergisi (OHUIIBF) is licensed under the Creative Commons Attribution-Noncommercial-Pseudonymity License 4.0 international license.