MAKİNE ÖĞRENMESİNDE YENİDEN ÖRNEKLEME: ALGORİTMALARIN PERFORMANSLARINA YANSIMALARI

Ömer Çağrı Yavuz

doi:10.25287/ohuiibf.1539535

EN TR

RESAMPLING IN MACHINE LEARNING: IMPLICATIONS FOR ALGORITHM PERFORMANCES

Abstract

Machine learning techniques, used in various applications across different domains, contribute to the development by addressing complex problems. These techniques are utilized for various purposes such as processing, interpreting, and predicting data. In classification algorithms used to solve complex problems, labeled output values are predicted based on input values. However, in such machine learning applications, performance losses occur due to imbalanced distributions of clusters. To mitigate these performance losses, various resampling methods are used. These methods are categorized into two groups: undersampling and oversampling. Undersampling methods are used to approach the number of records to the number of records with low class counts. Oversampling methods, on the other hand, are used to increase the number of records with low class counts. In this study, a dataset consisting of 569 records was used to demonstrate the effect of various resampling methods on the performance of machine learning algorithms. Resampling filters were applied to breast cancer records belonging to two different classes: benign and malignant. Subsequently, performance metrics obtained by applying four algorithms to the resulting datasets were compared. The applications conducted revealed that the use of resampling methods positively contributes to the performance of machine learning algorithms.

Keywords

Machine Learning, Resampling, Classification, Performance Metrics

MAKİNE ÖĞRENMESİNDE YENİDEN ÖRNEKLEME: ALGORİTMALARIN PERFORMANSLARINA YANSIMALARI

Abstract

Farklı alanlarda çeşitli uygulamalarda kullanılan makine öğrenmesi teknikleri karmaşık problemlerin çözümünde katkı sağlayarak gelişim göstermektedir. Bu teknikler verilerin işlenmesi, anlamlandırılması ve tahmini gibi çeşitli amaçlarla kullanılmaktadır. Karmaşık problemlerin çözümünde kullanılan sınıflandırma algoritmalarında giriş değerleri üzerinden etiketlenmiş çıkış değerleri tahmin edilmektedir. Ancak bu tür makine öğrenmesi uygulamalarında küme sayılarının dengesiz dağılımlarına bağlı olarak performans kayıpları yaşanmaktadır. Bu performans kayıplarının önüne geçmek amacıyla çeşitli yeniden örnekleme yöntemleri kullanılmaktadır. Alt örnekleme ve aşırı örnekleme olmak üzere iki farklı grupta ele alınan bu yöntemler veri setlerinde yer alan dengesizlikleri ortadan kaldırmak için sıklıkla kullanılır. Alt örnekleme yöntemleri kayıt sayısını sınıf sayısı düşük olan kayıtların sayısına yaklaştırmak amacıyla kullanılır. Aşırı örnekleme yöntemleri ise sınıf sayısı düşük olan kayıtların sayısını yükseltmek amacıyla kullanılır. Bu çalışma kapsamında çeşitli yeniden örnekleme yöntemlerinin makine öğrenmesi algoritmalarının performansları üzerindeki etkisinin ortaya konması amaçlanarak 569 kayıttan oluşan veri seti kullanılmıştır. İyi huylu ve kötü huylu olmak üzere iki farklı sınıftan oluşan göğüs kanseri kayıtlarına çeşitli yeniden örnekleme filtreleri uygulanmıştır. Sonrasında elde edilen veri setlerine dört farklı algoritma uygulanarak elde edilen performans metrikleri karşılaştırılarak sunulmuştur. Yapılan uygulamalar sonucunda yeniden örnekleme yöntemlerinin kullanımının makine öğrenmesi algoritmalarının performanslarına olumlu katkı sağladığı görülmüştür.

Keywords

Makine Öğrenmesi, Yeniden Örnekleme, Sınıflandırma, Performans Metrikleri

References

Alahmari, F. (2020). A comparison of resampling techniques for medical data using machine learning. Journal of Information & Knowledge Management, 19(01), 2040016.
Aydın, M. A. (2022). Müşteri Kaybı Tahmininde Sınıf Dengesizliği Problemi. Politeknik Dergisi, 2022, 25 (1), 351-360.
Caruana, R., & Niculescu-Mizil, A. (2006). Denetimli öğrenme algoritmalarının ampirik bir karşılaştırması. 23. Uluslararası Makine Öğrenimi Konferansı Bildiri Kitabı, s. 161-168.
Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. IEEE Transactions on Information Theory, 13(1), 21–27.
Dua, D., & Graff, C. (2019). “UCI ML Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science, 2019.
Ercire, M., Ünsal, A. (2021). Kısa süreli güç kalitesi bozulmalarının dalgacık analizi ve rastgele orman yöntemi ile sınıflandırılması. Uludağ Üniversitesi Mühendislik Fakültesi Dergisi, 26(3), 903-920.
Estabrooks, A., Jo, T., & Japkowicz, N. (2004). A multiple resampling method for learning from imbalanced data sets. Computational intelligence, 20(1), 18-36.
Fernández, A., Garcia, S., Herrera, F., & Chawla, N. V. (2018). SMOTE for learning from imbalanced data: progress and challenges, marking the 15-year anniversary. Journal of Artificial Intelligence Research, 61, 863-905.
Ghorbani, R., & Ghousi, R. (2020). Comparing different resampling methods in predicting students’ performance using machine learning techniques. IEEE Access, 8, 67899-67911.
Goy, G., Gezer, C., & Gungor, V. C. (2019, September). Credit Card Fraud Detection with Machine Learning Methods. In 2019 4th International Conference on Computer Science and Engineering (UBMK), pp. 350-354. IEEE.

Gupta, V. (2017). Classification of satisfaction level based on survey questions and features selection using decision trees.
Harman G. (2021). Destek vektör makineleri ve naive bayes sınıflandırma algoritmalarını kullanarak diabetes mellitus tahmini. Avrupa Bilim ve Teknoloji Dergisi, (32), 7-13.
Katore, L. S., & Umale, J. S. (2015). Comparative study of recommendation algorithms and systems using WEKA. International Journal of Computer Applications, 110 (3).
Kotu, V., & Deshpande, B. (2018). Data science: concepts and practice. Morgan Kaufmann. Kubus, M. (2020). Evaluation of resampling methods in the class unbalance problem. Econometrics, 24(1), 39-50.
Mirmozaffari, M., Golilarz, N. A., & Band, S. S. (2020). Machine learning algorithms based on an optimization model.
Nakatsu, R. T. (2020). An evaluation of four resampling methods used in machine learning classification. IEEE Intelligent Systems, 36(3), 51-57.
Nizam, H., & Akın, S. S. (2014). Sosyal medyada makine öğrenmesi ile duygu analizinde dengeli ve dengesiz veri setlerinin performanslarının karşılaştırılması. XIX. Türkiye'de İnternet Konferansı, 1-6.
Türkmenoğlu, B. K.,& Yıldız, O. (2021). Predicting the survival of heart failure patients in unbalanced data sets. In 2021 29th Signal Processing and Communications Applications Conference (SIU) (pp. 1-4). IEEE.
W. Sullivan, “ML For Beginners Guide Algorithms: Supervised & Unsupervised Learning, Decision Tree & Random Forest Introduction”, CreateSpace Independent Publishing Platform, 2017.

Details

Primary Language

Turkish

Subjects

Statistics (Other)

Journal Section

Research Article

Authors

Ömer Çağrı Yavuz ^*
0000-0002-6655-3754
Türkiye

Publication Date

January 30, 2025

Submission Date

August 27, 2024

Acceptance Date

November 28, 2024

Published in Issue

Year 2025 Volume: 18 Number: 1

DOI

https://doi.org/10.25287/ohuiibf.1539535

IZ

https://izlik.org/JA74TH93ZS

APA

Yavuz, Ö. Ç. (2025). MAKİNE ÖĞRENMESİNDE YENİDEN ÖRNEKLEME: ALGORİTMALARIN PERFORMANSLARINA YANSIMALARI. Ömer Halisdemir Üniversitesi İktisadi Ve İdari Bilimler Fakültesi Dergisi, 18(1), 292-304. https://doi.org/10.25287/ohuiibf.1539535

AMA

1.Yavuz ÖÇ. MAKİNE ÖĞRENMESİNDE YENİDEN ÖRNEKLEME: ALGORİTMALARIN PERFORMANSLARINA YANSIMALARI. Ömer Halisdemir Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi. 2025;18(1):292-304. doi:10.25287/ohuiibf.1539535

Chicago

Yavuz, Ömer Çağrı. 2025. “MAKİNE ÖĞRENMESİNDE YENİDEN ÖRNEKLEME: ALGORİTMALARIN PERFORMANSLARINA YANSIMALARI”. Ömer Halisdemir Üniversitesi İktisadi Ve İdari Bilimler Fakültesi Dergisi 18 (1): 292-304. https://doi.org/10.25287/ohuiibf.1539535.

EndNote

Yavuz ÖÇ (January 1, 2025) MAKİNE ÖĞRENMESİNDE YENİDEN ÖRNEKLEME: ALGORİTMALARIN PERFORMANSLARINA YANSIMALARI. Ömer Halisdemir Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi 18 1 292–304.

IEEE

[1]Ö. Ç. Yavuz, “MAKİNE ÖĞRENMESİNDE YENİDEN ÖRNEKLEME: ALGORİTMALARIN PERFORMANSLARINA YANSIMALARI”, Ömer Halisdemir Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, vol. 18, no. 1, pp. 292–304, Jan. 2025, doi: 10.25287/ohuiibf.1539535.

ISNAD

Yavuz, Ömer Çağrı. “MAKİNE ÖĞRENMESİNDE YENİDEN ÖRNEKLEME: ALGORİTMALARIN PERFORMANSLARINA YANSIMALARI”. Ömer Halisdemir Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi 18/1 (January 1, 2025): 292-304. https://doi.org/10.25287/ohuiibf.1539535.

JAMA

1.Yavuz ÖÇ. MAKİNE ÖĞRENMESİNDE YENİDEN ÖRNEKLEME: ALGORİTMALARIN PERFORMANSLARINA YANSIMALARI. Ömer Halisdemir Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi. 2025;18:292–304.

MLA

Yavuz, Ömer Çağrı. “MAKİNE ÖĞRENMESİNDE YENİDEN ÖRNEKLEME: ALGORİTMALARIN PERFORMANSLARINA YANSIMALARI”. Ömer Halisdemir Üniversitesi İktisadi Ve İdari Bilimler Fakültesi Dergisi, vol. 18, no. 1, Jan. 2025, pp. 292-04, doi:10.25287/ohuiibf.1539535.

Vancouver

1.Ömer Çağrı Yavuz. MAKİNE ÖĞRENMESİNDE YENİDEN ÖRNEKLEME: ALGORİTMALARIN PERFORMANSLARINA YANSIMALARI. Ömer Halisdemir Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi. 2025 Jan. 1;18(1):292-304. doi:10.25287/ohuiibf.1539535

Ömer Halisdemir Universitesi Iktisadi ve Idari Bilimler Fakültesi Dergisi (OHUIIBF) is licensed under the Creative Commons Attribution-Noncommercial-Pseudonymity License 4.0 international license.

RESAMPLING IN MACHINE LEARNING: IMPLICATIONS FOR ALGORITHM PERFORMANCES

Abstract

Keywords

MAKİNE ÖĞRENMESİNDE YENİDEN ÖRNEKLEME: ALGORİTMALARIN PERFORMANSLARINA YANSIMALARI

Abstract

Keywords

References

Details

Primary Language

Subjects

Journal Section

Authors

Publication Date

Submission Date

Acceptance Date

Published in Issue

DOI

IZ

Cite