Farklı alanlarda çeşitli uygulamalarda kullanılan makine öğrenmesi teknikleri karmaşık problemlerin çözümünde katkı sağlayarak gelişim göstermektedir. Bu teknikler verilerin işlenmesi, anlamlandırılması ve tahmini gibi çeşitli amaçlarla kullanılmaktadır. Karmaşık problemlerin çözümünde kullanılan sınıflandırma algoritmalarında giriş değerleri üzerinden etiketlenmiş çıkış değerleri tahmin edilmektedir. Ancak bu tür makine öğrenmesi uygulamalarında küme sayılarının dengesiz dağılımlarına bağlı olarak performans kayıpları yaşanmaktadır. Bu performans kayıplarının önüne geçmek amacıyla çeşitli yeniden örnekleme yöntemleri kullanılmaktadır. Alt örnekleme ve aşırı örnekleme olmak üzere iki farklı grupta ele alınan bu yöntemler veri setlerinde yer alan dengesizlikleri ortadan kaldırmak için sıklıkla kullanılır. Alt örnekleme yöntemleri kayıt sayısını sınıf sayısı düşük olan kayıtların sayısına yaklaştırmak amacıyla kullanılır. Aşırı örnekleme yöntemleri ise sınıf sayısı düşük olan kayıtların sayısını yükseltmek amacıyla kullanılır. Bu çalışma kapsamında çeşitli yeniden örnekleme yöntemlerinin makine öğrenmesi algoritmalarının performansları üzerindeki etkisinin ortaya konması amaçlanarak 569 kayıttan oluşan veri seti kullanılmıştır. İyi huylu ve kötü huylu olmak üzere iki farklı sınıftan oluşan göğüs kanseri kayıtlarına çeşitli yeniden örnekleme filtreleri uygulanmıştır. Sonrasında elde edilen veri setlerine dört farklı algoritma uygulanarak elde edilen performans metrikleri karşılaştırılarak sunulmuştur. Yapılan uygulamalar sonucunda yeniden örnekleme yöntemlerinin kullanımının makine öğrenmesi algoritmalarının performanslarına olumlu katkı sağladığı görülmüştür.
Machine learning techniques, used in various applications across different domains, contribute to the development by addressing complex problems. These techniques are utilized for various purposes such as processing, interpreting, and predicting data. In classification algorithms used to solve complex problems, labeled output values are predicted based on input values. However, in such machine learning applications, performance losses occur due to imbalanced distributions of clusters. To mitigate these performance losses, various resampling methods are used. These methods are categorized into two groups: undersampling and oversampling. Undersampling methods are used to approach the number of records to the number of records with low class counts. Oversampling methods, on the other hand, are used to increase the number of records with low class counts. In this study, a dataset consisting of 569 records was used to demonstrate the effect of various resampling methods on the performance of machine learning algorithms. Resampling filters were applied to breast cancer records belonging to two different classes: benign and malignant. Subsequently, performance metrics obtained by applying four algorithms to the resulting datasets were compared. The applications conducted revealed that the use of resampling methods positively contributes to the performance of machine learning algorithms.
Primary Language | Turkish |
---|---|
Subjects | Statistics (Other) |
Journal Section | Articles |
Authors | |
Publication Date | January 30, 2025 |
Submission Date | August 27, 2024 |
Acceptance Date | November 28, 2024 |
Published in Issue | Year 2025 Volume: 18 Issue: 1 |
Ömer Halisdemir Universitesi Iktisadi ve Idari Bilimler Fakültesi Dergisi (OHUIIBF) is licensed under the Creative Commons Attribution-Noncommercial-Pseudonymity License 4.0 international license.