Bu çalışma, makine öğrenmesi alanında sıkça karşılaşılan dengesiz veri sorununu ele alarak, azınlık sınıf örneklerinin çoğunluk sınıf tarafından gölgede bırakıldığı durumlara odaklanmaktadır. Böyle bir dengesizlik, sağlık hizmetlerinden finansal sahtekârlık tespitine ve IoT tabanlı endüstriyel süreçlere kadar pek çok alanda model performansını ciddi biçimde zayıflatır. Sorunu gidermek için, azınlık sınıfını sentetik örneklerle zenginleştiren ADASYN yöntemi, SVM tabanlı uzaklık ölçümüyle belirlenen “en uzak” %10’luk çoğunluk örneklerinin çıkarılmasıyla birleştirilmiştir. Önerilen yaklaşım, SVM, RF, XGBoost ve KNN sınıflandırıcılarıyla on farklı veri seti üzerinde test edilmiştir. Bunlar arasında hem kalite kontrol verilerini hem de IoT sensör ölçümlerini içeren, gerçek üretim ortamından elde edilmiş 'Tekstil' veri seti de yer almaktadır. Özellikle iplik kopması gibi nadir ancak üretim açısından kritik olayları barındıran bu veri seti, yoğun dengesizlik nedeniyle standart yöntemlerde düşük başarı sergilemektedir. G-Ortalamalar metriğinde önemli iyileşmeler sunan yöntem, azınlık sınıfın daha başarılı tespitine katkıda bulunmuş ve on veri setinden beşinde en yüksek G-Ortalamalar değerini elde etmiştir.
This study tackles the frequently encountered problem of imbalanced datasets in machine learning, focusing on cases where minority-class examples are overshadowed by the majority class. Such imbalance significantly undermines model performance in diverse fields, including healthcare, fraud detection, and IoT-based industrial processes. To address this issue, we combine the ADASYN method—enriching the minority class with synthetic samples—with the removal of the “most distant” 10% of majority-class instances identified via an SVM-based distance measure. The proposed approach is tested with SVM, RF, XGBoost, and KNN classifiers on ten different datasets. Among these is the “Textile” dataset, which includes both quality control data and IoT sensor measurements and was collected from a real world production environment. Notably, this dataset includes rare yet critical events such as yarn breakage, which standard methods fail to detect effectively due to pronounced class imbalance. Our approach achieves considerable enhancements in the G-Mean metric, thereby improving the detection of minority cases and securing the highest G-Mean values on five out of ten datasets.
| Primary Language | Turkish |
|---|---|
| Subjects | Industrial Engineering, Manufacturing and Industrial Engineering (Other) |
| Journal Section | Research Article |
| Authors | |
| Submission Date | June 18, 2025 |
| Acceptance Date | November 4, 2025 |
| Early Pub Date | December 11, 2025 |
| Publication Date | December 19, 2025 |
| Published in Issue | Year 2025 Volume: 30 Issue: 3 |
Announcements:
30.03.2021-Beginning with our April 2021 (26/1) issue, in accordance with the new criteria of TR-Dizin, the Declaration of Conflict of Interest and the Declaration of Author Contribution forms fulfilled and signed by all authors are required as well as the Copyright form during the initial submission of the manuscript. Furthermore two new sections, i.e. ‘Conflict of Interest’ and ‘Author Contribution’, should be added to the manuscript. Links of those forms that should be submitted with the initial manuscript can be found in our 'Author Guidelines' and 'Submission Procedure' pages. The manuscript template is also updated. For articles reviewed and accepted for publication in our 2021 and ongoing issues and for articles currently under review process, those forms should also be fulfilled, signed and uploaded to the system by authors.