Makine öğrenimi alanında, dengesiz veri kümeleriyle başa çıkmak önemli bir zorluk olmaya devam etmekte olup, genellikle çeşitli örnekleme teknikleriyle ele alınmaktadır. Bu teknikler arasında, Düzeltilmiş En Yakın Komşu (ENN) alt örnekleme yöntemi, sınıflandırıcı performansını artırma ve sınıf dengesizliğini azaltma yeteneğiyle geniş çapta tanınmaktadır. Ancak geleneksel ENN yönteminin, potansiyel olarak bilgilendirici örneklerin kaldırılması ve karmaşık veri kümelerinde yetersiz performans gibi sınırlamaları vardır. Bu makale, k-Nearest Neighbors (k-NN) yaklaşımını kullanarak örnek kaldırma sürecini iyileştiren ENN alt örnekleme yönteminin geliştirilmiş bir versiyonunu sunmaktadır. Önerilen yöntem, geleneksel ENN'yi, bilgilendirici örnekleri daha iyi korurken aynı zamanda gürültüyü etkili bir şekilde azaltan k-NN algoritmasına dayalı daha gelişmiş bir komşu değerlendirme kriteri ekleyerek iyileştirmektedir. Birçok benchmark veri kümesinde yapılan kapsamlı deneylerle, geliştirilmiş ENN yöntemimizin sınıflandırma doğruluğu, F1 skoru ve AUC açısından geleneksel ENN ve diğer en son alt örnekleme tekniklerine kıyasla üstün performans sergilediğini gösteriyoruz. Sonuçlar, geliştirilmiş ENN yönteminin yalnızca sınıf dengesizliği sorununu daha etkili bir şekilde hafifletmekle kalmayıp, aynı zamanda veri bütünlüğünü daha yüksek seviyede koruduğunu ve böylece makine öğrenimi modellerinin dayanıklılığını ve güvenilirliğini artırdığını göstermektedir. Bu ilerleme, dengesiz veri kümeleriyle çalışan uygulayıcılar için değerli bir araç sunarak, daha doğru ve verimli tahmin modellerinin geliştirilmesine katkıda bulunmaktadır.
In the field of machine learning, handling imbalanced datasets remains a critical challenge, often addressed through various sampling techniques. Among these techniques, the Edited Nearest Neighbor (ENN) undersampling method is widely recognized for its ability to enhance classifier performance by reducing class imbalance. However, the traditional ENN method has limitations, such as the removal of potentially informative instances and suboptimal performance in complex datasets. This paper presents an improved version of the ENN undersampling method, leveraging the k-Nearest Neighbors (kNN) approach to refine the selection process for instance removal. The proposed method improves upon the traditional ENN by incorporating a more sophisticated neighbor evaluation criterion based on the k-NN algorithm, which better preserves informative instances while effectively reducing noise. Through extensive experiments on multiple benchmark datasets, we demonstrate that our improved ENN method achieves superior performance in terms of classification accuracy, F1-score, and AUC, compared to the traditional ENN and other state-of-the-art undersampling techniques. The results indicate that the improved ENN method not only mitigates the class imbalance problem more effectively but also maintains a higher level of data integrity, thereby enhancingthe robustness and reliability of machine learning models. This advancement provides a valuable tool for practitioners dealing with imbalanced datasets, contributing to the development of more accurate and efficient predictive models.
Birincil Dil | İngilizce |
---|---|
Konular | Performans Değerlendirmesi |
Bölüm | Araştırma Makalesi |
Yazarlar | |
Erken Görünüm Tarihi | 25 Eylül 2025 |
Yayımlanma Tarihi | 29 Eylül 2025 |
Gönderilme Tarihi | 2 Ekim 2024 |
Kabul Tarihi | 16 Kasım 2024 |
Yayımlandığı Sayı | Yıl 2025 Cilt: 27 Sayı: 81 |
Dokuz Eylül Üniversitesi, Mühendislik Fakültesi Dekanlığı Tınaztepe Yerleşkesi, Adatepe Mah. Doğuş Cad. No: 207-I / 35390 Buca-İZMİR.