Test verisi verilmediği sürece, bir sınıflandırıcının performansı çapraz doğrulama yöntemleri yardımıyla hesaplanır. Mevcut modeller, katman sayısı, dengeli sınıf dağılımı, test veri boyutu gibi farklı parametrelere odaklanmaktadır. Ancak bu modeller, yanlılık-varyans dengesini aşamamaktadır. Katman sayısı ve test boyutunun seçimi genellikle rastgeledir. Bu çalışmada, örnek sırası, test boyutu, ağırlık ve eksik veri dayanıklılığına dayalı çok parametreli çapraz doğrulama yöntemi (MP-OSW-CV) önerilmektedir. Bu yöntem dört parametreden oluşmaktadır: sıra, boyut, ağırlık ve eksik veri. İlk olarak, veri kümesini veri indislerine göre farklı parçalara ayırır ve tüm veri kümesinden rastgele örnekler seçmek yerine, her parçadan eşit sayıda rastgele örnek seçer. İkinci olarak, test katman boyutu değiştirilir. Farklı test boyutlarıyla elde edilen doğruluk sonuçları, genel performansa ya eşit ağırlıklarla ya da ters orantılı olarak hesaplanan iki farklı ağırlıklandırma yöntemiyle yansıtılır. Son olarak, eksik veri dayanıklılığı analiz edilecekse, test kümesi oluşturulduktan sonra eğitim kümesi boyutu son parametre ile belirlenir. Önerilen yöntem, UCI ML Repository’den alınan bazı veri kümeleri ile geleneksel yöntemlerle karşılaştırılmıştır. Bulgularımız, MP-OSW-CV’nin referans hatasına kıyasla en küçük hata sapmalarını sağladığını göstermektedir. MP-OSW-CV, veri kümesini daha iyi temsil eden bölmeler üreterek modelin daha güvenilir bir şekilde değerlendirilmesine olanak tanımıştır. Bu durum, güvenilir bir model değerlendirmesi için sıra ve test boyutunun bütüncül olarak ele alınmasının önemini vurgulamaktadır.
Unless test data is given, the performance of a classifier is calculated with the help of cross validation methods. The existing models focus on different parameters like number of folds, balanced class distribution, test data size etc. However, these models can not overcome bias-variance tradeoff. In this paper, we propose the multi-parametrized cross validation method based on order of an instance, test fold size, weight, and missing data robustness (MP-OSW-CV). This method is composed of four parameters: order, size, weight, and missing data. Firstly, it divides dataset into different parts concerning data indexes and chooses randomly equal number of samples from each part instead of selecting random samples from the whole dataset. Secondly, the test fold size is varied. The accuracy results generated by different test sizes is reflected to the overall performance either with same weights or two different types of inversely proportionally calculated weights. Finally, train size is determined by the last parameter after creating the test fold if missing data robustness is to be analyzed. The proposed method is compared to conventional methods with some datasets from UCI ML Repository. MP-OSW-CV generated more representative data splits, leading to more dependable model assessments.
Primary Language | English |
---|---|
Subjects | Machine Learning (Other) |
Journal Section | Research Article |
Authors | |
Early Pub Date | September 23, 2025 |
Publication Date | October 14, 2025 |
Submission Date | April 9, 2025 |
Acceptance Date | July 29, 2025 |
Published in Issue | Year 2025 EARLY VIEW |
This work is licensed under Creative Commons Attribution-ShareAlike 4.0 International.