EN
TR
NASA Metrics Data Program Veri Seti Üzerinde Yeniden Örnekleme Yöntemlerinin Yazılımda Hata Tahmini Başarımına Etkisi
Öz
NASA Metrics Data Program (MDP), NASA tarafından yürütülen ve çeşitli yazılım projelerinden elde edilen metrikleri ve hata bilgilerini içeren, araştırmalarda yaygın olarak kullanılan bir veri deposudur. Çok sayıda alt kümeye sahip NASA MDP verilerinde, çalışmanın kapsamını sınırlamak için uygun bir alt veri kümesinin seçilmesi uygun olacaktır. Bu amaçla, büyük ve dengesiz veriler içermesi nedeniyle JM1 alt kümesi tercih edilmiştir. JM1 üzerinde yeniden örnekleme tekniklerinin makine öğrenmesi modellerinin başarımına etkileri incelenmiştir. Bu kapsamda SMOTE, RUS, ROSE, ADASYN, Tomek Links, ENN, Near Miss ve Borderline-SMOTE gibi aşırı örnekleme, eksik örnekleme ve hibrit teknikler; Naive Bayes (NB), Destek Vektör Makineleri (DVM), Lojistik Regresyon (LR), Karar Ağacı (KA) ve Rastgele Orman (RO) sınıflandırıcıları ile birlikte değerlendirilmiştir. Sonuçlar, yeniden örnekleme uygulanmayan modellerin, özellikle azınlık sınıfı olarak tanımlanan hatalı modülleri tanımada düşük başarım sergilediğini; buna karşın genel doğruluk metriklerinde yanıltıcı şekilde yüksek değerler elde edebildiğini göstermektedir. Öte yandan, SMOTE+ENN gibi hibrit ve ROSE gibi aşırı örnekleme yöntemlerinin, özellikle Rastgele Orman ve Naive Bayes sınıflandırıcılarıyla birlikte kullanıldığında, AUC ve F1-ölçütü gibi dengesizliğe duyarlı metriklerde anlamlı iyileşmeler sağladığı gözlemlenmiştir. En iyi sonuç, SMOTE+ENN yöntemiyle birlikte kullanılan Rastgele Orman modeliyle elde edilmiş; 0,9350 doğruluk, 0,9837 AUC ve hatasız/hatalı modüller için sırasıyla 0,9126/0,9483 F1-ölçütü değerlerine ulaşılmıştır. Bu bulgular, yazılım hata tahmininde sınıf dengesizliğiyle mücadelede uygun yeniden örnekleme stratejilerinin seçiminin ve dengesizliğe duyarlı metriklerle değerlendirme yapılmasının önemini ortaya koymaktadır.
Anahtar Kelimeler
Etik Beyan
Bu araştırmada hayvanlar ve insanlar üzerinde herhangi bir çalışma yapılmadığı için etik kurul onayı alınmamıştır.
Kaynakça
- Abdelmoumin, G., Rawat, D. B., & Rahman, A. (2023). Studying imbalanced learning for anomaly-based intelligent IDS for mission-critical Internet of Things. Journal of Cybersecurity and Privacy, 3(4), 706–743.
- Agrawal, A., Menzies, T., Minku, L. L., Wagner, M., & Yu, Z. (2020). Better software analytics via “DUO”: Data mining algorithms using/used-by optimizers. Empirical Software Engineering, 25(3), 2099–2136.
- Alam, T. M., Shaukat, K., Khan, W. A., Hameed, I. A., Almuqren, L. A., Raza, M. A., Aslam, M., & Luo, S. (2022). An efficient deep learning-based skin cancer classifier for an imbalanced dataset. Diagnostics, 12(9), 2115.
- Aljawazneh, H., Mora, A. M., García-Sánchez, P., & Castillo-Valdivieso, P. A. (2021). Comparing the performance of deep learning methods to predict companies’ financial failure. IEEE Access, 9, 97010–97038.
- Arya, D. M., Nassif, M., & Robillard, M. P. (2021). A data-centric study of software tutorial design. IEEE Software, 39(3), 106–115.
- Ayoub, S., Gulzar, Y., Rustamov, J., Jabbari, A., Reegu, F. A., & Turaev, S. (2023). Adversarial approaches to tackle imbalanced data in machine learning. Sustainability, 15(9), 7097.
- Badvath, D., Miriyala, A. S., Gunupudi, S. C. K., & Kuricheti, P. V. K. (2022). Prediction of software defects using deep learning with improved cuckoo search algorithm. Concurrency and Computation: Practice and Experience, 34(26).
- Balogun, A. O., Basri, S., Abdulkadir, S. J., & Hashim, A. S. (2019). Performance analysis of feature selection methods in software defect prediction: A search method approach. Applied Sciences, 9(13), 2764.
Ayrıntılar
Birincil Dil
Türkçe
Konular
Bilgi Sistemleri (Diğer)
Bölüm
Araştırma Makalesi
Erken Görünüm Tarihi
4 Aralık 2025
Yayımlanma Tarihi
15 Ocak 2026
Gönderilme Tarihi
29 Eylül 2025
Kabul Tarihi
7 Kasım 2025
Yayımlandığı Sayı
Yıl 2026 Cilt: 9 Sayı: 1
APA
Yılmaz, E. C., & Oktaş, R. (2026). NASA Metrics Data Program Veri Seti Üzerinde Yeniden Örnekleme Yöntemlerinin Yazılımda Hata Tahmini Başarımına Etkisi. Black Sea Journal of Engineering and Science, 9(1), 41-52. https://doi.org/10.34248/bsengineering.1792907
AMA
1.Yılmaz EC, Oktaş R. NASA Metrics Data Program Veri Seti Üzerinde Yeniden Örnekleme Yöntemlerinin Yazılımda Hata Tahmini Başarımına Etkisi. BSJ Eng. Sci. 2026;9(1):41-52. doi:10.34248/bsengineering.1792907
Chicago
Yılmaz, Emre Can, ve Recai Oktaş. 2026. “NASA Metrics Data Program Veri Seti Üzerinde Yeniden Örnekleme Yöntemlerinin Yazılımda Hata Tahmini Başarımına Etkisi”. Black Sea Journal of Engineering and Science 9 (1): 41-52. https://doi.org/10.34248/bsengineering.1792907.
EndNote
Yılmaz EC, Oktaş R (01 Ocak 2026) NASA Metrics Data Program Veri Seti Üzerinde Yeniden Örnekleme Yöntemlerinin Yazılımda Hata Tahmini Başarımına Etkisi. Black Sea Journal of Engineering and Science 9 1 41–52.
IEEE
[1]E. C. Yılmaz ve R. Oktaş, “NASA Metrics Data Program Veri Seti Üzerinde Yeniden Örnekleme Yöntemlerinin Yazılımda Hata Tahmini Başarımına Etkisi”, BSJ Eng. Sci., c. 9, sy 1, ss. 41–52, Oca. 2026, doi: 10.34248/bsengineering.1792907.
ISNAD
Yılmaz, Emre Can - Oktaş, Recai. “NASA Metrics Data Program Veri Seti Üzerinde Yeniden Örnekleme Yöntemlerinin Yazılımda Hata Tahmini Başarımına Etkisi”. Black Sea Journal of Engineering and Science 9/1 (01 Ocak 2026): 41-52. https://doi.org/10.34248/bsengineering.1792907.
JAMA
1.Yılmaz EC, Oktaş R. NASA Metrics Data Program Veri Seti Üzerinde Yeniden Örnekleme Yöntemlerinin Yazılımda Hata Tahmini Başarımına Etkisi. BSJ Eng. Sci. 2026;9:41–52.
MLA
Yılmaz, Emre Can, ve Recai Oktaş. “NASA Metrics Data Program Veri Seti Üzerinde Yeniden Örnekleme Yöntemlerinin Yazılımda Hata Tahmini Başarımına Etkisi”. Black Sea Journal of Engineering and Science, c. 9, sy 1, Ocak 2026, ss. 41-52, doi:10.34248/bsengineering.1792907.
Vancouver
1.Emre Can Yılmaz, Recai Oktaş. NASA Metrics Data Program Veri Seti Üzerinde Yeniden Örnekleme Yöntemlerinin Yazılımda Hata Tahmini Başarımına Etkisi. BSJ Eng. Sci. 01 Ocak 2026;9(1):41-52. doi:10.34248/bsengineering.1792907