Yazılım
kalitesinin somut bir şekilde ölçülebilmesi için kullanılan sayısal yazılım
metrikleri içinde bilinen ve yaygın şekilde kullanılanlar arasında McCabe ve
Halstead yöntem-seviye metrikleri bulunmaktadır. Yazılım hata tahmini, geliştirilecek
olan yazılımda bulunan alt modüllerin hangisi veya hangilerinin daha çok hataya
meyilli olabileceğini konusunda öngörüde bulunabilmektedir. Böylece işgücü ve
zaman konusundaki kayıpların önüne geçilebilmektedir. Yazılım hata tahmini için
kullanılan veri kümelerinde, hata var sınıflı kayıt sayısı, hata yok sınıflı
kayıt sayısına göre daha az sayıda olabildiğinden bu veri kümeleri genellikle
dengeli olmayan bir sınıf dağılımına sahip olmakta ve makine öğrenme
yöntemlerinin sonuçlarını olumsuz etkilemektedir. Bilgi kazancı, karar ağaçları
ve karar ağacı temeline dayanan kural sınıflayıcı, nitelik seçimi gibi
algoritma ve yöntemlerde kullanılmaktadır. Bu çalışmada, yazılım hata tahmini
için önemli bilgiler sunan yazılım metrikleri incelenmiş, NASA’nın PROMISE
yazılım veri deposundan CM1, JM1, KC1 ve PC1 veri kümeleri sentetik veri
artırım Smote algoritması ile daha dengeli hale getirilerek bilgi kazancı
yönünden iyileştirilmiştir. Sonuçta karar ağaçlarında sınıflama başarı
performansı daha yüksek yazılım hata tahmini veri kümeleri ve bilgi kazanç
oranı yükseltilmiş yazılım metrik değerleri elde edilmiştir.
McCabe and Halstead
method-level metrics are among the well-known and widely used quantitative
software metrics are used to measure software quality in a concrete way.
Software defect prediction can guess which or which of the sub-modules in the
software to be developed may be more prone to defect. Thus, loss of labor and
time can be avoided. The datasets which are used for software defect prediction,
usually have an unbalanced class distribution, since the number of records with
defective class can be fewer than the number of records with not defective
class and this situation adversely affect the results of the machine learning
methods. Information gain is employed in decision trees and decision tree based
rule classifier and attribute selection methods. In this study, software
metrics that provide important information for software defect prediction have
been investigated and CM1, JM1, KC1 and PC1 datasets of NASA's PROMISE software
repository have been balanced with the synthetic data over-sampling Smote
algorithm and improved in terms of information gain. As a result, the software
defect prediction datasets with higher classification success performance and
the software metrics with increased information gain ratio are obtained in
the decision trees.
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Research Article |
Authors | |
Publication Date | October 12, 2018 |
Published in Issue | Year 2018 Volume: 24 Issue: 5 |