Software module dependency prediction is a critical task in modern software engineering for preventing future connectivity issues and improving system sustainability. This study proposes a Graph Convolutional Network (GCN) based framework to predict potential inter-module dependencies using comprehensive software metrics. Experiments were conducted on the complete NASA JM1 dataset (10,885 modules), selected for its scale and extensive use in software engineering research. All 21 software metrics were utilized without dimensionality reduction. A K-Nearest Neighbors (KNN) graph modeling approach (k=8) with a cosine similarity threshold of 0.2 captured structural relationships, producing 85,002 training edges across 15 connected components. The proposed three-layer residual GCN architecture (21→128→128→64) integrates ReLU activation, 30% dropout, and residual skip connections, along with a link-prediction-oriented data partitioning strategy. The model achieved strong performance with 97.58% AUC, 92.12% F1-score, and 99.99% recall. In addition to predictive performance, the framework demonstrated high computational efficiency, requiring an average of 0.165 seconds per training epoch and completing training in 33.1 seconds. These results indicate that the model is suitable for scalable deployment and real-time DevOps integration. By enabling proactive dependency forecasting, the proposed approach supports early identification of design risks and improves software quality management in large-scale development environments.
graph convolutional networks software dependency prediction machine learning software metrics NASA JM1 dataset
Yazılım modülleri arasındaki bağımlılıkların tahmin edilmesi, gelecekte ortaya çıkabilecek bağlantı sorunlarının önlenmesi ve sistem sürdürülebilirliğinin artırılması açısından modern yazılım mühendisliğinde kritik bir konudur. Bu çalışmada, kapsamlı yazılım metriklerini kullanarak potansiyel modüller arası bağımlılıkları tahmin etmek amacıyla Grafik Evrişimsel Ağ (GCN) tabanlı bir çerçeve önerilmektedir. Deneyler, ölçeği ve yazılım mühendisliği araştırmalarında yaygın kullanımı nedeniyle seçilen NASA JM1 veri kümesinin tamamı (10.885 modül) üzerinde gerçekleştirilmiştir. Tüm 21 yazılım metriği boyut indirgeme uygulanmadan kullanılmıştır. k=8 parametresi ve 0.2 kosinüs benzerlik eşiği ile oluşturulan K-En Yakın Komşu (KNN) tabanlı grafik modelleme yöntemi, yapısal ilişkileri başarıyla yakalayarak 15 bağlantılı bileşen üzerinde 85.002 eğitim kenarı üretmiştir. Önerilen üç katmanlı artık bağlantılı GCN mimarisi (21→128→128→64), ReLU aktivasyonu, %30 dropout ve artık (residual) atlama bağlantıları ile birlikte bağlantı tahmini odaklı bir veri bölme stratejisi içermektedir. Model, %97.58 AUC, %92.12 F1-skoru ve %99.99 recall değerleri ile güçlü bir performans sergilemiştir. Ayrıca model, ortalama 0.165 saniyelik epoch süresi ve toplam 33.1 saniyelik eğitim süresi ile yüksek hesaplama verimliliği göstermiştir. Bu sonuçlar, önerilen yaklaşımın ölçeklenebilir dağıtım ve gerçek zamanlı DevOps entegrasyonu için uygun olduğunu göstermektedir. Potansiyel bağımlılıkların proaktif olarak tahmin edilmesini sağlayan bu yaklaşım, tasarım aşamasındaki risklerin erken tespitine katkı sağlayarak büyük ölçekli yazılım geliştirme ortamlarında kalite yönetimini desteklemektedir.
Graf evrişimsel ağları yazılım bağımlılık tahmini makine öğrenmesi yazılım metrikleri NASA JM1 veri seti
| Primary Language | English |
|---|---|
| Subjects | Artificial Intelligence (Other), Computer Software |
| Journal Section | Research Article |
| Authors | |
| Submission Date | August 14, 2025 |
| Acceptance Date | March 4, 2026 |
| Publication Date | March 30, 2026 |
| DOI | https://doi.org/10.55525/tjst.1759498 |
| IZ | https://izlik.org/JA26KH75WR |
| Published in Issue | Year 2026 Volume: 21 Issue: 1 |