Service-oriented architecture, one of the popular software architectures that have become very popular in recent years, has scalability, isolation and flexibility as it consists of smaller and independent domain-specific services compared to monolithic systems. For this reason, the transition from monolithic monolithic systems to service-oriented architectures is becoming widespread for large-scale applications with millions of users to have an easily manageable, scalable and flexible structure. In this study, the effectiveness of various machine learning models and different types of tokenization methods were evaluated by analyzing static source code to decompose monolithic legacy systems into domain-specific services. Standard machine learning algorithms and transformer-based tokenizers were applied to the FXML-POS legacy system and model performance were evaluated using precision, recall, accuracy, and F1 scores. Experimental results indicate that all transformer models achieve strong performance with an F1 score of 91.9% using Random Forest and Logistic Regression classifiers. Furthermore, it has been observed in the experimental results that the Word2Vec vectorization method outperforms TF-IDF in most scenarios and a maximum F1 score of 97.2% is achieved using the Random Forest Classifier. These results underscore the utility of advanced embedding techniques and classifiers in the accurate identification of domain-specific service components.
Decomposition using source code Static analysis Transformer-based tokenizers Word embeddings Machine learning
Son yıllarda oldukça popüler hale gelen yazılım mimarilerden biri olan servis odaklı mimari monolit sistemlere göre daha küçük ve bağımsız alana özgü hizmetlerden oluştuğundan ölçeklenebilirlik, izolasyon ve esnek yapıya sahiptir. Bu nedenle milyonlarca kullanıcıya sahip büyük ölçekli uygulamaların kolay yönetilebilir, ölçeklenbilir ve esnek bir yapıya sahip olması için monolitk tek parçalı sistemlerden servis odaklı mimarilere geçiş yaygınlaşmaktadır. Bu çalışmada, tek parçalı eski sistemleri alana-özgü hizmetlere ayrıştırmak için statik kaynak kod analizi yapılarak çeşitli makine öğrenimi modelleri ve farklı tokenleştirme yöntemlerinin etkinliği değerlendirilmektedir. Standart makine öğrenimi algoritmaları ve dönüştürücü tabanlı tokenleştiriciler FXML-POS eski sistemine uygulanmıştır ve model performansı hassasiyet, geri çağırma, doğruluk ve F1 puanları kullanarak değerlendirilmiştir. Deneysel sonuçlar, tüm transformatör modellerinin Rastgele Orman ve Lojistik Regresyon sınıflandırıcılarını kullanarak %91,9'luk bir F1 puanı ile güçlü bir performans elde ettiğini göstermektedir. Ayrıca, Word2Vec vektörleştirme yönteminin çoğu senaryoda TF-IDF'den daha iyi performans gösterdiği ve Rastgele Orman Sınıflandırıcısı kullanılarak %97,2'lik maksimum bir F1 puanı elde edildiği deneysel sonuçlarda görülmüştür. Bu sonuçlar, alan-özgü hizmet bileşenlerinin doğru bir şekilde tanımlanmasında gelişmiş yerleştirme tekniklerinin ve sınıflandırıcıların yararlılığını vurgulamaktadır
Kaynak kodu kullanarak ayrıştırma Statik analiz Transformatör tabanlı belirteçleyiciler Kelime yerleştirmeleri Makine öğrenimi
| Birincil Dil | İngilizce |
|---|---|
| Konular | Karar Desteği ve Grup Destek Sistemleri |
| Bölüm | Makaleler |
| Yazarlar | |
| Erken Görünüm Tarihi | 14 Ağustos 2025 |
| Yayımlanma Tarihi | 31 Ağustos 2025 |
| Gönderilme Tarihi | 22 Kasım 2024 |
| Kabul Tarihi | 11 Mart 2025 |
| Yayımlandığı Sayı | Yıl 2025 Cilt: 18 Sayı: 2 |