Bugs that occur when a software does not work as expected while it is in development, maintenance or use, are reported by the technical team or end users. Reported bug records can point to the same error even if they are entered into the system in different ways by the people reporting the bug. Therefore, it is highly likely that a bug record to be reported already exists in the system. The developer who will fix the error requires a lot of effort to determine whether the relevant error record has been entered into the system before. An automatic detection mechanism is required to detect whether a bug to be entered into the system has already existed in the system. In this study, different models have been developed that detect duplicate bug records with machine learning and deep learning methods by using bug records for 3 different open source projects. In the study, the performances of machine learning algorithms and deep learning methods for the data sets used were examined comparatively and an ensemble method is proposed. Proposed ensemble method increased the accuracy by at least 7.2% compared to the singular mehods.
Natural language processing Bug record Bug report Duplicate bug report detection Software bugs
Bir yazılım, geliştirme, bakım veya kullanım aşamasındayken beklenilen şekilde çalışmaması durumunda ortaya çıkan hatalar teknik ekip veya son kullanıcılar tarafından raporlanmaktadır. Raporlanan hata kayıtları, hatayı raporlayan kişiler tarafından farklı şekillerde sisteme girilse bile aynı hatayı işaret edebilir. Dolayısıyla, raporlanacak olan bir hata kaydının sistemde daha önceden bulunma ihtimali oldukça yüksektir. Hatayı düzeltecek olan geliştiricinin ilgili hata kaydının sisteme daha önce girilmiş olup olmadığını tespit etmesi oldukça yüksek çaba gerektirmektedir. Sisteme girilecek bir hatanın daha önce sistemde var olup olmadığını tespit etmek için otomatik bir tespit mekanizması gerekmektedir. Bu çalışmada, 3 farklı açık kaynak proje için hata kayıtları kullanılarak, yinelenen hata kayıtlarını makine öğrenmesi ve derin öğrenme yöntemleri ile tespit eden farklı modeller geliştirilmiştir. Çalışmada, kullanılan veri setleri için makine öğrenmesi algoritmalarının ve derin öğrenme yöntemlerinin başarımları karşılaştırmalı olarak incelenmiştir ve birleşik bir yöntem önerilmiştir. Önerilen birleşik yöntem tekil yöntemlere göre başarıyı en az %7.2 oranında artırmıştır.
Primary Language | Turkish |
---|---|
Subjects | Computer Software |
Journal Section | Research Articles |
Authors | |
Publication Date | December 29, 2020 |
Submission Date | November 15, 2020 |
Acceptance Date | December 16, 2020 |
Published in Issue | Year 2020 |