The information retrieved from the academic texts such as articles, proceedings, thesis and project proposals are used for a wide range of purposes. In the first phase of this study; a library, that can transform the raw text into a standard form, is created by considering the key terms/features in the engineering field. Then, the key terms that can best represent the document are retrieved and a similarity detection algorithm is developed using these terms. Finally, the Naïve Bayes Classifier in machine learning is used to assign the documents to the appropriate engineering sub-fields. The project proposals submitted to TUBITAK Academic Research Funding Program Directorate (ARDEB) are analyzed as a case study. The results indicate that the proposed similarity algorithm correctly detects almost all of the revised proposals while the accuracy of the classifier is 83.3% in the first prediction and reaches up to 96.4% in the first three predictions over a sample of 1255 proposals.
key term extraction feature extraction natural language processing supervised machine learning Naïve Bayes classifier TUBITAK conceptual similarity
Makale, bildiri, tez ve proje önerisi gibi akademik metinlerin, gelişen doğal dil işleme araçları ve algoritmaları ile işlenmesi sonucunda elde edilen bilgi farklı amaçlar için kullanılabilmektedir. Mevcut çalışmanın ilk aşamasında, mühendislik alanında kullanılan kelime ve kelime gruplarının içerikleri ve yapıları dikkate alınarak bir kütüphane oluşturulmuş; ilgili metni en uygun ve kapsamlı şekilde tanımlayacak anahtar terimlerin/özniteliklerin çıkarımı gerçekleştirilmiştir. Bu işlem sonucunda elde edilen terim vektörleri kullanılarak farklı dokümanların benzerliğinin tespit edilmesine yönelik bir algoritma geliştirilmiştir. Son olarak ise, gözetimli makine öğrenmesi kapsamında Naïve Bayes sınıflandırıcısı kullanılarak TÜBİTAK Araştırma Destek Programları Başkanlığı’na (ARDEB) sunulan proje önerilerinin 31 farklı mühendislik alt alanından hangisine ait olduğunun tespitine yönelik bir analiz gerçekleştirilmiştir. 1255 proje önerisi ile gerçekleştirilen vaka çalışmasında, önerilen benzerlik algoritmasının revize proje önerilerinin benzerlik tespitinde %100’e yakın, sınıflama algoritmasının ise alt alan belirlemede ilk tahminde %83,3, ilk iki tahminde %92,5 ve ilk üç tahminde %96.4’lük doğruluk sağladığı gözlenmiştir.
anahtar terim çıkarımı öznitelik çıkarımı doğal dil işleme gözetimli makine öğrenmesi Naïve Bayes sınıflayıcısı TÜBİTAK kavramsal benzerlik
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 6 Ocak 2023 |
Gönderilme Tarihi | 6 Temmuz 2022 |
Kabul Tarihi | 7 Eylül 2022 |
Yayımlandığı Sayı | Yıl 2023 Cilt: 38 Sayı: 3 |