The aim of the study is to cluster and to classify the scientific papers regarding Extended Reality indexed in Web of Science database. To achieve this goal, Extended Reality related publications were located and gathered from the database. NLTK library was used for tokenization, stop words removal, and lemmatization operations. The TF-IDF vectorizer method in the Sklearn library was used to convert words to vector format. Then, the keywords of the publications were clustered using K-Means. The keywords in each cluster were searched throughout the abstract of each publication. The publication was labeled as the name of the cluster wherein the largest number of keywords matches the words in its abstract. Then, Support Vector Classifier, and Multinomial Naïve Bayes machine learning algorithms and Gated Recurrent Unit deep learning algorithms were conducted for classification. The results of deep learning and machine learning have been compared and this comparison yielded that the dataset is more suitable for deep learning in comparison to machine learning. Accuracy values are reported as 90.4%, 77.2%, and 99.8% for Support Vector Classifier, Multinomial Naïve Bayes, and Gated Recurrent Unit respectively. This study provides evidence that the GRU architecture is more effective than the classical machine learning algorithms.
text mining classification algorithms gated recurrent unit multinomial naïve bayes extended reality natural language processing
Çalışmanın amacı, Web of Science veri tabanında indekslenen Genişletilmiş Gerçeklik ile ilgili bilimsel makaleleri kümelemek ve sınıflandırmaktır. Bu amaca ulaşmak için Genişletilmiş Gerçeklik ile ilgili yayınlar bulundu ve veri tabanından toplandı. Veri önişleme için NLTK kütüphanesi kullanılmıştır. Sözcükleri vektör formatına dönüştürmek için Sklearn kütüphanesindeki TF-IDF yöntemi kullanıldı. Daha sonra yayınların anahtar kelimeleri K-Means kullanılarak kümelenmiştir. Her bir kümedeki anahtar kelimeler, her yayının özeti boyunca arandı. Yayın, en fazla sayıda anahtar kelimenin özetindeki kelimelerle eşleştiği küme adı olarak etiketlendi. Ardından, Support Vector Classifier ve Multinomial Naive Bayes makine öğrenmesi algoritmaları ile Gated Recurrent Unit derin öğrenme algoritmaları sınıflandırma için gerçekleştirilmiştir. Derin öğrenme ve makine öğrenmesi sonuçları karşılaştırılmış ve bu karşılaştırma, veri setinin makine öğrenmesine kıyasla derin öğrenmeye daha uygun olduğunu ortaya koymuştur. Support Vector Classifier, Multinomial Naive Bayes ve Gated Recurrent Unit için doğruluk değerleri sırasıyla %90,4, %77,2 ve %99,8 olarak bildirilmiştir. Bu çalışma, GRU mimarisinin klasik makine öğrenmesi algoritmalarından daha etkili olduğuna dair kanıtlar sunmaktadır.
metin madenciliği sınıflandırma algoritmaları arttırılmış gerçeklik sanal gerçeklik doğal dil işleme makine öğrenmesi derin öğrenme
Primary Language | English |
---|---|
Subjects | Engineering |
Journal Section | Research Articles |
Authors | |
Publication Date | October 1, 2022 |
Acceptance Date | October 1, 2022 |
Published in Issue | Year 2022 |
This work is licensed under a Creative Commons Attribution 4.0 International License