Günümüzde verilere ulaşmak çok kolaylaşmıştır. Ancak bu verileri verimli bir şekilde kullanmak için onlardan doğru bilgileri çıkarmak gerekir. İhtiyaç duyulan bilgiye kısa sürede ulaşabilmek için bu verilerin kategorilere ayrılması büyük kolaylık sağlamaktadır. Akademik alanda araştırma yapılırken genellikle makale, bildiri veya tez çalışması gibi metin tabanlı veriler kullanılmaktadır. Bu metin tabanlı verilerden ihtiyacımız olan doğru bilgiyi elde etmek için doğal dil işleme ve makine öğrenmesi yöntemleri kullanılmaktadır. Bu çalışmada akademik makalelerin özetleri kümelenmiştir. Akademik makale özetlerinden alınan metin verileri, doğal dil işleme teknikleri kullanılarak önceden işlenir. Word2Vec ve BERT ile vektörize edilen kelime temsilleri, dört farklı kümeleme algoritması ile kümelenmiştir.
Accessing data is very easy nowadays. However, to use these data in an efficient way, it is necessary to get the right information from them. Categorizing these data in order to reach the needed information in a short time provides great convenience. All the more, while doing research in the academic field, text-based data such as articles, papers, or thesis studies are generally used. Natural language processing and machine learning methods are used to get the right information we need from these text-based data. In this study, abstracts of academic papers are clustered. Text data from academic paper abstracts are preprocessed using natural language processing techniques. A vectorized word representation extracted from preprocessed data with Word2Vec and BERT word embeddings and representations are clustered with four clustering algorithms.
Natural Language Processing Machine Learning Text Representation
Birincil Dil | İngilizce |
---|---|
Konular | Mühendislik |
Bölüm | Araştırma Makalesi |
Yazarlar | |
Yayımlanma Tarihi | 16 Aralık 2022 |
Gönderilme Tarihi | 1 Mart 2022 |
Kabul Tarihi | 16 Kasım 2022 |
Yayımlandığı Sayı | Yıl 2022 Cilt: 10 |