Bilimsel makalelerin etkisini ölçmek kolay ya da tekdüze bir süreç değildir. Makalelerin atıf sayıları, etkilerinin ölçümünde önemli bir rol oynamaktadır. Öte yandan, bir makalenin atıf sayısı, makale yayınlandığı anda elde edilebilen bir veri değildir. Atıf sayısının elde edilebilmesi için makalenin yayınlanması ve toplulukta fark edilerek atıf(lar) alması, yani uzun sayılabilecek bir süre geçmesi gerekmektedir. Bu çalışmada, atıf sayısının erişilebilir olmaması problemini basitleştirdik ve bir makalenin yayınlanmasından sonraki bir yıl içerisinde en az bir atıf alıp almayacağını tahmin eden bir derin öğrenme modeli oluşturduk. Modelimizde kelime dizileri arasındaki ilişkiyi bulabilmek adına Uzun Kısa Süreli Bellek (UKSB) kullanılmaktadır. Bunun yanı sıra, bu çalışmada modelimizin makale tam metni yerine sadece özetini kullandığımızda bu durumun performans üzerindeki etkisini de analiz ediyoruz. Deneylerimizde herkese açık veri kümelerini kullanılmıştır. Makalelerin tam metni Kaggle’da bulunan bir veri kümesinde mevcuttur. Özet, üstveri öznitelikleri ve ilk yıl atıf sayıları ise Microsoft Academic Graph’tan çıkarılmıştır. Elde edilen sonuçlar, tam metin kullanımının daha yüksek doğrulukla sonuçlandığını göstermektedir. Fakat tam metin kullanıldığında modelin eğitim süresi, özet kullanıldığındaki eğitim süresine göre çok yüksek çıkmaktadır. Ayrıca, tam metinlere kıyasla makale özetleri daha kolay erişilebilir durumdadır. Son olarak, eğittiğimiz model bu makalenin ilk yayın yılında en az bir atıf alacağını öngörmektedir.
Derin Öğrenme Uzun Kısa Süreli Bellek Metin Madenciliği Denetimli Öğrenme Atıf Tahmini
Even though measuring the impact of scientific papers is not a straightforward process, their citation counts play a significant role in this determination. Citation count of a paper, however, is not available until the paper gets published and a substantial amount of time passes until it spreads through the community. To overcome this issue, we relax the problem by building a deep learning model that predicts whether a paper will receive at least one citation in a one-year interval after its publication. Our model employs Long Short-Term Memory (LSTM) to capture the relationship between word sequences. In our study, we also analyze the effect of using the abstract versus full-text of papers over performance. We utilize publicly available datasets in our experiments: Kaggle for the full-text of papers, and Microsoft Academic Graph for extracting the abstract, metadata features and the initial year citation counts of papers. Our obtained results show that the use of full-text leads to higher accuracy, yet with an enormous trade-off on training time. Additionally, paper abstracts are easier to access as compared to the full-text. Finally, our model predicts that this paper will receive at least one citation during its initial year of publication.
Deep Learning LSTM Text Mining Supervised Learning Citation Prediction
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 1 Nisan 2020 |
Yayımlandığı Sayı | Yıl 2020 Ejosat Özel Sayı 2020 (ARACONF) |