Research Article

İlgi Sıralamalarının Artırımlı Olarak Geliştirilmesi: Pennant Erişimle Desteklenen Yeni Bir Yöntem Önerisi

Volume: 36 Number: 2 June 30, 2022
EN TR

İlgi Sıralamalarının Artırımlı Olarak Geliştirilmesi: Pennant Erişimle Desteklenen Yeni Bir Yöntem Önerisi

Öz

Amaç: İlgi sıralaması algoritmaları erişilen belgeleri arama sorgularıyla belgeler arasındaki konusal benzerlik (ilgi) derecelerine göre sıralar. Bu çalışmanın amacı; bir olasılıksal konu modelleme algoritması ile atıf verilerine dayanan “pennant erişim”in birleşiminden oluşan yeni bir ilgi sıralaması yöntemi geliştirmektir. Veri Kaynakları ve Yöntem: Geliştirdiğimiz yöntemi yaklaşık 435 bin fizik makalesinden oluşan iSearch derlemi üzerinde uyguladık. Önce 65 sorgu için derlemdeki tüm makalelerin başlıkları ve özetleri üzerinde konu modelleme algoritmasını çalıştırarak ilgi sıralamalarını elde ettik. Daha sonra pennant erişim yöntemini uygulayarak elde ettiğimiz atıf bilgilerini mevcut ilgi sıralamalarını tümleştirmek (fusion) ve daha da geliştirmek için kullandık. Böylece hem aranan konunun farklı yönlerini kapsayan hem de konuyla marjinal ilgili olan makalelerden oluşan daha iyi ilgi sıralamaları elde ettik. Maksimum Marjinal İlgi (MMR, Maximum Marginal Relevance) algoritmasının farklı ilgi sıralamaları üzerindeki etkilerini ayrı ayrı inceleyerek önerdiğimiz yöntemin erişim performansını değerlendirdik. Bulgular: Bulgular konu modelleme algoritması ile elde edilen ilgi sıralamalarında makalelerin başlıklarında ve özetlerinde geçen bazı terimlerin bazen göz ardı edilebildiğini göstermektedir. Ama bu sıralamalar atıf verilerine dayanan pennant erişimle desteklendiğinde, kullanılan terimlerin bağlamları hakkında ek bilgiler elde edilmekte ve sonuçta ilgi düzeyleri daha yüksek ve çeşitli (interdisipliner) makaleler içeren daha zenginleştirilmiş ilgi sıralamaları oluşturulmaktadır. Dahası, erişim çıktıları araştırmacıların önceliklerine göre kolayca yeniden sıralanabilmektedir (kişiselleştirme). Sonuç: Önerdiğimiz yöntemde pennant erişim tekniklerini kullanarak mevcut ilgi sıralaması algoritmalarının artırımlı olarak iyileştirilmesi üzerinde odaklandık. Bu yöntemin hesaplama yükü, sağlamlık, tekrarlanabilirlik ve ölçeklenebilirlik açılarından dinamik derlemler üzerinde sınandıktan sonra zamanla TR-Dizin, Web of Science ve Scopus gibi hem yerel hem de uluslararası bilgi sistemlerinde de kullanılabileceği kanısındayız. Özgünlük: Bu araştırmada yeni bir ilgi sıralaması yöntemi önerilmektedir. Bildiğimiz kadarıyla bu çalışma, LDA konu modelleme algoritması ile elde edilen ilgi sıralamalarının atıf verilerine dayanan pennant erişim teknikleriyle artırımlı olarak geliştirilebileceğini gösteren ilk çalışmadır.

Anahtar Kelimeler

İlgi sıralamaları , olasılıksal konu modellemesi , Gizli Dirichlet Paylaştırma (LDA) algoritması , pennant erişim , Maksimum Marjinal İlgi (MMR)

References

  1. Abramo, G., D’Angelo, C. A. ve Zhang, L. (2018). A comparison of two approaches for measuring interdisciplinary research output: The disciplinary diversity of authors vs the disciplinary diversity of the reference list. Journal of Informetrics, 12(4), 1182-1193. https://doi.org/10.1016/j.joi.2018.09.001
  2. Adomavicius, G. ve Kwon, Y. (2011). Improving aggregate recommendation diversity using ranking-based techniques. IEEE Transactions on Knowledge and Data Engineering, 24(5), 896-911. https://doi.org/10.1109/TKDE.2011.15
  3. ADS Team (2008). SAO/NASA ADS Abstract Service Stopword List. https://adsabs.harvard.edu/abs_doc/stopwords.html
  4. Akbulut, M. (2016). Atıf klasiklerinin etkisinin ve ilgililik sıralamalarının pennant diyagramları ile analizi [Yayımlanmamış yüksek lisans tezi]. Hacettepe Üniversitesi. https://hdl.handle.net/11655/3529
  5. Akbulut, M., Tonta, Y. ve White, H. D. (2020). Related records retrieval and pennant retrieval: An exploratory case study. Scientometrics, 122(2), 957-987. https://doi.org/10.1007/s11192-019-03303-9
  6. Arun, R., Suresh, V., Madhavan, C. V. ve Murthy, M. N. (2010). On finding the natural number of topics with latent dirichlet allocation: Some observations. Pacific-Asia Conference on Knowledge Discovery and Data Mining içinde (s. 391-402). Springer. https://doi.org/10.1007/978-3-642-13657-3_43
  7. Baeza-Yates, R. ve Ribeiro-Neto, B. (1999). Modern information retrieval. ACM Press.
  8. Ballester, O. ve Penner, O. (2022). Robustness, replicability and scalability in topic modelling. Journal of Informetrics, 16(1). https://doi.org/10.1016/j.joi.2021.101224
  9. Bayer, D. ve Michael, S. (2019). Exploring the daschle collection using text mining. arXiv. https://arxiv.org/pdf/1904.12623.pdf
  10. Beel, J. ve Gipp, B. (2009). Google Scholar’s ranking algorithm: An introductory overview. B. Larsen ve J. Leta (Yay. haz.). Proceedings of the 12th International Conference on Scientometrics and Informetrics içinde (s. 230-241). International Society for Scientometrics and Informetrics. https://www.issi-society.org/proceedings/issi_2009/ISSI2009-proc-vol1_Aug2009_batch2-paper-1.pdf
APA
Akbulut, M., & Tonta, Y. (2022). İlgi Sıralamalarının Artırımlı Olarak Geliştirilmesi: Pennant Erişimle Desteklenen Yeni Bir Yöntem Önerisi. Türk Kütüphaneciliği, 36(2), 169-203. https://doi.org/10.24146/tk.1062751