Amaç: İlgi sıralaması algoritmaları erişilen belgeleri arama sorgularıyla belgeler arasındaki konusal benzerlik (ilgi) derecelerine göre sıralar. Bu çalışmanın amacı; bir olasılıksal konu modelleme algoritması ile atıf verilerine dayanan “pennant erişim”in birleşiminden oluşan yeni bir ilgi sıralaması yöntemi geliştirmektir. Veri Kaynakları ve Yöntem: Geliştirdiğimiz yöntemi yaklaşık 435 bin fizik makalesinden oluşan iSearch derlemi üzerinde uyguladık. Önce 65 sorgu için derlemdeki tüm makalelerin başlıkları ve özetleri üzerinde konu modelleme algoritmasını çalıştırarak ilgi sıralamalarını elde ettik. Daha sonra pennant erişim yöntemini uygulayarak elde ettiğimiz atıf bilgilerini mevcut ilgi sıralamalarını tümleştirmek (fusion) ve daha da geliştirmek için kullandık. Böylece hem aranan konunun farklı yönlerini kapsayan hem de konuyla marjinal ilgili olan makalelerden oluşan daha iyi ilgi sıralamaları elde ettik. Maksimum Marjinal İlgi (MMR, Maximum Marginal Relevance) algoritmasının farklı ilgi sıralamaları üzerindeki etkilerini ayrı ayrı inceleyerek önerdiğimiz yöntemin erişim performansını değerlendirdik. Bulgular: Bulgular konu modelleme algoritması ile elde edilen ilgi sıralamalarında makalelerin başlıklarında ve özetlerinde geçen bazı terimlerin bazen göz ardı edilebildiğini göstermektedir. Ama bu sıralamalar atıf verilerine dayanan pennant erişimle desteklendiğinde, kullanılan terimlerin bağlamları hakkında ek bilgiler elde edilmekte ve sonuçta ilgi düzeyleri daha yüksek ve çeşitli (interdisipliner) makaleler içeren daha zenginleştirilmiş ilgi sıralamaları oluşturulmaktadır. Dahası, erişim çıktıları araştırmacıların önceliklerine göre kolayca yeniden sıralanabilmektedir (kişiselleştirme). Sonuç: Önerdiğimiz yöntemde pennant erişim tekniklerini kullanarak mevcut ilgi sıralaması algoritmalarının artırımlı olarak iyileştirilmesi üzerinde odaklandık. Bu yöntemin hesaplama yükü, sağlamlık, tekrarlanabilirlik ve ölçeklenebilirlik açılarından dinamik derlemler üzerinde sınandıktan sonra zamanla TR-Dizin, Web of Science ve Scopus gibi hem yerel hem de uluslararası bilgi sistemlerinde de kullanılabileceği kanısındayız. Özgünlük: Bu araştırmada yeni bir ilgi sıralaması yöntemi önerilmektedir. Bildiğimiz kadarıyla bu çalışma, LDA konu modelleme algoritması ile elde edilen ilgi sıralamalarının atıf verilerine dayanan pennant erişim teknikleriyle artırımlı olarak geliştirilebileceğini gösteren ilk çalışmadır.
İlgi sıralamaları olasılıksal konu modellemesi Gizli Dirichlet Paylaştırma (LDA) algoritması pennant erişim Maksimum Marjinal İlgi (MMR)
iSearch derlemiyle ilgili yardımları için iSearch Team’e (Peter Ingwersen, Birger Larsen, Haakon Lund ve Marianne Lykke), çalışmanın önceki sürümünü okuyarak değerli önerilerde bulunan Prof. Dr. Umut Al ve Prof. Dr. Fazlı Can’a teşekkür ederiz.
Purpose: Relevance ranking algorithms rank retrieved documents based on the degrees of topical similarity (relevance) between search queries and documents. This paper aims to introduce a new relevance ranking method combining a probabilistic topic modeling algorithm with the “pennant retrieval” method using citation data. Data and Method: We applied this method to the iSearch corpus consisting of c. 435,000 physics papers. We first ran the topic modeling algorithm on titles and summaries of all papers for 65 search queries and obtained the relevance ranking lists. We then used the pennant retrieval to fuse the citation data with the existing relevance rankings, thereby incrementally refining the results. The outcome produced better relevance rankings with papers covering various aspects of the topic searched as well as the more marginal ones. The Maximal Marginal Relevance (MMR) algorithm was used to evaluate the retrieval performance of the proposed method by finding out its effect on relevance ranking algorithms that we used. Findings: Findings suggest that the terms used in different contexts in the papers might sometimes be overlooked by the topic modeling algorithm. Yet, the fusion of citation data to relevance ranking lists provides additional contextual information, thereby further enriching the results with diverse (interdisciplinary) papers of higher relevance. Moreover, results can easily be re-ranked and personalized. Implications: We argue that once it is tested on dynamic corpora for computational load, robustness, replicability, and scalability, the proposed method can in time be used in both local and international information systems such as TR-Dizin, Web of Science, and Scopus. Originality: The proposed method is, as far as we know, the first one that shows that relevance rankings produced with a topic modeling algorithm can be incrementally refined using pennant retrieval techniques based on citation data.
Relevance rankings probabilistic topic modeling pennant retrieval Maximal Marginal Relevance (MMR) Latent Dirichlet Allocation (LDA) algorithm
Birincil Dil | Türkçe |
---|---|
Konular | Kütüphane ve Bilgi Çalışmaları |
Bölüm | Araştırma Makaleleri |
Yazarlar | |
Yayımlanma Tarihi | 30 Haziran 2022 |
Gönderilme Tarihi | 25 Ocak 2022 |
Kabul Tarihi | 10 Nisan 2022 |
Yayımlandığı Sayı | Yıl 2022 |
Bu dergi içeriği CC BY 4.0 ile lisanslanmaktadır.