Bu çalışmada gözetimsiz, çizge tabanlı anahtar kelime çıkarma yöntemlerinde kelime pozisyonlarının etkisine odaklanılmaktadır. Bu amaçla, düğümler için; Kelime Pozisyonu (WP), Kelime Pozisyonu Çift Yönlü (WPB), Cümle Pozisyonu (SP) ve Cümle Pozisyonu Çift Yönlü (SPB) isimli ilk ağırlıklandırma yöntemleri üzerinde durulmakta ve bunların performans üzerindeki etkileri tartışılmaktadır. WP, bir metnin başında yer alan kelimelere daha fazla ağırlık vermektedir. WPB, bir metnin başında ya da sonunda bulunan kelimelere daha fazla ağırlık vermektedir. SP, metnin ilk cümlelerinde geçen kelimelere daha fazla ağırlık vermektedir. SPB ise metnin başında ve sonunda yer alan cümlelerdeki kelimelere daha fazla ağırlık vermektedir. Altı veri kümesi üzerinde yapılan deneylerde, WP ve SP ağırlıklandırmalarına istatistiksel bir fark gözelemlenmemiştir. Ancak anahtar kelimelerin metnin başında geçen veri kümelerinde WP daha yüksek başarım göstermekle birlikte SP’den istatistiksel olarak ayrılmamaktadır. Anahtar kelimelerin metin içinde dağıtılmış olan veri kümelerinde SP, WP’den daha başarılı olmakta ve istatistiksel fark göstermektedir.
TÜBİTAK
117E566
In this study, we focus on the effect of word positions in unsupervised, graph-based keyword extraction. To this aim, we discuss the performance of four node-weighting procedures, namely Word Position (WP), Word Position Bidirectional (WPB), Sentence Position (SP), and Sentence Position Bidirectional (SPB). WP assigns higher weights to words that appear at the beginning of a text. WPB assigns higher weights to words that appear either at the beginning or end of a text. SP assigns higher weights to words that appear in the very first sentences of a text. SPB assigns higher weights to words that appear in sentences that are either close to the beginning or end of a text. Experiments conducted on six benchmark datasets show that WP and SP do not statistically differ. However, for datasets whose keywords appear early in the text WP performs better than SP with no statistical difference, while for datasets where keywords are evenly distributed in text SP statistically performs better than WP.
117E566
Primary Language | English |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Project Number | 117E566 |
Publication Date | November 8, 2021 |
Published in Issue | Year 2021 Volume: 17 Issue: 2 |