There are many different approaches to extractive text summarization. In this study, weighted graphs were created using Cosine Similarity, Jaccard Similarity, Levenshtein Similarity and Pearson Correlation Coefficient measures. Betweenness Centrality, Closeness Centrality, Degree Centrality and Eigenvalue Vector Centrality measurements were used to determine the most valuable nodes among the nodes representing the sentences in these graphs. With the different combinations of approaches used in inferential text summarization, it is aimed to determine which approaches the most successful summaries are obtained by creating 16 pieces of 200 and 400 word summaries from each text. The study was carried out on the Document Understanding Conference (DUC-2002) dataset. Its performance was calculated using ROUGE evaluation metrics and the results were compared in detail. The most successful results were obtained with the Jaccard Similarity and Closeness centrality approach in the 200-word abstracts, 0.46091 and the Cosine Similarity and Eigenvector Centrality approach in the 400-word abstracts, with an F-Score of 0.52485, respectively.
Extractive Text Summarization Node Centrality Similarity Methods
Çıkarıma dayalı metin özetleme konusunda birçok farklı yaklaşım vardır. Bu çalışmada Kosinüs Benzerliği, Jaccard Benzerliği, Levenshtein Benzerliği ve Pearson Korelasyon Katsayısı ölçütleri kullanarak ağırlıklı çizgeler oluşturulmuştur. Bu çizgelerdeki düğümler ile temsil edilen cümleler arasından en değerli olanları belirlemek amacı ile Arasındalık Merkeziliği, Yakınlık Merkeziliği, Derece Merkeziliği ve Özvektör Merkeziliği ölçümleri kullanılmıştır. Çıkarımsal metin özetlemede kullanılan yaklaşımların faklı kombinasyonları ile her bir metinden 16 adet 200 ve 400 kelimelik özetler oluşturularak en başarılı özetlerin hangi yaklaşımlar ile elde edildiğinin tespit edilmesi hedeflenmiştir. Çalışma, Document Understanding Conference (DUC-2002) veri seti üzerinde gerçekleştirilmiştir. ROUGE değerlendirme metrikleri ile performansı hesaplanmış ve elde edilen sonuçlar ayrıntılı olarak karşılaştırılmıştır. En başarılı sonuçlar, sırasıyla 200 kelimelik özetlerde Jaccard Benzerliği ve Yakınlık merkeziliği yaklaşımı ile 0.46091 ve 400 kelimelik özetlerde ise Kosinüs Benzerliği ve Özvektör Merkeziliği yaklaşımı ile 0.52485 F-Skor değerleri ile elde edilmiştir.
Çıkarımsal Metin Özetleme Düğüm Merkeziliği Benzerlik Yöntemleri
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | MBD |
Yazarlar | |
Yayımlanma Tarihi | 28 Mart 2023 |
Gönderilme Tarihi | 4 Ağustos 2022 |
Yayımlandığı Sayı | Yıl 2023 |