There are many different approaches to extractive text summarization. In this study, weighted graphs were created using Cosine Similarity, Jaccard Similarity, Levenshtein Similarity and Pearson Correlation Coefficient measures. Betweenness Centrality, Closeness Centrality, Degree Centrality and Eigenvalue Vector Centrality measurements were used to determine the most valuable nodes among the nodes representing the sentences in these graphs. With the different combinations of approaches used in inferential text summarization, it is aimed to determine which approaches the most successful summaries are obtained by creating 16 pieces of 200 and 400 word summaries from each text. The study was carried out on the Document Understanding Conference (DUC-2002) dataset. Its performance was calculated using ROUGE evaluation metrics and the results were compared in detail. The most successful results were obtained with the Jaccard Similarity and Closeness centrality approach in the 200-word abstracts, 0.46091 and the Cosine Similarity and Eigenvector Centrality approach in the 400-word abstracts, with an F-Score of 0.52485, respectively.
Çıkarıma dayalı metin özetleme konusunda birçok farklı yaklaşım vardır. Bu çalışmada Kosinüs Benzerliği, Jaccard Benzerliği, Levenshtein Benzerliği ve Pearson Korelasyon Katsayısı ölçütleri kullanarak ağırlıklı çizgeler oluşturulmuştur. Bu çizgelerdeki düğümler ile temsil edilen cümleler arasından en değerli olanları belirlemek amacı ile Arasındalık Merkeziliği, Yakınlık Merkeziliği, Derece Merkeziliği ve Özvektör Merkeziliği ölçümleri kullanılmıştır. Çıkarımsal metin özetlemede kullanılan yaklaşımların faklı kombinasyonları ile her bir metinden 16 adet 200 ve 400 kelimelik özetler oluşturularak en başarılı özetlerin hangi yaklaşımlar ile elde edildiğinin tespit edilmesi hedeflenmiştir. Çalışma, Document Understanding Conference (DUC-2002) veri seti üzerinde gerçekleştirilmiştir. ROUGE değerlendirme metrikleri ile performansı hesaplanmış ve elde edilen sonuçlar ayrıntılı olarak karşılaştırılmıştır. En başarılı sonuçlar, sırasıyla 200 kelimelik özetlerde Jaccard Benzerliği ve Yakınlık merkeziliği yaklaşımı ile 0.46091 ve 400 kelimelik özetlerde ise Kosinüs Benzerliği ve Özvektör Merkeziliği yaklaşımı ile 0.52485 F-Skor değerleri ile elde edilmiştir.
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | MBD |
Authors | |
Publication Date | March 28, 2023 |
Submission Date | August 4, 2022 |
Published in Issue | Year 2023 Volume: 35 Issue: 1 |