Son yıllarda metinsel veri kaynaklarının çok hızlı bir şekilde genişlemesiyle otomatik metin özetleme alanında birçok çalışma yapılmaktadır. Çalışmamızda çoklu belgelerinin çıkarımsal, genel özetlenmesi için yeni bir yöntem önerilmektedir. Bu çalışma kapsamında Karcı Baskın Küme Algoritması kullanılmıştır. Özetlenecek metne ait cümlelerin ortak kelime sayıları baz alınarak oluşturulan komşuluk matrisinden çizge oluşturulmuştur. Çizgeye ait baskın kümedeki düğümlerin temsil ettiği cümleler ana metinden çıkarılması ile geriye kalan cümlelerden oluşturulan yeni çizgenin özvektör merkeziliği değerlerine göre özet elde edilmiştir. Çalışma, Document Understanding Conference (DUC-2002 ve DUC-2004) veri seti üzerinde gerçekleştirilmiştir. ROUGE değerlendirme metrikleri ile performansı hesaplanmış ve elde edilen sonuçlar diğer rekabetçi yöntemler ile karşılaştırılmıştır. Geliştirilen model 100 kelimelik özet için 0.35748, 200 kelimelik özet için 0.49049 ve 400 kelimelik özet için 0.57586 ROUGE performans değerine ulaşmıştır. Çalışmanın deneysel süreçleri sırasında raporlanan değerler, bu yenilikçi yöntemin literatüre katkısını açıkça ortaya koymaktadır.
Çizge baskın küme Çizge tabanlı belge özetleme Genel belge özetleme Çıkarımsal metin özetleme Çoklu belge metin özetleme
With the rapid increase in textual data sources in recent years, it is seen that many studies have been carried out in the field of automatic text summarization. In this study, a new method is proposed for graph-based extractive text summarization. In addition, within the scope of the study, Karcı Dominant Cluster Algorithm is used for the first time in text summarization systems. In the proposed method, firstly, a graph is created from the neighborhood matrix based on the common word numbers of the sentences belonging to the text to be summarized. In the second step, the sentences represented by the nodes in the dominant cluster of the graph are determined using the Karcı Dominant Set Algorithm. In the third step, a new graph is created from the remaining sentences by removing the sentences belonging to the dominant clusters determined from the main text. According to the eigenvector centrality values of the new graph created in the last step, the central sentences were found and the sentences were selected to start with the most valuable sentence and summaries were obtained. The study was carried out on the Document Understanding Conference (DUC-2002 and DUC-2004) dataset. Its performance was calculated with ROUGE evaluation metrics and the results were compared with other competitive methods. The developed model reached a ROUGE performance value of 0.35748 for a 100-word summary, 0.49049 for a 200-word summary, and 0.57586 for a 400-word summary. The values reported during the experimental processes of the study clearly reveal the contribution of this innovative method to the literature.
Graph dominating set Graph-based document summarization Generic document summarization Extractive text summarization Multi document text summarization
| Birincil Dil | İngilizce |
|---|---|
| Konular | Yazılım Mühendisliği (Diğer) |
| Bölüm | Araştırma Makalesi |
| Yazarlar | |
| Erken Görünüm Tarihi | 24 Haziran 2025 |
| Yayımlanma Tarihi | 30 Haziran 2025 |
| Gönderilme Tarihi | 10 Nisan 2025 |
| Kabul Tarihi | 31 Mayıs 2025 |
| Yayımlandığı Sayı | Yıl 2025 Cilt: 13 Sayı: 1 |