Araştırma Makalesi
BibTex RIS Kaynak Göster

Extractive Text Summarization Using Different Weighting Methods And Centrality Measures On Graphs

Yıl 2023, , 71 - 79, 28.03.2023
https://doi.org/10.35234/fumbd.1155617

Öz

There are many different approaches to extractive text summarization. In this study, weighted graphs were created using Cosine Similarity, Jaccard Similarity, Levenshtein Similarity and Pearson Correlation Coefficient measures. Betweenness Centrality, Closeness Centrality, Degree Centrality and Eigenvalue Vector Centrality measurements were used to determine the most valuable nodes among the nodes representing the sentences in these graphs. With the different combinations of approaches used in inferential text summarization, it is aimed to determine which approaches the most successful summaries are obtained by creating 16 pieces of 200 and 400 word summaries from each text. The study was carried out on the Document Understanding Conference (DUC-2002) dataset. Its performance was calculated using ROUGE evaluation metrics and the results were compared in detail. The most successful results were obtained with the Jaccard Similarity and Closeness centrality approach in the 200-word abstracts, 0.46091 and the Cosine Similarity and Eigenvector Centrality approach in the 400-word abstracts, with an F-Score of 0.52485, respectively.

Kaynakça

  • Sunitha C, Jaya A, Ganesh A. A study on abstractive summarization techniques in Indian languages. Procedia Computer Science. 2016;87:25-31.
  • Luhn HP. The automatic creation of literature abstracts. IBM Journal of research and development. 1958;2(2):159-65.
  • Nenkova A, McKeown K. Automatic summarization: Now Publishers Inc; 2011.
  • Çelik Ö, Koç BC. TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi. 2021;23(67):121-7.
  • Dharma EM, Gaol FL, Leslie H, Warnars H, Soewito B. The accuracy comparison among Word2vec, Glove, and Fasttext towards convolution neural network (CNN) text classification. J Theor Appl Inf Technol. 2022;31(2).
  • Gautam AK, Bansal A. Effect of Features Extraction Techniques on Cyberstalking Detection Using Machine Learning Framework. Journal of Advances in Information Technology Vol. 2022;13(5).
  • El-Kassas WS, Salama CR, Rafea AA, Mohamed HK. Automatic text summarization: A comprehensive survey. Expert Systems with Applications. 2021;165:113679.
  • Belwal RC, Rai S, Gupta A. A new graph-based extractive text summarization using keywords or topic modeling. Journal of Ambient Intelligence and Humanized Computing. 2021;12(10):8975-90.
  • Joshi A, Fidalgo E, Alegre E, Alaiz-Rodriguez R. RankSum—An unsupervised extractive text summarization based on rank fusion. Expert Systems with Applications. 2022;200:116846.
  • Azadani MN, Ghadiri N, Davoodijam E. Graph-based biomedical text summarization: An itemset mining and sentence clustering approach. Journal of biomedical informatics. 2018;84:42-58.
  • Edmundson HP. New methods in automatic extracting. Journal of the ACM (JACM). 1969;16(2):264-85.
  • Lin C-Y, editor Rouge: A package for automatic evaluation of summaries. Text summarization branches out; 2004.
  • Salton G, Buckley C. Term-weighting approaches in automatic text retrieval. Information processing & management. 1988;24(5):513-23.
  • Mihalcea R, Tarau P, editors. Textrank: Bringing order into text. Proceedings of the 2004 conference on empirical methods in natural language processing; 2004.
  • Yalkın C. Çizge tabanlı metin özetleme Yüksek Lisans Tezi. Fırat Üniversitesi, 2014.
  • Kupiec J, Pedersen J, Chen F, editors. A trainable document summarizer. Proceedings of the 18th annual international ACM SIGIR conference on Research and development in information retrieval; 1995.
  • Kaynar O, Işik YE, Görmez Y, editors. Graph based automatic document summarization with different similarity methods. 2017 25th Signal Processing and Communications Applications Conference (SIU); 2017: IEEE.
  • Cengiz H, Uckan T, Seyyarer E, Karci A, editors. Graph-based suggestion for text summarization. 2018 International Conference on Artificial Intelligence and Data Processing (IDAP); 2018: Ieee.
  • Singhal A. Modern information retrieval: A brief overview. IEEE Data Eng Bull. 2001;24(4):35-43.
  • Bag S, Kumar SK, Tiwari MK. An efficient recommendation generation using relevant Jaccard similarity. Information Sciences. 2019;483:53-64.
  • Zhou H, Deng Z, Xia Y, Fu M. A new sampling method in particle filter based on Pearson correlation coefficient. Neurocomputing. 2016;216:208-15.
  • Bavelas A. A mathematical model for group structures. Human organization. 1948;7(3):16-30.
  • Erkan G, Radev DR. Lexrank: Graph-based lexical centrality as salience in text summarization. Journal of artificial intelligence research. 2004;22:457-79.
  • Kutlu M, Cıǧır C, Cicekli I. Generic text summarization for Turkish. The Computer Journal. 2010;53(8):1315-23.
  • Freeman LC. Centrality in social networks conceptual clarification. Social networks. 1978;1(3):215-39.
  • Feo TA, Resende MG, Smith SH. A greedy randomized adaptive search procedure for maximum independent set. Operations Research. 1994;42(5):860-78.
  • Boudin F, editor A comparison of centrality measures for graph-based keyphrase extraction. International joint conference on natural language processing (IJCNLP); 2013.
  • Kosorukoff A. Social network analysis: theory and applications: Passmore, D. L; 2011.
  • See A, Liu PJ, Manning CD. Get to the point: Summarization with pointer-generator networks. arXiv preprint arXiv:170404368. 2017.

Çizgeler Üzerinde Farklı Ağırlıklandırma Yöntemleri Ve Merkezilik Ölçütleri İle Çıkarımsal Metin Özetleme

Yıl 2023, , 71 - 79, 28.03.2023
https://doi.org/10.35234/fumbd.1155617

Öz

Çıkarıma dayalı metin özetleme konusunda birçok farklı yaklaşım vardır. Bu çalışmada Kosinüs Benzerliği, Jaccard Benzerliği, Levenshtein Benzerliği ve Pearson Korelasyon Katsayısı ölçütleri kullanarak ağırlıklı çizgeler oluşturulmuştur. Bu çizgelerdeki düğümler ile temsil edilen cümleler arasından en değerli olanları belirlemek amacı ile Arasındalık Merkeziliği, Yakınlık Merkeziliği, Derece Merkeziliği ve Özvektör Merkeziliği ölçümleri kullanılmıştır. Çıkarımsal metin özetlemede kullanılan yaklaşımların faklı kombinasyonları ile her bir metinden 16 adet 200 ve 400 kelimelik özetler oluşturularak en başarılı özetlerin hangi yaklaşımlar ile elde edildiğinin tespit edilmesi hedeflenmiştir. Çalışma, Document Understanding Conference (DUC-2002) veri seti üzerinde gerçekleştirilmiştir. ROUGE değerlendirme metrikleri ile performansı hesaplanmış ve elde edilen sonuçlar ayrıntılı olarak karşılaştırılmıştır. En başarılı sonuçlar, sırasıyla 200 kelimelik özetlerde Jaccard Benzerliği ve Yakınlık merkeziliği yaklaşımı ile 0.46091 ve 400 kelimelik özetlerde ise Kosinüs Benzerliği ve Özvektör Merkeziliği yaklaşımı ile 0.52485 F-Skor değerleri ile elde edilmiştir.

Kaynakça

  • Sunitha C, Jaya A, Ganesh A. A study on abstractive summarization techniques in Indian languages. Procedia Computer Science. 2016;87:25-31.
  • Luhn HP. The automatic creation of literature abstracts. IBM Journal of research and development. 1958;2(2):159-65.
  • Nenkova A, McKeown K. Automatic summarization: Now Publishers Inc; 2011.
  • Çelik Ö, Koç BC. TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi. 2021;23(67):121-7.
  • Dharma EM, Gaol FL, Leslie H, Warnars H, Soewito B. The accuracy comparison among Word2vec, Glove, and Fasttext towards convolution neural network (CNN) text classification. J Theor Appl Inf Technol. 2022;31(2).
  • Gautam AK, Bansal A. Effect of Features Extraction Techniques on Cyberstalking Detection Using Machine Learning Framework. Journal of Advances in Information Technology Vol. 2022;13(5).
  • El-Kassas WS, Salama CR, Rafea AA, Mohamed HK. Automatic text summarization: A comprehensive survey. Expert Systems with Applications. 2021;165:113679.
  • Belwal RC, Rai S, Gupta A. A new graph-based extractive text summarization using keywords or topic modeling. Journal of Ambient Intelligence and Humanized Computing. 2021;12(10):8975-90.
  • Joshi A, Fidalgo E, Alegre E, Alaiz-Rodriguez R. RankSum—An unsupervised extractive text summarization based on rank fusion. Expert Systems with Applications. 2022;200:116846.
  • Azadani MN, Ghadiri N, Davoodijam E. Graph-based biomedical text summarization: An itemset mining and sentence clustering approach. Journal of biomedical informatics. 2018;84:42-58.
  • Edmundson HP. New methods in automatic extracting. Journal of the ACM (JACM). 1969;16(2):264-85.
  • Lin C-Y, editor Rouge: A package for automatic evaluation of summaries. Text summarization branches out; 2004.
  • Salton G, Buckley C. Term-weighting approaches in automatic text retrieval. Information processing & management. 1988;24(5):513-23.
  • Mihalcea R, Tarau P, editors. Textrank: Bringing order into text. Proceedings of the 2004 conference on empirical methods in natural language processing; 2004.
  • Yalkın C. Çizge tabanlı metin özetleme Yüksek Lisans Tezi. Fırat Üniversitesi, 2014.
  • Kupiec J, Pedersen J, Chen F, editors. A trainable document summarizer. Proceedings of the 18th annual international ACM SIGIR conference on Research and development in information retrieval; 1995.
  • Kaynar O, Işik YE, Görmez Y, editors. Graph based automatic document summarization with different similarity methods. 2017 25th Signal Processing and Communications Applications Conference (SIU); 2017: IEEE.
  • Cengiz H, Uckan T, Seyyarer E, Karci A, editors. Graph-based suggestion for text summarization. 2018 International Conference on Artificial Intelligence and Data Processing (IDAP); 2018: Ieee.
  • Singhal A. Modern information retrieval: A brief overview. IEEE Data Eng Bull. 2001;24(4):35-43.
  • Bag S, Kumar SK, Tiwari MK. An efficient recommendation generation using relevant Jaccard similarity. Information Sciences. 2019;483:53-64.
  • Zhou H, Deng Z, Xia Y, Fu M. A new sampling method in particle filter based on Pearson correlation coefficient. Neurocomputing. 2016;216:208-15.
  • Bavelas A. A mathematical model for group structures. Human organization. 1948;7(3):16-30.
  • Erkan G, Radev DR. Lexrank: Graph-based lexical centrality as salience in text summarization. Journal of artificial intelligence research. 2004;22:457-79.
  • Kutlu M, Cıǧır C, Cicekli I. Generic text summarization for Turkish. The Computer Journal. 2010;53(8):1315-23.
  • Freeman LC. Centrality in social networks conceptual clarification. Social networks. 1978;1(3):215-39.
  • Feo TA, Resende MG, Smith SH. A greedy randomized adaptive search procedure for maximum independent set. Operations Research. 1994;42(5):860-78.
  • Boudin F, editor A comparison of centrality measures for graph-based keyphrase extraction. International joint conference on natural language processing (IJCNLP); 2013.
  • Kosorukoff A. Social network analysis: theory and applications: Passmore, D. L; 2011.
  • See A, Liu PJ, Manning CD. Get to the point: Summarization with pointer-generator networks. arXiv preprint arXiv:170404368. 2017.
Toplam 29 adet kaynakça vardır.

Ayrıntılar

Birincil Dil Türkçe
Konular Mühendislik
Bölüm MBD
Yazarlar

Abdulsamet Aydın 0000-0002-5329-4407

Taner Uçkan 0000-0001-5385-6775

Yayımlanma Tarihi 28 Mart 2023
Gönderilme Tarihi 4 Ağustos 2022
Yayımlandığı Sayı Yıl 2023

Kaynak Göster

APA Aydın, A., & Uçkan, T. (2023). Çizgeler Üzerinde Farklı Ağırlıklandırma Yöntemleri Ve Merkezilik Ölçütleri İle Çıkarımsal Metin Özetleme. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 35(1), 71-79. https://doi.org/10.35234/fumbd.1155617
AMA Aydın A, Uçkan T. Çizgeler Üzerinde Farklı Ağırlıklandırma Yöntemleri Ve Merkezilik Ölçütleri İle Çıkarımsal Metin Özetleme. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. Mart 2023;35(1):71-79. doi:10.35234/fumbd.1155617
Chicago Aydın, Abdulsamet, ve Taner Uçkan. “Çizgeler Üzerinde Farklı Ağırlıklandırma Yöntemleri Ve Merkezilik Ölçütleri İle Çıkarımsal Metin Özetleme”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 35, sy. 1 (Mart 2023): 71-79. https://doi.org/10.35234/fumbd.1155617.
EndNote Aydın A, Uçkan T (01 Mart 2023) Çizgeler Üzerinde Farklı Ağırlıklandırma Yöntemleri Ve Merkezilik Ölçütleri İle Çıkarımsal Metin Özetleme. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 35 1 71–79.
IEEE A. Aydın ve T. Uçkan, “Çizgeler Üzerinde Farklı Ağırlıklandırma Yöntemleri Ve Merkezilik Ölçütleri İle Çıkarımsal Metin Özetleme”, Fırat Üniversitesi Mühendislik Bilimleri Dergisi, c. 35, sy. 1, ss. 71–79, 2023, doi: 10.35234/fumbd.1155617.
ISNAD Aydın, Abdulsamet - Uçkan, Taner. “Çizgeler Üzerinde Farklı Ağırlıklandırma Yöntemleri Ve Merkezilik Ölçütleri İle Çıkarımsal Metin Özetleme”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 35/1 (Mart 2023), 71-79. https://doi.org/10.35234/fumbd.1155617.
JAMA Aydın A, Uçkan T. Çizgeler Üzerinde Farklı Ağırlıklandırma Yöntemleri Ve Merkezilik Ölçütleri İle Çıkarımsal Metin Özetleme. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 2023;35:71–79.
MLA Aydın, Abdulsamet ve Taner Uçkan. “Çizgeler Üzerinde Farklı Ağırlıklandırma Yöntemleri Ve Merkezilik Ölçütleri İle Çıkarımsal Metin Özetleme”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, c. 35, sy. 1, 2023, ss. 71-79, doi:10.35234/fumbd.1155617.
Vancouver Aydın A, Uçkan T. Çizgeler Üzerinde Farklı Ağırlıklandırma Yöntemleri Ve Merkezilik Ölçütleri İle Çıkarımsal Metin Özetleme. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 2023;35(1):71-9.