In today's world, where data and information are increasingly proliferating, text summarization and technologies play a critical role in making large amounts of text data more accessible and meaningful. In business, the news industry, academic research, and many other fields, text summarization helps make quick decisions, access information faster, and manage resources more effectively. Additionally, text summarization research is conducted to further improve these technologies and develop new methods and algorithms to provide better summarization of texts. Therefore, text summarization and research in this field are of great importance in the information age. In this study, a new operating model for text summarization that can be applied to different algorithms is proposed and evaluated. Sixteen summarization algorithms covering six approaches (statistical, graph-based, content-based, pointer-based, position-based, and user-oriented) were implemented and tested on 50 different full-text article datasets. Four evaluation criteria (BLEU, Rouge-N, Rouge-L, METEOR) were used to assess the similarity between the generated summaries and the original summaries. The performance of the algorithms within each approach was averaged and the overall best-performing algorithm was selected. This best algorithm was subjected to further analysis through Topic Modelling and Keyword Extraction to identify key topics and keywords within the summarised text. The proposed model provides a standardized workflow for developing and thoroughly testing summarization algorithms across datasets and evaluation metrics to determine the most appropriate summarization approach. This study demonstrates the effectiveness of the model on a variety of algorithm types and text sources.
Text summarization Summarization algorithms Evaluation metrics Keyword extraction Extractive text summarization
Veri ve bilginin giderek çoğaldığı günümüz dünyasında, metin özetleme ve teknolojileri, büyük miktarlardaki metin verilerinin daha erişilebilir ve anlamlı hale getirilmesinde kritik bir rol oynamaktadır. İş dünyasında, haber endüstrisinde, akademik araştırmalarda ve diğer birçok alanda metin özetleme, hızlı kararlar alınmasına, bilgiye daha hızlı erişilmesine ve kaynakların daha etkin bir şekilde yönetilmesine yardımcı olmaktadır. Ayrıca, bu teknolojileri daha da iyileştirmek ve metinlerin daha iyi özetlenmesini sağlamak için yeni yöntemler ve algoritmalar geliştirmek amacıyla metin özetleme araştırmaları yürütülmektedir. Bu nedenle, metin özetleme ve bu alandaki araştırmalar bilgi çağında büyük önem taşımaktadır. Bu çalışmada, metin özetleme için farklı algoritmalara uygulanabilecek yeni bir işletim modeli önerilmiş ve değerlendirilmiştir. Altı yaklaşımı (istatistiksel, grafik tabanlı, içerik tabanlı, işaretçi tabanlı, konum tabanlı ve kullanıcı odaklı) kapsayan on altı özetleme algoritması uygulanmış ve 50 farklı tam metin makale veri kümesi üzerinde test edilmiştir. Oluşturulan özetler ile orijinal özetler arasındaki benzerliği değerlendirmek için dört değerlendirme kriteri (BLEU, Rouge-N, Rouge-L, METEOR) kullanılmıştır. Her bir yaklaşımdaki algoritmaların performansının ortalaması alınmış ve genel olarak en iyi performans gösteren algoritma seçilmiştir. Bu en iyi algoritma, özetlenen metin içindeki anahtar konuları ve anahtar kelimeleri belirlemek için Konu Modelleme ve Anahtar Kelime Çıkarma yoluyla daha fazla analize tabi tutulmuştur. Önerilen model, en uygun özetleme yaklaşımını belirlemek için veri kümeleri ve değerlendirme metrikleri arasında özetleme algoritmaları geliştirmek ve kapsamlı bir şekilde test etmek için standartlaştırılmış bir iş akışı sağlar. Bu çalışma, modelin çeşitli algoritma türleri ve metin kaynakları üzerindeki etkinliğini göstermektedir.
Metin özetleme Çıkarımsal metin özetleme Değerlendirme metrikleri Anahtar kelime çıkarımı Özetleme algoritmaları
Primary Language | English |
---|---|
Subjects | Natural Language Processing |
Journal Section | Articles |
Authors | |
Early Pub Date | March 29, 2024 |
Publication Date | March 29, 2024 |
Submission Date | October 16, 2023 |
Acceptance Date | February 18, 2024 |
Published in Issue | Year 2024 |