Research Article

The Effectiveness of Machine Learning Algorithms in Extractive Text Summarization: A Comparative Analysis of K-Means, Random Forest, GBM, Logistic Regression, and SVM

Volume: 7 Number: 2 December 31, 2024
TR EN

The Effectiveness of Machine Learning Algorithms in Extractive Text Summarization: A Comparative Analysis of K-Means, Random Forest, GBM, Logistic Regression, and SVM

Abstract

Günümüz bilgi çağında, veri setlerinden anlamlı bilgiler çıkarmak, her zamankinden daha önemli hale gelmiştir. Çoğu alanda bilg-iler, aşamaları detaylarıyla veri tabanı sistemlerinde tutulmaktadır; bu nedenle artık daha büyük veri setleriyle karşı karşıya kalmaktayız. Büyük veri çağında, makine öğrenmesi yöntemleri kullanarak çıkarımsal metin özetleme önemli bir çalışma alanı haline gelmiştir. Çıkarımsal özetleme, orijinal metinden önemli bilgileri çıkartarak kısa ve öz bir sürüm oluşturmayı amaçlar. Bu, genellikle metnin boyutunu küçültme ve temel bilgileri korumayı amaçlar. Bu çalışma, metin özetleme süreçlerinin, insan müdahalesi olmadan, orijinal metnin anlamını koruyarak kısa ve akıcı bir özet üretme görevini, makine öğrenimi modelleriyle sağlamayı amaçlar. Makine öğrenimi tabanlı modeller ve çıkarımsal metin özetleme, bilgisayarların insan bilgisi ve dil yeteneğinden yoksun olması nedeniyle zor olan bu işi çözmek için çeşitli yaklaşımlar sunar. Bu çalışmada, çıkarımsal metin özetlemenin belgeden doğrudan cümleleri alarak tutarlı bir özet oluşturulup, makine öğrenimi yöntemlerinin uygulanabilirliği ve etkinliği test edilmiştir. Makine öğrenimi yöntemleri olarak; K-Ortalamalar, Rastgele Orman, Gradyan Arttırma Makineleri (GBM) / XGBoost, Lojistik Regresyon ve Destek Vektör Makineleri (SVM) gibi algoritmalar denenmiş, performansları çeşitli metin veri setleri üzerinde karşılaştırmalı olarak test edilmiştir.

Keywords

Extractive Text Summarization, Machine Learning, Automatic Text Summarization, Rouge

References

  1. AKCA, M. F. (2020). Nedir Bu Destek Vektör Makineleri? (Makine Öğrenmesi Serisi-2) | by Mehmet Fatih AKCA | Deep Learning Türkiye | Medium. Medium.
  2. Alpkoçak, A., Tocoglu, M. A., Çelikten, A., & Aygün, İ. (2019). Türkçe Metinlerde Duygu Analizi için Farklı Makine Öğrenmesi Yöntemlerinin Karşılaştırılması. Deu Muhendislik Fakultesi Fen ve Muhendislik, 21(63), 719–725. https://doi.org/10.21205/deufmd.2019216303
  3. Ayata, F., & Çavuş, H. (2022). Yüz Tanıma Sistemlerinde Kullanılan ESA, YGH-DVM ve DSA Algoritmalarının Performans Testleri. Fırat Üniversitesi Fen Bilimleri Dergisi, 34(1), 39–48.
  4. AYDIN, A., & UÇKAN, T. (2023). Çizgeler Üzerinde Farklı Ağırlıklandırma Yöntemleri Ve Merkezilik Ölçütleri İle Çıkarımsal Metin Özetleme. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 35(1), 71–79. https://doi.org/10.35234/fumbd.1155617
  5. Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5–32. https://doi.org/10.1023/A:1010933404324
  6. Chen, T., international, C. G.-P. of the 22nd acm sigkdd, & 2016, undefined. (2016). Xgboost: A scalable tree boosting system. Dl.Acm.Org, 13-17-Augu, 785–794. https://doi.org/10.1145/2939672.2939785
  7. Chiusano, F. (2022). Two minutes NLP — Learn the ROUGE metric by examples _ by Fabio Chiusano _ NLPlanet _ Medium.
  8. Erhandı, B. (2020). Derin öğrenme ile metin özetleme, 34.
  9. GÖRENTAŞ, M. B., & UÇKAN, T. (2023). Makine Öğrenmesi Yöntemleri Kullanılarak Mahkeme Kararlarlarının Kümelenmesi. Computer Science, (8), 148–158. https://doi.org/10.53070/bbd.1318518
  10. GÖRENTAŞ, M. B., UÇKAN, T., & BAYRAM ARLI, N. (2023). Uyuşmazlık Mahkemesi Kararlarının Makine Öğrenmesi Yöntemleri ile Sınıflandırılması. Yüzüncü Yıl Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 28(3), 947–961. https://doi.org/10.53433/yyufbed.1292275
APA
Uçkan, T., & Karabulut, K. (2024). The Effectiveness of Machine Learning Algorithms in Extractive Text Summarization: A Comparative Analysis of K-Means, Random Forest, GBM, Logistic Regression, and SVM. Doğu Fen Bilimleri Dergisi, 7(2), 77-91. https://doi.org/10.57244/dfbd.1538959
AMA
1.Uçkan T, Karabulut K. The Effectiveness of Machine Learning Algorithms in Extractive Text Summarization: A Comparative Analysis of K-Means, Random Forest, GBM, Logistic Regression, and SVM. Doğu Fen Bilimleri Dergisi. 2024;7(2):77-91. doi:10.57244/dfbd.1538959
Chicago
Uçkan, Taner, and Kübra Karabulut. 2024. “The Effectiveness of Machine Learning Algorithms in Extractive Text Summarization: A Comparative Analysis of K-Means, Random Forest, GBM, Logistic Regression, and SVM”. Doğu Fen Bilimleri Dergisi 7 (2): 77-91. https://doi.org/10.57244/dfbd.1538959.
EndNote
Uçkan T, Karabulut K (December 1, 2024) The Effectiveness of Machine Learning Algorithms in Extractive Text Summarization: A Comparative Analysis of K-Means, Random Forest, GBM, Logistic Regression, and SVM. Doğu Fen Bilimleri Dergisi 7 2 77–91.
IEEE
[1]T. Uçkan and K. Karabulut, “The Effectiveness of Machine Learning Algorithms in Extractive Text Summarization: A Comparative Analysis of K-Means, Random Forest, GBM, Logistic Regression, and SVM”, Doğu Fen Bilimleri Dergisi, vol. 7, no. 2, pp. 77–91, Dec. 2024, doi: 10.57244/dfbd.1538959.
ISNAD
Uçkan, Taner - Karabulut, Kübra. “The Effectiveness of Machine Learning Algorithms in Extractive Text Summarization: A Comparative Analysis of K-Means, Random Forest, GBM, Logistic Regression, and SVM”. Doğu Fen Bilimleri Dergisi 7/2 (December 1, 2024): 77-91. https://doi.org/10.57244/dfbd.1538959.
JAMA
1.Uçkan T, Karabulut K. The Effectiveness of Machine Learning Algorithms in Extractive Text Summarization: A Comparative Analysis of K-Means, Random Forest, GBM, Logistic Regression, and SVM. Doğu Fen Bilimleri Dergisi. 2024;7:77–91.
MLA
Uçkan, Taner, and Kübra Karabulut. “The Effectiveness of Machine Learning Algorithms in Extractive Text Summarization: A Comparative Analysis of K-Means, Random Forest, GBM, Logistic Regression, and SVM”. Doğu Fen Bilimleri Dergisi, vol. 7, no. 2, Dec. 2024, pp. 77-91, doi:10.57244/dfbd.1538959.
Vancouver
1.Taner Uçkan, Kübra Karabulut. The Effectiveness of Machine Learning Algorithms in Extractive Text Summarization: A Comparative Analysis of K-Means, Random Forest, GBM, Logistic Regression, and SVM. Doğu Fen Bilimleri Dergisi. 2024 Dec. 1;7(2):77-91. doi:10.57244/dfbd.1538959