Araştırma Makalesi
BibTex RIS Kaynak Göster

The Effectiveness of Machine Learning Algorithms in Extractive Text Summarization: A Comparative Analysis of K-Means, Random Forest, GBM, Logistic Regression, and SVM

Yıl 2024, Cilt: 7 Sayı: 2, 77 - 91, 31.12.2024
https://doi.org/10.57244/dfbd.1538959

Öz

Günümüz bilgi çağında, veri setlerinden anlamlı bilgiler çıkarmak, her zamankinden daha önemli hale gelmiştir. Çoğu alanda bilg-iler, aşamaları detaylarıyla veri tabanı sistemlerinde tutulmaktadır; bu nedenle artık daha büyük veri setleriyle karşı karşıya kalmaktayız. Büyük veri çağında, makine öğrenmesi yöntemleri kullanarak çıkarımsal metin özetleme önemli bir çalışma alanı haline gelmiştir. Çıkarımsal özetleme, orijinal metinden önemli bilgileri çıkartarak kısa ve öz bir sürüm oluşturmayı amaçlar. Bu, genellikle metnin boyutunu küçültme ve temel bilgileri korumayı amaçlar. Bu çalışma, metin özetleme süreçlerinin, insan müdahalesi olmadan, orijinal metnin anlamını koruyarak kısa ve akıcı bir özet üretme görevini, makine öğrenimi modelleriyle sağlamayı amaçlar. Makine öğrenimi tabanlı modeller ve çıkarımsal metin özetleme, bilgisayarların insan bilgisi ve dil yeteneğinden yoksun olması nedeniyle zor olan bu işi çözmek için çeşitli yaklaşımlar sunar. Bu çalışmada, çıkarımsal metin özetlemenin belgeden doğrudan cümleleri alarak tutarlı bir özet oluşturulup, makine öğrenimi yöntemlerinin uygulanabilirliği ve etkinliği test edilmiştir. Makine öğrenimi yöntemleri olarak; K-Ortalamalar, Rastgele Orman, Gradyan Arttırma Makineleri (GBM) / XGBoost, Lojistik Regresyon ve Destek Vektör Makineleri (SVM) gibi algoritmalar denenmiş, performansları çeşitli metin veri setleri üzerinde karşılaştırmalı olarak test edilmiştir.

Kaynakça

  • AKCA, M. F. (2020). Nedir Bu Destek Vektör Makineleri? (Makine Öğrenmesi Serisi-2) | by Mehmet Fatih AKCA | Deep Learning Türkiye | Medium. Medium.
  • Alpkoçak, A., Tocoglu, M. A., Çelikten, A., & Aygün, İ. (2019). Türkçe Metinlerde Duygu Analizi için Farklı Makine Öğrenmesi Yöntemlerinin Karşılaştırılması. Deu Muhendislik Fakultesi Fen ve Muhendislik, 21(63), 719–725. https://doi.org/10.21205/deufmd.2019216303
  • Ayata, F., & Çavuş, H. (2022). Yüz Tanıma Sistemlerinde Kullanılan ESA, YGH-DVM ve DSA Algoritmalarının Performans Testleri. Fırat Üniversitesi Fen Bilimleri Dergisi, 34(1), 39–48.
  • AYDIN, A., & UÇKAN, T. (2023). Çizgeler Üzerinde Farklı Ağırlıklandırma Yöntemleri Ve Merkezilik Ölçütleri İle Çıkarımsal Metin Özetleme. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 35(1), 71–79. https://doi.org/10.35234/fumbd.1155617
  • Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5–32. https://doi.org/10.1023/A:1010933404324
  • Chen, T., international, C. G.-P. of the 22nd acm sigkdd, & 2016, undefined. (2016). Xgboost: A scalable tree boosting system. Dl.Acm.Org, 13-17-Augu, 785–794. https://doi.org/10.1145/2939672.2939785
  • Chiusano, F. (2022). Two minutes NLP — Learn the ROUGE metric by examples _ by Fabio Chiusano _ NLPlanet _ Medium.
  • Erhandı, B. (2020). Derin öğrenme ile metin özetleme, 34.
  • GÖRENTAŞ, M. B., & UÇKAN, T. (2023). Makine Öğrenmesi Yöntemleri Kullanılarak Mahkeme Kararlarlarının Kümelenmesi. Computer Science, (8), 148–158. https://doi.org/10.53070/bbd.1318518
  • GÖRENTAŞ, M. B., UÇKAN, T., & BAYRAM ARLI, N. (2023). Uyuşmazlık Mahkemesi Kararlarının Makine Öğrenmesi Yöntemleri ile Sınıflandırılması. Yüzüncü Yıl Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 28(3), 947–961. https://doi.org/10.53433/yyufbed.1292275
  • Gupta, V., intelligence, G. L.-J. of emerging technologies in web, & 2010, undefined. (2010). A survey of text summarization extractive techniques. CiteseerV Gupta, GS LehalJournal of Emerging Technologies in Web Intelligence, 2010•Citeseer. https://doi.org/10.4304/jetwi.2.3.157-157
  • Khan, R., Qian, Y., Information, S. N.-I. J. of, & 2019, undefined. (2019). Extractive based text summarization using k-means and tf-idf. Researchgate.NetR Khan, Y Qian, S NaeemInternational Journal of Information Engineering and Electronic Business, 2019•researchgate.Net, 3, 33–44. https://doi.org/10.5815/ijieeb.2019.03.05
  • Luhn, H. P. (2010). The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development, 2(2), 159–165. https://doi.org/10.1147/rd.22.0159
  • Martin Katz, D., Bommarito, M. J., & Blackman, J. (2017). A general approach for predicting the behavior of the Supreme Court of the United States. PLoS ONE, 12(4). https://doi.org/10.1371/JOURNAL.PONE.0174698
  • Mumcuoğlu, E., Öztürk, C., Ozaktas, H., & A. K.-I. P., & 2021, undefined. (2021). Natural language processing in law: Prediction of outcomes in the higher courts of Turkey. Elsevier, 58(5), 306–4573. https://doi.org/10.1016/j.ipm.2021.102684
  • Nenkova, A., & McKeown, K. (2012). A survey of text summarization techniques. In Mining Text Data (Vol. 9781461432, pp. 43–76). https://doi.org/10.1007/978-1-4614-3223-4_3
  • Olmez, R. (2024). T5 modelini Kullanarak Geçmişten Günümüze Metin Özetleme | by Ramazan Olmez | Medium.
  • Özmutlu, H. C., & Çağlar, B. (2009). ARAMA MOTORLARINDA YENİ KONU TANILAMADA KARAKTER N-GRAM VE YAPAY SİNİR AĞLARI UYGULAMASI. Acikerisim.Uludag.Edu.Tr, 14.
  • Schütze, H., Manning, C., & Raghavan, P. (2008). Introduction to information retrieval. Sharif, P. (2018). BBC News Summary.
  • YAZĞILI, E., & BAYKARA, M. (2022). Türkçe metinlerde makine öğrenmesi yöntemleri ile siber zorbalık tespiti. Gümüşhane Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 12(2), 443–453. https://doi.org/10.17714/gumusfenbil.935448

Makine Öğrenmesi Algoritmalarının Çıkarımsal Metin Özetlemede Etkililiği: K-Ortalamalar, Rastgele Orman, GBM, Lojistik Regresyon ve SVM'in Karşılaştırmalı Analizi

Yıl 2024, Cilt: 7 Sayı: 2, 77 - 91, 31.12.2024
https://doi.org/10.57244/dfbd.1538959

Öz

Günümüz bilgi çağında, veri setlerinden anlamlı bilgiler çıkarmak, her zamankinden daha önemli hale gelmiştir. Çoğu alanda bilg-iler, aşamaları detaylarıyla veri tabanı sistemlerinde tutulmaktadır; bu nedenle artık daha büyük veri setleriyle karşı karşıya kalmaktayız. Büyük veri çağında, makine öğrenmesi yöntemleri kullanarak çıkarımsal metin özetleme önemli bir çalışma alanı haline gelmiştir. Çıkarımsal özetleme, orijinal metinden önemli bilgileri çıkartarak kısa ve öz bir sürüm oluşturmayı amaçlar. Bu, genellikle metnin boyutunu küçültme ve temel bilgileri korumayı amaçlar. Bu çalışma, metin özetleme süreçlerinin, insan müdahalesi olmadan, orijinal metnin anlamını koruyarak kısa ve akıcı bir özet üretme görevini, makine öğrenimi modelleriyle sağlamayı amaçlar. Makine öğrenimi tabanlı modeller ve çıkarımsal metin özetleme, bilgisayarların insan bilgisi ve dil yeteneğinden yoksun olması nedeniyle zor olan bu işi çözmek için çeşitli yaklaşımlar sunar. Bu çalışmada, çıkarımsal metin özetlemenin belgeden doğrudan cümleleri alarak tutarlı bir özet oluşturulup, makine öğrenimi yöntemlerinin uygulanabilirliği ve etkinliği test edilmiştir. Makine öğrenimi yöntemleri olarak; K-Ortalamalar, Rastgele Orman, Gradyan Arttırma Makineleri (GBM) / XGBoost, Lojistik Regresyon ve Destek Vektör Makineleri (SVM) gibi algoritmalar denenmiş, performansları çeşitli metin veri setleri üzerinde karşılaştırmalı olarak test edilmiştir.

Kaynakça

  • AKCA, M. F. (2020). Nedir Bu Destek Vektör Makineleri? (Makine Öğrenmesi Serisi-2) | by Mehmet Fatih AKCA | Deep Learning Türkiye | Medium. Medium.
  • Alpkoçak, A., Tocoglu, M. A., Çelikten, A., & Aygün, İ. (2019). Türkçe Metinlerde Duygu Analizi için Farklı Makine Öğrenmesi Yöntemlerinin Karşılaştırılması. Deu Muhendislik Fakultesi Fen ve Muhendislik, 21(63), 719–725. https://doi.org/10.21205/deufmd.2019216303
  • Ayata, F., & Çavuş, H. (2022). Yüz Tanıma Sistemlerinde Kullanılan ESA, YGH-DVM ve DSA Algoritmalarının Performans Testleri. Fırat Üniversitesi Fen Bilimleri Dergisi, 34(1), 39–48.
  • AYDIN, A., & UÇKAN, T. (2023). Çizgeler Üzerinde Farklı Ağırlıklandırma Yöntemleri Ve Merkezilik Ölçütleri İle Çıkarımsal Metin Özetleme. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 35(1), 71–79. https://doi.org/10.35234/fumbd.1155617
  • Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5–32. https://doi.org/10.1023/A:1010933404324
  • Chen, T., international, C. G.-P. of the 22nd acm sigkdd, & 2016, undefined. (2016). Xgboost: A scalable tree boosting system. Dl.Acm.Org, 13-17-Augu, 785–794. https://doi.org/10.1145/2939672.2939785
  • Chiusano, F. (2022). Two minutes NLP — Learn the ROUGE metric by examples _ by Fabio Chiusano _ NLPlanet _ Medium.
  • Erhandı, B. (2020). Derin öğrenme ile metin özetleme, 34.
  • GÖRENTAŞ, M. B., & UÇKAN, T. (2023). Makine Öğrenmesi Yöntemleri Kullanılarak Mahkeme Kararlarlarının Kümelenmesi. Computer Science, (8), 148–158. https://doi.org/10.53070/bbd.1318518
  • GÖRENTAŞ, M. B., UÇKAN, T., & BAYRAM ARLI, N. (2023). Uyuşmazlık Mahkemesi Kararlarının Makine Öğrenmesi Yöntemleri ile Sınıflandırılması. Yüzüncü Yıl Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 28(3), 947–961. https://doi.org/10.53433/yyufbed.1292275
  • Gupta, V., intelligence, G. L.-J. of emerging technologies in web, & 2010, undefined. (2010). A survey of text summarization extractive techniques. CiteseerV Gupta, GS LehalJournal of Emerging Technologies in Web Intelligence, 2010•Citeseer. https://doi.org/10.4304/jetwi.2.3.157-157
  • Khan, R., Qian, Y., Information, S. N.-I. J. of, & 2019, undefined. (2019). Extractive based text summarization using k-means and tf-idf. Researchgate.NetR Khan, Y Qian, S NaeemInternational Journal of Information Engineering and Electronic Business, 2019•researchgate.Net, 3, 33–44. https://doi.org/10.5815/ijieeb.2019.03.05
  • Luhn, H. P. (2010). The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development, 2(2), 159–165. https://doi.org/10.1147/rd.22.0159
  • Martin Katz, D., Bommarito, M. J., & Blackman, J. (2017). A general approach for predicting the behavior of the Supreme Court of the United States. PLoS ONE, 12(4). https://doi.org/10.1371/JOURNAL.PONE.0174698
  • Mumcuoğlu, E., Öztürk, C., Ozaktas, H., & A. K.-I. P., & 2021, undefined. (2021). Natural language processing in law: Prediction of outcomes in the higher courts of Turkey. Elsevier, 58(5), 306–4573. https://doi.org/10.1016/j.ipm.2021.102684
  • Nenkova, A., & McKeown, K. (2012). A survey of text summarization techniques. In Mining Text Data (Vol. 9781461432, pp. 43–76). https://doi.org/10.1007/978-1-4614-3223-4_3
  • Olmez, R. (2024). T5 modelini Kullanarak Geçmişten Günümüze Metin Özetleme | by Ramazan Olmez | Medium.
  • Özmutlu, H. C., & Çağlar, B. (2009). ARAMA MOTORLARINDA YENİ KONU TANILAMADA KARAKTER N-GRAM VE YAPAY SİNİR AĞLARI UYGULAMASI. Acikerisim.Uludag.Edu.Tr, 14.
  • Schütze, H., Manning, C., & Raghavan, P. (2008). Introduction to information retrieval. Sharif, P. (2018). BBC News Summary.
  • YAZĞILI, E., & BAYKARA, M. (2022). Türkçe metinlerde makine öğrenmesi yöntemleri ile siber zorbalık tespiti. Gümüşhane Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 12(2), 443–453. https://doi.org/10.17714/gumusfenbil.935448
Toplam 20 adet kaynakça vardır.

Ayrıntılar

Birincil Dil İngilizce
Konular Bilgi Modelleme, Yönetim ve Ontolojiler, Yazılım Kalitesi, Süreçler ve Metrikler
Bölüm Makaleler
Yazarlar

Taner Uçkan 0000-0001-5385-6775

Kübra Karabulut

Yayımlanma Tarihi 31 Aralık 2024
Gönderilme Tarihi 26 Ağustos 2024
Kabul Tarihi 11 Kasım 2024
Yayımlandığı Sayı Yıl 2024 Cilt: 7 Sayı: 2

Kaynak Göster

APA Uçkan, T., & Karabulut, K. (2024). The Effectiveness of Machine Learning Algorithms in Extractive Text Summarization: A Comparative Analysis of K-Means, Random Forest, GBM, Logistic Regression, and SVM. Doğu Fen Bilimleri Dergisi, 7(2), 77-91. https://doi.org/10.57244/dfbd.1538959