Research Article
BibTex RIS Cite

GloVe Kelime Gömmeleri ve Sinir Ağları ile Haber Metinlerinin Sınıflandırılması

Year 2023, Volume: 9 Issue: 1, 175 - 187, 30.06.2023
https://doi.org/10.29132/ijpas.1265301

Abstract

Dijital haberlerin artan miktarları, istenilen türdeki haberlere doğru ve hızlı bir şekilde erişim için haber metinlerinin kategorilere ayrılmasını gerektirmektedir. Bu çalışmada, ön-eğitimli kelime gömülmelerinin, Uzun Ömürlü Kısa Dönem Bellek Ağı (Long-Short Term Memory, LSTM) ve Evrişimsel Sinir Ağları (Convolutional Neural Network, CNN) gibi derin öğrenme modelleri üzerindeki etkisi araştırılmaktadır. Global Vektör (GloVe) kelime gömülmelerinden alınan bağlamsal temsilleri girdi olarak alan LSTM ve CNN ağları kullanılarak haber metinleri sınıflandırılmıştır. Kapsamlı ve karşılaştırmalı araştırmaların eksikliği nedeniyle GloVe gömme katmanı tarafından sağlanan bağlamsal temsiller farklı sınıflandırıcılar ve veri setleri üzerinde test edilmektedir. Deneysel süreçler boyunca Türkçe Haber başlıklarından oluşan Turkish Headlines veri seti ve BBC News Classification veri setleri kullanılmıştır. Kelime gömülmelerinin ağlar üzerindeki etkisini ortaya koymak için deneysel süreçler aynı parametreler ile tekrarlanmıştır. LSTM modelinde Glove kelime gömülme yöntemi kullanıldığında modelin başarısının %81’den %91’e çıktığı gözlemlenmektedir. CNN modelinde ise Glove kelime gömülmelerinin modelin başarısının olumlu yansımadığı görülmektedir.

References

  • Aci, Ç. & Çirak, A. (2019). Türkçe Haber Metinlerinin Konvolüsyonel Sinir Ağları ve Word2Vec Kullanılarak Sınıflandırılması. Bilişim Teknolojileri Dergisi, 12(3), 219-228. DOI: 10.17671/gazibtd.457917.
  • Adalı, E. (2016). Doğal Dil İşleme . Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi , 5 (2) , . Retrieved from https://dergipark.org.tr/tr/pub/tbbmd/issue/22245/238797.
  • Amasyalı, M. F., Diri, B. and Türkoğlu, F. (2006). “Farklı Özellik Vektörleri ile Türkçe Dokümanların Yazarlarının Belirlenmesi”, 15th Turkish Symposium on Artificial Intelligence and Neural Network, Muğla, Türkiye.
  • Aydoğan, M. & Karci, A.(2019a). "Turkish Text Classification with Machine Learning and Transfer Learning," 2019 International Artificial Intelligence and Data Processing Symposium (IDAP), Malatya, Turkey, pp. 1-6, doi: 10.1109/IDAP.2019.8875919.
  • Aydoğan, M. & Karcı, A. (2019b). Kelime temsil yöntemleri ile kelime benzerliklerinin incelenmesi. Çukurova Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, 34(2), 181-196.
  • Bose, B. (2019). BBC News Classification. Kaggle. https://kaggle.com/competitions/learn-ai-bbc
  • Darbaş, H. & Karci, A. (2020). Graf Benzerliği İle Metin Kıyaslama. Computer Science , 5 (2), 114-125 . Retrieved from https://dergipark.org.tr/tr/pub/bbd/issue/57870/743751.
  • Diri, B. & Amasyalı, M.F. (2003). Automatic Author Detection for Turkish Texts, Artificial Neural Networks and Neural Information Processing, 138-141.
  • Doğan, S. & Diri, B. (2010). Türkçe Dokümanlar İçin N-gram Tabanlı Yeni Bir Sınıflandırma(Ng-ind): Yazar, Tür ve Cinsiyet” Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 3, 11–20.
  • Hark, C. (2022). Sahte Haber Tespiti için Derin Bağlamsal Kelime Gömülmeleri ve Sinirsel Ağların Performans Değerlendirmesi. Fırat Üniversitesi Müh. Bil. Dergisi, 34(2), 733-742.
  • Karakurt, M. (2019). Patoloji Görüntülerinin Derin Öğrenme Yöntemleri İle Sınıflandırılması. Yüksek Lisans Tezi, Ondokuz Mayıs Üniversitesi, Samsun.
  • Karakurt, M. & İşeri, İ. (2022). Patoloji Görüntülerinin Derin Öğrenme Yöntemleri İle Sınıflandırılması. Avrupa Bilim ve Teknoloji Dergisi, (33), 192-206.
  • Karakurt, M., Oymak, E.A., Hark, H., Erdoğan, M.C. & Karcı, A. (2022). "Karcı Sinir Ağlarının Uygulaması ve Performans Analizi". Computer Science, Vol:7, 68-80.
  • LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W. and Jackel, L. D. 1989. Backpropagation applied to handwritten zip code recognition. Neural computation, 1:4, 541-551.
  • LeCun, Y., Bottou, L., Bengio, Y. and Haffner, P. 1998. Gradientbased learning applied to document recognition. Proceedings of the IEEE, 86:11, 2278-2324.
  • Levent, V. & Diri, B., (2014). Türkçe Dokümanlarda Yapay Sinir ağları ile Yazar Tanıma . Akademik Bilişim (pp.1-5). Mersin, Türkiye.
  • McCulloch, W. S. and Pitts, W. 1943. A Logical Calculus of the İdeas İmmanent in Nervous Activity. The Bulletin of Mathematical Biophysics, 5:4, 115-133.
  • Mikolov T., Chen K., Corrado G. and Dean J. (2013). Efficient estimation of word representations in vector space. Proceedings of Workshop at ICLR. Scottsdale, Arizona.
  • Rosenblatt, F. 1958. The Perceptron: A Probabilistic Model for Information Storage And Organization in the Brain. Psychological review, 65:6, 386.
  • Süzen, A.A., (2019). LSTM Derin Sinir Ağları İle Üniversite Giriş Sınavındaki Matematik Soru Sayılarının Konulara Göre Tahmini, Engineering Sciences (NWSAENS), 14(3):112-118, DOI: 10.12739/NWSA.2019.14.3.1A0436.
  • Şeker, S.E., (2015), Doğal Dil İşleme (Natural Language Processing), YBS Ansiklopedi, 2(4), 2015.
  • UCI Machine Learning Repository: Turkish Headlines Dataset Data Set. (2021). Retrieved July 6, 2022, from https://archive.ics.uci.edu/ml/datasets/Turkish+Headlines+Dataset
  • Uçkan, T., Hark, C., Seyyarer E. & Karcı A. (2019). Ağırlıklandırılmış Çizgelerde Tf-Idf ve Eigen Ayrışımı Kullanarak Metin Sınıflandırma. Bitlis Eren Üniversitesi Fen Bilimleri Dergisi, 8(4):1349-1362, doi:10.17798/bitlisfen.53122.

Classification of News Texts with GloVe Word Embeddings and Neural Networks

Year 2023, Volume: 9 Issue: 1, 175 - 187, 30.06.2023
https://doi.org/10.29132/ijpas.1265301

Abstract

Dijital haberlerin artan miktarları, istenilen türdeki haberlere doğru ve hızlı bir şekilde erişim için haber metinlerinin kategorilere ayrılmasını gerektirmektedir. Bu çalışmada, ön-eğitimli kelime gömülmelerinin, Uzun Ömürlü Kısa Dönem Bellek Ağı (Long-Short Term Memory, LSTM) ve Evrişimsel Sinir Ağları (Convolutional Neural Network, CNN) gibi derin öğrenme modelleri üzerindeki etkisi araştırılmaktadır. Global Vektör (GloVe) kelime gömülmelerinden alınan bağlamsal temsilleri girdi olarak alan LSTM ve CNN ağları kullanılarak haber metinleri sınıflandırılmıştır. Kapsamlı ve karşılaştırmalı araştırmaların eksikliği nedeniyle GloVe gömme katmanı tarafından sağlanan bağlamsal temsiller farklı sınıflandırıcılar ve veri setleri üzerinde test edilmektedir. Deneysel süreçler boyunca Türkçe Haber başlıklarından oluşan Turkish Headlines veri seti ve BBC News Classification veri setleri kullanılmıştır. Kelime gömülmelerinin ağlar üzerindeki etkisini ortaya koymak için deneysel süreçler aynı parametreler ile tekrarlanmıştır. LSTM modelinde Glove kelime gömülme yöntemi kullanıldığında modelin başarısının %81’den %91’e çıktığı gözlemlenmektedir. CNN modelinde ise Glove kelime gömülmelerinin modelin başarısının olumlu yansımadığı görülmektedir.

References

  • Aci, Ç. & Çirak, A. (2019). Türkçe Haber Metinlerinin Konvolüsyonel Sinir Ağları ve Word2Vec Kullanılarak Sınıflandırılması. Bilişim Teknolojileri Dergisi, 12(3), 219-228. DOI: 10.17671/gazibtd.457917.
  • Adalı, E. (2016). Doğal Dil İşleme . Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi , 5 (2) , . Retrieved from https://dergipark.org.tr/tr/pub/tbbmd/issue/22245/238797.
  • Amasyalı, M. F., Diri, B. and Türkoğlu, F. (2006). “Farklı Özellik Vektörleri ile Türkçe Dokümanların Yazarlarının Belirlenmesi”, 15th Turkish Symposium on Artificial Intelligence and Neural Network, Muğla, Türkiye.
  • Aydoğan, M. & Karci, A.(2019a). "Turkish Text Classification with Machine Learning and Transfer Learning," 2019 International Artificial Intelligence and Data Processing Symposium (IDAP), Malatya, Turkey, pp. 1-6, doi: 10.1109/IDAP.2019.8875919.
  • Aydoğan, M. & Karcı, A. (2019b). Kelime temsil yöntemleri ile kelime benzerliklerinin incelenmesi. Çukurova Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, 34(2), 181-196.
  • Bose, B. (2019). BBC News Classification. Kaggle. https://kaggle.com/competitions/learn-ai-bbc
  • Darbaş, H. & Karci, A. (2020). Graf Benzerliği İle Metin Kıyaslama. Computer Science , 5 (2), 114-125 . Retrieved from https://dergipark.org.tr/tr/pub/bbd/issue/57870/743751.
  • Diri, B. & Amasyalı, M.F. (2003). Automatic Author Detection for Turkish Texts, Artificial Neural Networks and Neural Information Processing, 138-141.
  • Doğan, S. & Diri, B. (2010). Türkçe Dokümanlar İçin N-gram Tabanlı Yeni Bir Sınıflandırma(Ng-ind): Yazar, Tür ve Cinsiyet” Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 3, 11–20.
  • Hark, C. (2022). Sahte Haber Tespiti için Derin Bağlamsal Kelime Gömülmeleri ve Sinirsel Ağların Performans Değerlendirmesi. Fırat Üniversitesi Müh. Bil. Dergisi, 34(2), 733-742.
  • Karakurt, M. (2019). Patoloji Görüntülerinin Derin Öğrenme Yöntemleri İle Sınıflandırılması. Yüksek Lisans Tezi, Ondokuz Mayıs Üniversitesi, Samsun.
  • Karakurt, M. & İşeri, İ. (2022). Patoloji Görüntülerinin Derin Öğrenme Yöntemleri İle Sınıflandırılması. Avrupa Bilim ve Teknoloji Dergisi, (33), 192-206.
  • Karakurt, M., Oymak, E.A., Hark, H., Erdoğan, M.C. & Karcı, A. (2022). "Karcı Sinir Ağlarının Uygulaması ve Performans Analizi". Computer Science, Vol:7, 68-80.
  • LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W. and Jackel, L. D. 1989. Backpropagation applied to handwritten zip code recognition. Neural computation, 1:4, 541-551.
  • LeCun, Y., Bottou, L., Bengio, Y. and Haffner, P. 1998. Gradientbased learning applied to document recognition. Proceedings of the IEEE, 86:11, 2278-2324.
  • Levent, V. & Diri, B., (2014). Türkçe Dokümanlarda Yapay Sinir ağları ile Yazar Tanıma . Akademik Bilişim (pp.1-5). Mersin, Türkiye.
  • McCulloch, W. S. and Pitts, W. 1943. A Logical Calculus of the İdeas İmmanent in Nervous Activity. The Bulletin of Mathematical Biophysics, 5:4, 115-133.
  • Mikolov T., Chen K., Corrado G. and Dean J. (2013). Efficient estimation of word representations in vector space. Proceedings of Workshop at ICLR. Scottsdale, Arizona.
  • Rosenblatt, F. 1958. The Perceptron: A Probabilistic Model for Information Storage And Organization in the Brain. Psychological review, 65:6, 386.
  • Süzen, A.A., (2019). LSTM Derin Sinir Ağları İle Üniversite Giriş Sınavındaki Matematik Soru Sayılarının Konulara Göre Tahmini, Engineering Sciences (NWSAENS), 14(3):112-118, DOI: 10.12739/NWSA.2019.14.3.1A0436.
  • Şeker, S.E., (2015), Doğal Dil İşleme (Natural Language Processing), YBS Ansiklopedi, 2(4), 2015.
  • UCI Machine Learning Repository: Turkish Headlines Dataset Data Set. (2021). Retrieved July 6, 2022, from https://archive.ics.uci.edu/ml/datasets/Turkish+Headlines+Dataset
  • Uçkan, T., Hark, C., Seyyarer E. & Karcı A. (2019). Ağırlıklandırılmış Çizgelerde Tf-Idf ve Eigen Ayrışımı Kullanarak Metin Sınıflandırma. Bitlis Eren Üniversitesi Fen Bilimleri Dergisi, 8(4):1349-1362, doi:10.17798/bitlisfen.53122.
There are 23 citations in total.

Details

Primary Language Turkish
Subjects Engineering
Journal Section Articles
Authors

Hulya Hark 0000-0003-1926-9918

Meral Karakurt 0000-0001-7318-2798

Cengiz Hark 0000-0002-5190-3504

Ali Karci 0000-0002-8489-8617

Early Pub Date June 23, 2023
Publication Date June 30, 2023
Submission Date March 14, 2023
Acceptance Date May 2, 2023
Published in Issue Year 2023 Volume: 9 Issue: 1

Cite

APA Hark, H., Karakurt, M., Hark, C., Karci, A. (2023). GloVe Kelime Gömmeleri ve Sinir Ağları ile Haber Metinlerinin Sınıflandırılması. International Journal of Pure and Applied Sciences, 9(1), 175-187. https://doi.org/10.29132/ijpas.1265301
AMA Hark H, Karakurt M, Hark C, Karci A. GloVe Kelime Gömmeleri ve Sinir Ağları ile Haber Metinlerinin Sınıflandırılması. International Journal of Pure and Applied Sciences. June 2023;9(1):175-187. doi:10.29132/ijpas.1265301
Chicago Hark, Hulya, Meral Karakurt, Cengiz Hark, and Ali Karci. “GloVe Kelime Gömmeleri Ve Sinir Ağları Ile Haber Metinlerinin Sınıflandırılması”. International Journal of Pure and Applied Sciences 9, no. 1 (June 2023): 175-87. https://doi.org/10.29132/ijpas.1265301.
EndNote Hark H, Karakurt M, Hark C, Karci A (June 1, 2023) GloVe Kelime Gömmeleri ve Sinir Ağları ile Haber Metinlerinin Sınıflandırılması. International Journal of Pure and Applied Sciences 9 1 175–187.
IEEE H. Hark, M. Karakurt, C. Hark, and A. Karci, “GloVe Kelime Gömmeleri ve Sinir Ağları ile Haber Metinlerinin Sınıflandırılması”, International Journal of Pure and Applied Sciences, vol. 9, no. 1, pp. 175–187, 2023, doi: 10.29132/ijpas.1265301.
ISNAD Hark, Hulya et al. “GloVe Kelime Gömmeleri Ve Sinir Ağları Ile Haber Metinlerinin Sınıflandırılması”. International Journal of Pure and Applied Sciences 9/1 (June 2023), 175-187. https://doi.org/10.29132/ijpas.1265301.
JAMA Hark H, Karakurt M, Hark C, Karci A. GloVe Kelime Gömmeleri ve Sinir Ağları ile Haber Metinlerinin Sınıflandırılması. International Journal of Pure and Applied Sciences. 2023;9:175–187.
MLA Hark, Hulya et al. “GloVe Kelime Gömmeleri Ve Sinir Ağları Ile Haber Metinlerinin Sınıflandırılması”. International Journal of Pure and Applied Sciences, vol. 9, no. 1, 2023, pp. 175-87, doi:10.29132/ijpas.1265301.
Vancouver Hark H, Karakurt M, Hark C, Karci A. GloVe Kelime Gömmeleri ve Sinir Ağları ile Haber Metinlerinin Sınıflandırılması. International Journal of Pure and Applied Sciences. 2023;9(1):175-87.

154501544915448154471544615445