Araştırma Makalesi
BibTex RIS Kaynak Göster

GloVe Kelime Gömmeleri ve Sinir Ağları ile Haber Metinlerinin Sınıflandırılması

Yıl 2023, , 175 - 187, 30.06.2023
https://doi.org/10.29132/ijpas.1265301

Öz

Dijital haberlerin artan miktarları, istenilen türdeki haberlere doğru ve hızlı bir şekilde erişim için haber metinlerinin kategorilere ayrılmasını gerektirmektedir. Bu çalışmada, ön-eğitimli kelime gömülmelerinin, Uzun Ömürlü Kısa Dönem Bellek Ağı (Long-Short Term Memory, LSTM) ve Evrişimsel Sinir Ağları (Convolutional Neural Network, CNN) gibi derin öğrenme modelleri üzerindeki etkisi araştırılmaktadır. Global Vektör (GloVe) kelime gömülmelerinden alınan bağlamsal temsilleri girdi olarak alan LSTM ve CNN ağları kullanılarak haber metinleri sınıflandırılmıştır. Kapsamlı ve karşılaştırmalı araştırmaların eksikliği nedeniyle GloVe gömme katmanı tarafından sağlanan bağlamsal temsiller farklı sınıflandırıcılar ve veri setleri üzerinde test edilmektedir. Deneysel süreçler boyunca Türkçe Haber başlıklarından oluşan Turkish Headlines veri seti ve BBC News Classification veri setleri kullanılmıştır. Kelime gömülmelerinin ağlar üzerindeki etkisini ortaya koymak için deneysel süreçler aynı parametreler ile tekrarlanmıştır. LSTM modelinde Glove kelime gömülme yöntemi kullanıldığında modelin başarısının %81’den %91’e çıktığı gözlemlenmektedir. CNN modelinde ise Glove kelime gömülmelerinin modelin başarısının olumlu yansımadığı görülmektedir.

Kaynakça

  • Aci, Ç. & Çirak, A. (2019). Türkçe Haber Metinlerinin Konvolüsyonel Sinir Ağları ve Word2Vec Kullanılarak Sınıflandırılması. Bilişim Teknolojileri Dergisi, 12(3), 219-228. DOI: 10.17671/gazibtd.457917.
  • Adalı, E. (2016). Doğal Dil İşleme . Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi , 5 (2) , . Retrieved from https://dergipark.org.tr/tr/pub/tbbmd/issue/22245/238797.
  • Amasyalı, M. F., Diri, B. and Türkoğlu, F. (2006). “Farklı Özellik Vektörleri ile Türkçe Dokümanların Yazarlarının Belirlenmesi”, 15th Turkish Symposium on Artificial Intelligence and Neural Network, Muğla, Türkiye.
  • Aydoğan, M. & Karci, A.(2019a). "Turkish Text Classification with Machine Learning and Transfer Learning," 2019 International Artificial Intelligence and Data Processing Symposium (IDAP), Malatya, Turkey, pp. 1-6, doi: 10.1109/IDAP.2019.8875919.
  • Aydoğan, M. & Karcı, A. (2019b). Kelime temsil yöntemleri ile kelime benzerliklerinin incelenmesi. Çukurova Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, 34(2), 181-196.
  • Bose, B. (2019). BBC News Classification. Kaggle. https://kaggle.com/competitions/learn-ai-bbc
  • Darbaş, H. & Karci, A. (2020). Graf Benzerliği İle Metin Kıyaslama. Computer Science , 5 (2), 114-125 . Retrieved from https://dergipark.org.tr/tr/pub/bbd/issue/57870/743751.
  • Diri, B. & Amasyalı, M.F. (2003). Automatic Author Detection for Turkish Texts, Artificial Neural Networks and Neural Information Processing, 138-141.
  • Doğan, S. & Diri, B. (2010). Türkçe Dokümanlar İçin N-gram Tabanlı Yeni Bir Sınıflandırma(Ng-ind): Yazar, Tür ve Cinsiyet” Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 3, 11–20.
  • Hark, C. (2022). Sahte Haber Tespiti için Derin Bağlamsal Kelime Gömülmeleri ve Sinirsel Ağların Performans Değerlendirmesi. Fırat Üniversitesi Müh. Bil. Dergisi, 34(2), 733-742.
  • Karakurt, M. (2019). Patoloji Görüntülerinin Derin Öğrenme Yöntemleri İle Sınıflandırılması. Yüksek Lisans Tezi, Ondokuz Mayıs Üniversitesi, Samsun.
  • Karakurt, M. & İşeri, İ. (2022). Patoloji Görüntülerinin Derin Öğrenme Yöntemleri İle Sınıflandırılması. Avrupa Bilim ve Teknoloji Dergisi, (33), 192-206.
  • Karakurt, M., Oymak, E.A., Hark, H., Erdoğan, M.C. & Karcı, A. (2022). "Karcı Sinir Ağlarının Uygulaması ve Performans Analizi". Computer Science, Vol:7, 68-80.
  • LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W. and Jackel, L. D. 1989. Backpropagation applied to handwritten zip code recognition. Neural computation, 1:4, 541-551.
  • LeCun, Y., Bottou, L., Bengio, Y. and Haffner, P. 1998. Gradientbased learning applied to document recognition. Proceedings of the IEEE, 86:11, 2278-2324.
  • Levent, V. & Diri, B., (2014). Türkçe Dokümanlarda Yapay Sinir ağları ile Yazar Tanıma . Akademik Bilişim (pp.1-5). Mersin, Türkiye.
  • McCulloch, W. S. and Pitts, W. 1943. A Logical Calculus of the İdeas İmmanent in Nervous Activity. The Bulletin of Mathematical Biophysics, 5:4, 115-133.
  • Mikolov T., Chen K., Corrado G. and Dean J. (2013). Efficient estimation of word representations in vector space. Proceedings of Workshop at ICLR. Scottsdale, Arizona.
  • Rosenblatt, F. 1958. The Perceptron: A Probabilistic Model for Information Storage And Organization in the Brain. Psychological review, 65:6, 386.
  • Süzen, A.A., (2019). LSTM Derin Sinir Ağları İle Üniversite Giriş Sınavındaki Matematik Soru Sayılarının Konulara Göre Tahmini, Engineering Sciences (NWSAENS), 14(3):112-118, DOI: 10.12739/NWSA.2019.14.3.1A0436.
  • Şeker, S.E., (2015), Doğal Dil İşleme (Natural Language Processing), YBS Ansiklopedi, 2(4), 2015.
  • UCI Machine Learning Repository: Turkish Headlines Dataset Data Set. (2021). Retrieved July 6, 2022, from https://archive.ics.uci.edu/ml/datasets/Turkish+Headlines+Dataset
  • Uçkan, T., Hark, C., Seyyarer E. & Karcı A. (2019). Ağırlıklandırılmış Çizgelerde Tf-Idf ve Eigen Ayrışımı Kullanarak Metin Sınıflandırma. Bitlis Eren Üniversitesi Fen Bilimleri Dergisi, 8(4):1349-1362, doi:10.17798/bitlisfen.53122.

Classification of News Texts with GloVe Word Embeddings and Neural Networks

Yıl 2023, , 175 - 187, 30.06.2023
https://doi.org/10.29132/ijpas.1265301

Öz

Dijital haberlerin artan miktarları, istenilen türdeki haberlere doğru ve hızlı bir şekilde erişim için haber metinlerinin kategorilere ayrılmasını gerektirmektedir. Bu çalışmada, ön-eğitimli kelime gömülmelerinin, Uzun Ömürlü Kısa Dönem Bellek Ağı (Long-Short Term Memory, LSTM) ve Evrişimsel Sinir Ağları (Convolutional Neural Network, CNN) gibi derin öğrenme modelleri üzerindeki etkisi araştırılmaktadır. Global Vektör (GloVe) kelime gömülmelerinden alınan bağlamsal temsilleri girdi olarak alan LSTM ve CNN ağları kullanılarak haber metinleri sınıflandırılmıştır. Kapsamlı ve karşılaştırmalı araştırmaların eksikliği nedeniyle GloVe gömme katmanı tarafından sağlanan bağlamsal temsiller farklı sınıflandırıcılar ve veri setleri üzerinde test edilmektedir. Deneysel süreçler boyunca Türkçe Haber başlıklarından oluşan Turkish Headlines veri seti ve BBC News Classification veri setleri kullanılmıştır. Kelime gömülmelerinin ağlar üzerindeki etkisini ortaya koymak için deneysel süreçler aynı parametreler ile tekrarlanmıştır. LSTM modelinde Glove kelime gömülme yöntemi kullanıldığında modelin başarısının %81’den %91’e çıktığı gözlemlenmektedir. CNN modelinde ise Glove kelime gömülmelerinin modelin başarısının olumlu yansımadığı görülmektedir.

Kaynakça

  • Aci, Ç. & Çirak, A. (2019). Türkçe Haber Metinlerinin Konvolüsyonel Sinir Ağları ve Word2Vec Kullanılarak Sınıflandırılması. Bilişim Teknolojileri Dergisi, 12(3), 219-228. DOI: 10.17671/gazibtd.457917.
  • Adalı, E. (2016). Doğal Dil İşleme . Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi , 5 (2) , . Retrieved from https://dergipark.org.tr/tr/pub/tbbmd/issue/22245/238797.
  • Amasyalı, M. F., Diri, B. and Türkoğlu, F. (2006). “Farklı Özellik Vektörleri ile Türkçe Dokümanların Yazarlarının Belirlenmesi”, 15th Turkish Symposium on Artificial Intelligence and Neural Network, Muğla, Türkiye.
  • Aydoğan, M. & Karci, A.(2019a). "Turkish Text Classification with Machine Learning and Transfer Learning," 2019 International Artificial Intelligence and Data Processing Symposium (IDAP), Malatya, Turkey, pp. 1-6, doi: 10.1109/IDAP.2019.8875919.
  • Aydoğan, M. & Karcı, A. (2019b). Kelime temsil yöntemleri ile kelime benzerliklerinin incelenmesi. Çukurova Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, 34(2), 181-196.
  • Bose, B. (2019). BBC News Classification. Kaggle. https://kaggle.com/competitions/learn-ai-bbc
  • Darbaş, H. & Karci, A. (2020). Graf Benzerliği İle Metin Kıyaslama. Computer Science , 5 (2), 114-125 . Retrieved from https://dergipark.org.tr/tr/pub/bbd/issue/57870/743751.
  • Diri, B. & Amasyalı, M.F. (2003). Automatic Author Detection for Turkish Texts, Artificial Neural Networks and Neural Information Processing, 138-141.
  • Doğan, S. & Diri, B. (2010). Türkçe Dokümanlar İçin N-gram Tabanlı Yeni Bir Sınıflandırma(Ng-ind): Yazar, Tür ve Cinsiyet” Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 3, 11–20.
  • Hark, C. (2022). Sahte Haber Tespiti için Derin Bağlamsal Kelime Gömülmeleri ve Sinirsel Ağların Performans Değerlendirmesi. Fırat Üniversitesi Müh. Bil. Dergisi, 34(2), 733-742.
  • Karakurt, M. (2019). Patoloji Görüntülerinin Derin Öğrenme Yöntemleri İle Sınıflandırılması. Yüksek Lisans Tezi, Ondokuz Mayıs Üniversitesi, Samsun.
  • Karakurt, M. & İşeri, İ. (2022). Patoloji Görüntülerinin Derin Öğrenme Yöntemleri İle Sınıflandırılması. Avrupa Bilim ve Teknoloji Dergisi, (33), 192-206.
  • Karakurt, M., Oymak, E.A., Hark, H., Erdoğan, M.C. & Karcı, A. (2022). "Karcı Sinir Ağlarının Uygulaması ve Performans Analizi". Computer Science, Vol:7, 68-80.
  • LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W. and Jackel, L. D. 1989. Backpropagation applied to handwritten zip code recognition. Neural computation, 1:4, 541-551.
  • LeCun, Y., Bottou, L., Bengio, Y. and Haffner, P. 1998. Gradientbased learning applied to document recognition. Proceedings of the IEEE, 86:11, 2278-2324.
  • Levent, V. & Diri, B., (2014). Türkçe Dokümanlarda Yapay Sinir ağları ile Yazar Tanıma . Akademik Bilişim (pp.1-5). Mersin, Türkiye.
  • McCulloch, W. S. and Pitts, W. 1943. A Logical Calculus of the İdeas İmmanent in Nervous Activity. The Bulletin of Mathematical Biophysics, 5:4, 115-133.
  • Mikolov T., Chen K., Corrado G. and Dean J. (2013). Efficient estimation of word representations in vector space. Proceedings of Workshop at ICLR. Scottsdale, Arizona.
  • Rosenblatt, F. 1958. The Perceptron: A Probabilistic Model for Information Storage And Organization in the Brain. Psychological review, 65:6, 386.
  • Süzen, A.A., (2019). LSTM Derin Sinir Ağları İle Üniversite Giriş Sınavındaki Matematik Soru Sayılarının Konulara Göre Tahmini, Engineering Sciences (NWSAENS), 14(3):112-118, DOI: 10.12739/NWSA.2019.14.3.1A0436.
  • Şeker, S.E., (2015), Doğal Dil İşleme (Natural Language Processing), YBS Ansiklopedi, 2(4), 2015.
  • UCI Machine Learning Repository: Turkish Headlines Dataset Data Set. (2021). Retrieved July 6, 2022, from https://archive.ics.uci.edu/ml/datasets/Turkish+Headlines+Dataset
  • Uçkan, T., Hark, C., Seyyarer E. & Karcı A. (2019). Ağırlıklandırılmış Çizgelerde Tf-Idf ve Eigen Ayrışımı Kullanarak Metin Sınıflandırma. Bitlis Eren Üniversitesi Fen Bilimleri Dergisi, 8(4):1349-1362, doi:10.17798/bitlisfen.53122.
Toplam 23 adet kaynakça vardır.

Ayrıntılar

Birincil Dil Türkçe
Konular Mühendislik
Bölüm Makaleler
Yazarlar

Hulya Hark 0000-0003-1926-9918

Meral Karakurt 0000-0001-7318-2798

Cengiz Hark 0000-0002-5190-3504

Ali Karci 0000-0002-8489-8617

Erken Görünüm Tarihi 23 Haziran 2023
Yayımlanma Tarihi 30 Haziran 2023
Gönderilme Tarihi 14 Mart 2023
Kabul Tarihi 2 Mayıs 2023
Yayımlandığı Sayı Yıl 2023

Kaynak Göster

APA Hark, H., Karakurt, M., Hark, C., Karci, A. (2023). GloVe Kelime Gömmeleri ve Sinir Ağları ile Haber Metinlerinin Sınıflandırılması. International Journal of Pure and Applied Sciences, 9(1), 175-187. https://doi.org/10.29132/ijpas.1265301
AMA Hark H, Karakurt M, Hark C, Karci A. GloVe Kelime Gömmeleri ve Sinir Ağları ile Haber Metinlerinin Sınıflandırılması. International Journal of Pure and Applied Sciences. Haziran 2023;9(1):175-187. doi:10.29132/ijpas.1265301
Chicago Hark, Hulya, Meral Karakurt, Cengiz Hark, ve Ali Karci. “GloVe Kelime Gömmeleri Ve Sinir Ağları Ile Haber Metinlerinin Sınıflandırılması”. International Journal of Pure and Applied Sciences 9, sy. 1 (Haziran 2023): 175-87. https://doi.org/10.29132/ijpas.1265301.
EndNote Hark H, Karakurt M, Hark C, Karci A (01 Haziran 2023) GloVe Kelime Gömmeleri ve Sinir Ağları ile Haber Metinlerinin Sınıflandırılması. International Journal of Pure and Applied Sciences 9 1 175–187.
IEEE H. Hark, M. Karakurt, C. Hark, ve A. Karci, “GloVe Kelime Gömmeleri ve Sinir Ağları ile Haber Metinlerinin Sınıflandırılması”, International Journal of Pure and Applied Sciences, c. 9, sy. 1, ss. 175–187, 2023, doi: 10.29132/ijpas.1265301.
ISNAD Hark, Hulya vd. “GloVe Kelime Gömmeleri Ve Sinir Ağları Ile Haber Metinlerinin Sınıflandırılması”. International Journal of Pure and Applied Sciences 9/1 (Haziran 2023), 175-187. https://doi.org/10.29132/ijpas.1265301.
JAMA Hark H, Karakurt M, Hark C, Karci A. GloVe Kelime Gömmeleri ve Sinir Ağları ile Haber Metinlerinin Sınıflandırılması. International Journal of Pure and Applied Sciences. 2023;9:175–187.
MLA Hark, Hulya vd. “GloVe Kelime Gömmeleri Ve Sinir Ağları Ile Haber Metinlerinin Sınıflandırılması”. International Journal of Pure and Applied Sciences, c. 9, sy. 1, 2023, ss. 175-87, doi:10.29132/ijpas.1265301.
Vancouver Hark H, Karakurt M, Hark C, Karci A. GloVe Kelime Gömmeleri ve Sinir Ağları ile Haber Metinlerinin Sınıflandırılması. International Journal of Pure and Applied Sciences. 2023;9(1):175-87.

154501544915448154471544615445