Araştırma Makalesi

TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması

Cilt: 23 Sayı: 67 15 Ocak 2021
PDF İndir
TR EN

TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması

Öz

Bilgisayar ve internetin hayatımıza girmesi ile bilgiye erişmek daha kolay hale gelmiştir. İnternete ulaşımın kolaylaşması ve internet kullanıcılarının artması sonucu veri miktarı da her geçen saniye büyümektedir. Ancak doğru bilgiye erişebilmek için verilerin sınıflandırılması gereklidir. Sınıflandırma, verilerin belirli bir anlamsal kategoriye göre ayrılması işlemidir. Dijital belgelerin anlamsal kategorilere ayrılması, metnin ulaşılabilirliğini önemli ölçüde etkilemektedir. Bu çalışmada, farklı Türkçe haber kaynaklarından elde edilen veri kümesi üzerinde metin sınıflandırma çalışması yapılmıştır. Öncelikli olarak haber metinleri ön işlemeden geçirilmiş ve gövdelenmiştir. Ön işlemeden geçirilen metinler Tfidfvectorizer, Word2Vec ve FastText yöntemleri ile ayrı ayrı vektörize edildikten sonra Destek Vektör Makinesi (Support Vector Machine, SVM), Naive Bayes, Logistic Regression, Random Forest ve Yapay Sinir Ağı (Artificial Neural Network, ANN) yöntemleri ile sınıflandırılmıştır. Yapılan çalışma sonucuna göre en yüksek başarı oranı %95,75 ile FastText yöntemi ve vektör modeli ile elde edilen metnin SVM ile sınıflandırılmasından elde edilmiştir.

Anahtar Kelimeler

Kaynakça

  1. Vapnik V. The nature of statistical learning theory. Springer, 2nd edition, 2013; New York, USA. pp: 32-40.
  2. Joachims, T. (1999, June). Transductive inference for text classification using support vector machines. In Icml (Vol. 99, pp. 200-209).
  3. Khan, Aurangzeb, et al. "A review of machine learning algorithms for text-documents classification." Journal of advances in information technology 1.1 (2010): 4-20.
  4. Liu, Y., Liu, Z., Chua, T. S., & Sun, M. (2015, February). Topical word embeddings. In Twenty-Ninth AAAI Conference on Artificial Intelligence.
  5. Ramos, J. Using tf-idf to determine word relevance in document queries. In Proceedings of the first instructional conference on machine learning 2003; (Vol. 242, pp. 133-142).
  6. Mikolov T, Chen K, Corrado G, Dean J. (2013), “Efficient estimation of word representations in vector space”. Proceedings of Workshop at ICLR. Scottsdale, Arizona 2-4 Mayıs 2013.
  7. Joulin, A., Grave, E., Bojanowski, P., & Mikolov, T. (2016). Bag of tricks for efficient text classification. arXiv preprint arXiv:1607.01759
  8. https://www.researchgate.net/publication/310799885_Generalized_Confusion_Matrix_for_Multiple_Classes

Ayrıntılar

Birincil Dil

Türkçe

Konular

Mühendislik

Bölüm

Araştırma Makalesi

Yayımlanma Tarihi

15 Ocak 2021

Gönderilme Tarihi

22 Ocak 2020

Kabul Tarihi

21 Temmuz 2020

Yayımlandığı Sayı

Yıl 2021 Cilt: 23 Sayı: 67

Kaynak Göster

APA
Çelik, Ö., & Koç, B. C. (2021). TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi, 23(67), 121-127. https://doi.org/10.21205/deufmd.2021236710
AMA
1.Çelik Ö, Koç BC. TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması. DEUFMD. 2021;23(67):121-127. doi:10.21205/deufmd.2021236710
Chicago
Çelik, Özer, ve Burak Can Koç. 2021. “TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması”. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi 23 (67): 121-27. https://doi.org/10.21205/deufmd.2021236710.
EndNote
Çelik Ö, Koç BC (01 Ocak 2021) TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi 23 67 121–127.
IEEE
[1]Ö. Çelik ve B. C. Koç, “TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması”, DEUFMD, c. 23, sy 67, ss. 121–127, Oca. 2021, doi: 10.21205/deufmd.2021236710.
ISNAD
Çelik, Özer - Koç, Burak Can. “TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması”. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi 23/67 (01 Ocak 2021): 121-127. https://doi.org/10.21205/deufmd.2021236710.
JAMA
1.Çelik Ö, Koç BC. TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması. DEUFMD. 2021;23:121–127.
MLA
Çelik, Özer, ve Burak Can Koç. “TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması”. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi, c. 23, sy 67, Ocak 2021, ss. 121-7, doi:10.21205/deufmd.2021236710.
Vancouver
1.Özer Çelik, Burak Can Koç. TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması. DEUFMD. 01 Ocak 2021;23(67):121-7. doi:10.21205/deufmd.2021236710

Cited By

Personalized News Recommendation System

İstanbul Ticaret Üniversitesi Teknoloji ve Uygulamalı Bilimler Dergisi

https://doi.org/10.56809/icujtas.1193993

Bu dergi, Creative Commons Atıf-GayriTicari 4.0 Uluslararası Lisansı (CC BY-NC 4.0) altında lisanslanmıştır.

download?token=eyJhdXRoX3JvbGVzIjpbXSwiZW5kcG9pbnQiOiJmaWxlIiwicGF0aCI6IjliNTAvMDBjMi8xZmIxLzY5MjZmZDIyOGE1NzgyLjA3MzU5MTk2LnBuZyIsImV4cCI6MTc2NDE2OTE1Nywibm9uY2UiOiJhZDRmNjNlNzdhOWYwOWQ4YTNjNGVmNGIxOTFlZWViNyJ9.4Dxgc9mc-p4Tyti8NTU5pxEfGUWeuJud1fPWxu2mUy8