Araştırma Makalesi

TF-IDF ve Doc2Vec Tabanlı Türkçe Metin Sınıflandırma Sisteminin Başarım Değerinin Ardışık Kelime Grubu Tespiti ile Arttırılması

Sayı: 21 31 Ocak 2021
PDF İndir
EN TR

TF-IDF ve Doc2Vec Tabanlı Türkçe Metin Sınıflandırma Sisteminin Başarım Değerinin Ardışık Kelime Grubu Tespiti ile Arttırılması

Öz

TF-IDF terim ağırlıklandırma ölçümü kelimelerin metinler içinde geçme sıklığı bilgisine dayalıdır. Bu ölçüm kelimeler arasındaki anlamsal ilişkiyi barındırmamaktadır. Yapay sinir ağlarına dayalı olan Doc2Vec metodu kelimeler ve kelimeleri içeren dokümanlar arasındaki anlamsal ilişkiyi barındırmakta ve yönetilebilir boyutlu doküman vektörlerinin elde edilmesini sağlamaktadır. Ardışık kelime gurubu tespitinin metin madenciliği üzerindeki olumlu etkileri literatürde sunulan pek çok çalışma tarafından belirtilmiştir. Ardışık kelime gurubu tespiti doküman içindeki anlamsal bütünlüğün sağlanması açısından önemlidir. Bu çalışmada, hem geleneksel TF-IDF terim ağırlıklandırma ölçümünün, hem de YSA’lara dayalı bir yöntem olan Doc2Vec yönteminin kullanımı ile vektörleştirilen dokümanlar üzerinde temel makine öğrenmesi sınıflandırıcılarının ve topluluk öğrenmesi algoritmalarının başarım değerleri kıyaslanmıştır. Çalışmamızda temel sınıflandırıclar olarak Naive Bayes, K-En yakın komşuluk, Lojistik Regresyon, Karar Destek Makineleri, Karar Ağaçları, Çok Katmanlı Algılayıcılar ve topluluk öğrenmesi metotlarından Rassal Orman, Torbalama ve Adaboost algoritmaları kullanılmıştır. Ayrıca son olarak en başarılı üç sınıflandırma algoritması Çoğunluk oylaması ile birleştirilmiş ve elde edilen sonuçlar paylaşılmıştır. Sınıflandırıcılar farklı uzunluklarda haber dokümanlarını içeren 4 farklı Türkçe veri kümesi üzerinde uygulanmıştır. Çalışmamızın literatüre olan katkısı sınıflandırma aşamasına geçilmeden önce dokümanların içindeki ardışık kelime grubu tespitinin gerçekleştirilmesi ve dokümanların bu kelime öbeklerinin tek bir kelime gibi ele alınmasıyla vektörleştirildikten sonra, uygulanan sınıflandırıcıların başarım değerlerinin arttığının gösterilmesi olmuştur. Ardışık kelime grubu tespiti için kelimelerin birlikte geçme sıklığı prensibine dayalı olan bir prensip dışında, Türkçe Vikipedi’nin kelime bağlantıları da kullanılmış ve dokümanlar içinde az sayıda geçmesine rağmen anlamlı olan ardışık kelime öbeklerinin tespiti gerçekleştirilebilmiştir. Ardışık kelime grubu tespiti ile sınıflandırma deneylerinin hemen hemen tümünde daha yüksek başarım değerleri elde edilmiştir.

Anahtar Kelimeler

Kaynakça

  1. Mikolov T, Chen K, Corrado G, Dean J. (2013), “Efficient estimation of word representations in vector space”. Proceedings of Workshop at ICLR. Scottsdale, Arizona 2-4 Mayıs 2013.
  2. Quoc Le and Tomas Mikolov. 2014. Distributed representations of sentences and documents. In Proceedings of the 31st International Conference on Machine Learning (ICML 2014), pages 1188–1196, Beijing, China.
  3. Ay Karakuş, B., Talo, M., Hallaç, İ. R., & Aydin, G. (2018). Evaluating deep learning models for sentiment classification. Concurrency and Computation: Practice and Experience, e4783.
  4. Karasoy, O., & Ballı, S. (2017, October). Classification Turkish SMS with deep learning tool Word2Vec. In Computer Science and Engineering (UBMK), 2017 International Conference on (pp. 294-297). IEEE.
  5. Şahin, G. (2017, May). Turkish document classification based on Word2Vec and SVM classifier. In 2017 25th signal processing and communications applications conference (SIU) (pp. 1-4). IEEE.
  6. Çelenli, H. İ., Öztürk, S. T., Şahin, G., Gerek, A., & Ganiz, M. C. (2018, September). Document Embedding Based Supervised Methods for Turkish Text Classification. In 2018 3rd International Conference on Computer Science and Engineering (UBMK) (pp. 477-482). IEEE. Sarı, M., & Özbayoğlu, A. M. (2018, September). Classification of Turkish Documents Using Paragraph Vector. In 2018 International Conference on Artificial Intelligence and Data Processing (IDAP) (pp. 1-5). IEEE.
  7. Karcioğlu, A. A., & Aydin, T. (2019, April). Sentiment Analysis of Turkish and English Twitter Feeds Using Word2Vec Model. In 2019 27th Signal Processing and Communications Applications Conference (SIU) (pp. 1-4). IEEE.
  8. Deniz, E., Erbay, H., & Coşar, M. (2019, November). Classification of Turkish E-Mails with Doc2Vec. In 2019 1st International Informatics and Software Engineering Conference (UBMYK) (pp. 1-4). IEEE.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Mühendislik

Bölüm

Araştırma Makalesi

Yayımlanma Tarihi

31 Ocak 2021

Gönderilme Tarihi

11 Ağustos 2020

Kabul Tarihi

18 Ocak 2021

Yayımlandığı Sayı

Yıl 2021 Sayı: 21

Kaynak Göster

APA
Kınık, D., & Güran, A. (2021). TF-IDF ve Doc2Vec Tabanlı Türkçe Metin Sınıflandırma Sisteminin Başarım Değerinin Ardışık Kelime Grubu Tespiti ile Arttırılması. Avrupa Bilim ve Teknoloji Dergisi, 21, 323-332. https://doi.org/10.31590/ejosat.774144
AMA
1.Kınık D, Güran A. TF-IDF ve Doc2Vec Tabanlı Türkçe Metin Sınıflandırma Sisteminin Başarım Değerinin Ardışık Kelime Grubu Tespiti ile Arttırılması. EJOSAT. 2021;(21):323-332. doi:10.31590/ejosat.774144
Chicago
Kınık, Doğancan, ve Aysun Güran. 2021. “TF-IDF ve Doc2Vec Tabanlı Türkçe Metin Sınıflandırma Sisteminin Başarım Değerinin Ardışık Kelime Grubu Tespiti ile Arttırılması”. Avrupa Bilim ve Teknoloji Dergisi, sy 21: 323-32. https://doi.org/10.31590/ejosat.774144.
EndNote
Kınık D, Güran A (01 Ocak 2021) TF-IDF ve Doc2Vec Tabanlı Türkçe Metin Sınıflandırma Sisteminin Başarım Değerinin Ardışık Kelime Grubu Tespiti ile Arttırılması. Avrupa Bilim ve Teknoloji Dergisi 21 323–332.
IEEE
[1]D. Kınık ve A. Güran, “TF-IDF ve Doc2Vec Tabanlı Türkçe Metin Sınıflandırma Sisteminin Başarım Değerinin Ardışık Kelime Grubu Tespiti ile Arttırılması”, EJOSAT, sy 21, ss. 323–332, Oca. 2021, doi: 10.31590/ejosat.774144.
ISNAD
Kınık, Doğancan - Güran, Aysun. “TF-IDF ve Doc2Vec Tabanlı Türkçe Metin Sınıflandırma Sisteminin Başarım Değerinin Ardışık Kelime Grubu Tespiti ile Arttırılması”. Avrupa Bilim ve Teknoloji Dergisi. 21 (01 Ocak 2021): 323-332. https://doi.org/10.31590/ejosat.774144.
JAMA
1.Kınık D, Güran A. TF-IDF ve Doc2Vec Tabanlı Türkçe Metin Sınıflandırma Sisteminin Başarım Değerinin Ardışık Kelime Grubu Tespiti ile Arttırılması. EJOSAT. 2021;:323–332.
MLA
Kınık, Doğancan, ve Aysun Güran. “TF-IDF ve Doc2Vec Tabanlı Türkçe Metin Sınıflandırma Sisteminin Başarım Değerinin Ardışık Kelime Grubu Tespiti ile Arttırılması”. Avrupa Bilim ve Teknoloji Dergisi, sy 21, Ocak 2021, ss. 323-32, doi:10.31590/ejosat.774144.
Vancouver
1.Doğancan Kınık, Aysun Güran. TF-IDF ve Doc2Vec Tabanlı Türkçe Metin Sınıflandırma Sisteminin Başarım Değerinin Ardışık Kelime Grubu Tespiti ile Arttırılması. EJOSAT. 01 Ocak 2021;(21):323-32. doi:10.31590/ejosat.774144

Cited By