Araştırma Makalesi

Türkçe için karşılaştırmalı metin sınıflandırma analizi

Cilt: 24 Sayı: 5 12 Ekim 2018
PDF İndir
TR EN

Türkçe için karşılaştırmalı metin sınıflandırma analizi

Öz

Metin Sınıflandırma Doğal Dil İşleme (DDİ) alanında önemli bir yere sahiptir. Son zamanlarda metinsel verilerin artması ve otomatik etiketlenmesi gerekliliği, metin sınıflandırma probleminin önemini artırmıştır. Geleneksel yaklaşımlardan öne çıkan kelime torbası yöntemi yıllardır metin sınıflandırmasında başarılı olmaktadır. Son zamanlarda sinir ağları dil modelleri DDİ problemlerine başarılı bir şekilde uygulanmış ve bazı alanlarda büyük başarı kaydetmişlerdir. Yapay Sinir Ağları (YSA) temelli mimarilerin en önemli avantajı daha etkili kelime ve metin gösterilimlerin oluşturmasıdır. Bu gösterilimler, geleneksel yöntemlere göre daha az boyutlu ve daha etkili bulunmuştur. Özellikle anlambilimsel ve sözdizimsel analizlerde başarılı uygulamalar yapılmıştır. Öte yandan daha uzun vektörlerle gösterilim kullanan geleneksel kelime torbası yöntemleri, metin gösterilimleri anlamında hala gücünü korumaktadır. Ancak Türkçe için bu iki yaklaşımın herhangi bir karşılaştırılması yapılmamıştır. Bu çalışmada, geleneksel kelime torbası yaklaşımı ile sinir ağı temelli yeni gösterilim yaklaşımları metin sınıflandırması açısından karşılaştırılmıştır. Bu çalışmalarda gördük ki etkili özellik seçimleri geleneksel yöntemlerinin hala yeni kuşak kelime gömme (word embeddings) yaklaşımı ile yarışacak düzeydedir. Son olarak deneylerimizi bu iki yaklaşım açısından çeşitlendirerek raporladık ve Türkçe için başarılı metin sınıflandırma mimarisini bu raporda ayrıntılı tartıştık.

Anahtar Kelimeler

Kaynakça

  1. Salton G, Wong A, Yang CS. “A vector space model for automatic indexing”. Communications of the ACM, 18(11), 613-620, 1975.
  2. Harris, Z. “Distributional structure”. Word, 10(2), 146-162, 1954.
  3. Mikolov T, Chen K, Corrado G, Dean J. “Efficient estimation of word representations in vector space”. Proceedings of Workshop at ICLR. Scottsdale, Arizona 2-4 Mayıs 2013.
  4. Pennington J, Socher R, Manning C. “Glove: Global vectors for word representation”. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Doha, Qatar, 25-29 October 2014.
  5. Le Q, Mikolov T. “Distributed representations of sentences and documents”. 31th International Conference on Machine Learning, Beijing, China, 21-26 June 2014.
  6. Amasyalı MF, Diri B. Automatic Turkish text categorization in terms of author, genre and gender. Natural Language Processing and Information Systems, Lecture Notes in Computer Science, Vol 3999, 221-226, Berlin, Heidelberg, Germany, Springer, 2006.
  7. Türkoğlu F, Diri B, Amasyalı MF. Author Attribution of Turkish Texts by Feature Mining. International Conference on Intelligent Computing, Lecture Notes in Computer Science, vol 4681. Springer, Berlin, Heidelberg, 2007.
  8. Amasyalı MF, Balcı S, Mete E, Varlı EN. "Türkçe metinlerin sınıflandırılmasında metin temsil yöntemlerinin performans karşılaştırılması". EMO Bilimsel Dergi, 2(4), 2012.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Mühendislik

Bölüm

Araştırma Makalesi

Yayımlanma Tarihi

12 Ekim 2018

Gönderilme Tarihi

14 Kasım 2017

Kabul Tarihi

-

Yayımlandığı Sayı

Yıl 2018 Cilt: 24 Sayı: 5

Kaynak Göster

APA
Yıldırım, S., & Yıldız, T. (2018). Türkçe için karşılaştırmalı metin sınıflandırma analizi. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, 24(5), 879-886. https://izlik.org/JA87JF37UP
AMA
1.Yıldırım S, Yıldız T. Türkçe için karşılaştırmalı metin sınıflandırma analizi. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi. 2018;24(5):879-886. https://izlik.org/JA87JF37UP
Chicago
Yıldırım, Savaş, ve Tuğba Yıldız. 2018. “Türkçe için karşılaştırmalı metin sınıflandırma analizi”. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi 24 (5): 879-86. https://izlik.org/JA87JF37UP.
EndNote
Yıldırım S, Yıldız T (01 Ekim 2018) Türkçe için karşılaştırmalı metin sınıflandırma analizi. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi 24 5 879–886.
IEEE
[1]S. Yıldırım ve T. Yıldız, “Türkçe için karşılaştırmalı metin sınıflandırma analizi”, Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, c. 24, sy 5, ss. 879–886, Eki. 2018, [çevrimiçi]. Erişim adresi: https://izlik.org/JA87JF37UP
ISNAD
Yıldırım, Savaş - Yıldız, Tuğba. “Türkçe için karşılaştırmalı metin sınıflandırma analizi”. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi 24/5 (01 Ekim 2018): 879-886. https://izlik.org/JA87JF37UP.
JAMA
1.Yıldırım S, Yıldız T. Türkçe için karşılaştırmalı metin sınıflandırma analizi. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi. 2018;24:879–886.
MLA
Yıldırım, Savaş, ve Tuğba Yıldız. “Türkçe için karşılaştırmalı metin sınıflandırma analizi”. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, c. 24, sy 5, Ekim 2018, ss. 879-86, https://izlik.org/JA87JF37UP.
Vancouver
1.Savaş Yıldırım, Tuğba Yıldız. Türkçe için karşılaştırmalı metin sınıflandırma analizi. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi [Internet]. 01 Ekim 2018;24(5):879-86. Erişim adresi: https://izlik.org/JA87JF37UP