Türkçe Metinlerin Sınıflandırılmasında Metin Temsil Yöntemlerinin Performans Karşılaştırılması
Öz
Bir metnin sınıfına metnin hangi özelliklerine bakılarak karar verilebilir? Sınıflandırma probleminin türünün (metnin yazarını, yazarın cinsiyetini, yazarın ruh halini, metnin konusunu, metnin olumlu ya da olumsuz ifadeler içerdiğini tanıma) bu soruya verilecek cevaba etkisi nedir? Bu sorulara çeşitli cevaplar vererek, metin dosyalarının otomatik sınıflandırılması için uzun zamandır çalışmalar sürmektedir. Bu çalışmada çeşitli türdeki 6 adet Türkçe sınıflandırma veri kümesi üzerinde 17 adet özellik grubunun etkisi incelenmiştir. Çıkarılan özellik gruplarına örnek olarak; cümle, kelime, ek sayıları, ngramlar, kelimeler, kelime grupları ve saklı anlam indeksi verilebilir. Türkçe için bugüne kadar yapılmış en kapsamlı karşılaştırma çalışması sunulmuştur. Sonuçlarda n-gramların genel olarak diğer temsil yöntemlerinden daha başarılı sonuçlar ürettiği görülmüştür.
Anahtar Kelimeler
Ayrıntılar
Birincil Dil
Türkçe
Konular
Mühendislik
Bölüm
Araştırma Makalesi
Yayımlanma Tarihi
15 Ekim 2012
Gönderilme Tarihi
15 Ekim 2012
Kabul Tarihi
-
Yayımlandığı Sayı
Yıl 2012 Cilt: 2 Sayı: 4