Araştırma Makalesi

TÜRKÇE METİNLERİN SINIFLANDIRMA BAŞARISINI ARTIRMAK İÇİN YENİ BİR YÖNTEM ÖNERİSİ

Cilt: 24 Sayı: 1 30 Nisan 2019
PDF İndir
EN TR

TÜRKÇE METİNLERİN SINIFLANDIRMA BAŞARISINI ARTIRMAK İÇİN YENİ BİR YÖNTEM ÖNERİSİ

Öz

Bu çalışma, yazarı bilinmeyen bir dokümanının yazarını tahmin etmeyi amaçlamaktadır. Bunun için 6 farklı köşe yazarına ait 6 köşe yazısı öncelikle ön-işlem aşamasına sokulmuştur. Ardından bu metinler üzerinden n-gram (2-3) ile özellikler çıkarılmıştır. Çıkarılan özellikler üzerinden sistem 6 farklı makine öğrenmesi üzerinde çapraz geçerleme (10)  ile test edilmiştir. Buraya kadar olan kısım literatürde şimdiye kadar uygulanmış olan yöntemdir. Bizim önerimiz ön işlem aşamasının ardından eldeki metinleri LZW algoritması ile kayıpsız sıkıştırarak özellik sayısını azaltmak ve bunun sistemin başarısı üzerindeki etkileri araştırmak üzerinedir. Ön-işlemden geçmiş olan metinler LZW algoritması ile binary (ikili) ve decimal (onlu) olarak sıkıştırılır. Sıkıştırmanın ardından n-gram (2-3) ile çıkarılan özellikler ile sistem 6 farklı makine öğrenmesi yönteminde test edilmiş ve çalışma sonuçları 5 farklı metrik için incelenmiştir. Yapılan çalışma sonucunda ikili olarak sıkıştırılmış metinler hem 2-gram hem de 3-gramda, 6 farklı makine öğrenmesi algoritmasında da daha iyi sonuçlar elde etmiştir.  Random Tree ve Naïve bayes algoritmasında onlu sıkıştırma, ham verinin gerisinde kalsa da diğer 4 algoritmada daha iyi elde sonuçlar elde etmiş ama ortalama başarı değerlerinde geride kalmıştır. Yapılan çalışma sonucunda ikili sıkıştırma tüm metriklerinde diğer iki yönteme göre daha başarılıdır. Yapılan çalışmada yazar tanıma işlemi yapılmış olsa da önerilen bu yöntemin tüm metin sınıflandırma işlemlerinde kullanılabileceği düşünülmektedir. 

Anahtar Kelimeler

Kaynakça

  1. Amasyalı .M.F. ve Yıldırım T. (2004) Otomatik Haber Metinleri Sınıflandırma, 12.IEEE Sinyal İşleme ve İletişim Uygulamaları Kurultayı, Kuşadası, Aydın, Türkiye, 224-226.
  2. Amasyalı, M. F. ve Diri, B. (2006) Automatic Turkish Text Categorization in Terms of Author, Genre and Gender, International Conference on Applications of Natural Language to Information Systems, Klagenfurt, Austria, 221-226. Doi: 10.1007/11765448_22
  3. Amasyalı, M.F., Davletov, F., Arslan, T. ve Çiftçi, Ü. (2010) Text2arff: Automatic feature extraction software for Turkish texts, 18.IEEE Sinyal İşleme ve İletişim Uygulamaları Kurultayı, Diyarbakır, Türkiye, 629-632. Doi: 10.1109/SIU.2010.5651686
  4. Bekkerman R., El-Yaniv, R., Naftali T. ve Yoad W. (2002) Distributional Word Clusters vs. Words for Text Categorization, Journal of Machine Learning Research, 3,1-48. Doi: 10.1.1.19.7938
  5. Bilgin, M. (2018) Makine Öğrenmesi Teorisi ve Algoritmaları, Papatya Bilim, İstanbul.
  6. Bilgin, M. ve Şentürk, İ.F. (2017) Sentiment analysis on Twitter data with semi-supervised Doc2Vec, International Conference Computer Science and Engineering, 661-666. Doi: 10.1109/UBMK.2017.8093492
  7. Ciya L., Shamim A., ve Paul D. (2001) Feature Preparation in Text Categorization, Oracle Text Selected Papers and Presentations, 1-8.
  8. Çatal Ç., Erbakırcı K. ve Erenler Y. (2003) Computer-based Authorship Attribution for Turkish Documents, Turkish Symposium on Artificial Intelligence and Neural Networks, Çanakkale,Türkiye, 539-541.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Mühendislik

Bölüm

Araştırma Makalesi

Yayımlanma Tarihi

30 Nisan 2019

Gönderilme Tarihi

17 Kasım 2018

Kabul Tarihi

12 Şubat 2019

Yayımlandığı Sayı

Yıl 2019 Cilt: 24 Sayı: 1

Kaynak Göster

APA
Bilgin, M. (2019). TÜRKÇE METİNLERİN SINIFLANDIRMA BAŞARISINI ARTIRMAK İÇİN YENİ BİR YÖNTEM ÖNERİSİ. Uludağ Üniversitesi Mühendislik Fakültesi Dergisi, 24(1), 125-136. https://doi.org/10.17482/uumfd.484525
AMA
1.Bilgin M. TÜRKÇE METİNLERİN SINIFLANDIRMA BAŞARISINI ARTIRMAK İÇİN YENİ BİR YÖNTEM ÖNERİSİ. UUJFE. 2019;24(1):125-136. doi:10.17482/uumfd.484525
Chicago
Bilgin, Metin. 2019. “TÜRKÇE METİNLERİN SINIFLANDIRMA BAŞARISINI ARTIRMAK İÇİN YENİ BİR YÖNTEM ÖNERİSİ”. Uludağ Üniversitesi Mühendislik Fakültesi Dergisi 24 (1): 125-36. https://doi.org/10.17482/uumfd.484525.
EndNote
Bilgin M (01 Nisan 2019) TÜRKÇE METİNLERİN SINIFLANDIRMA BAŞARISINI ARTIRMAK İÇİN YENİ BİR YÖNTEM ÖNERİSİ. Uludağ Üniversitesi Mühendislik Fakültesi Dergisi 24 1 125–136.
IEEE
[1]M. Bilgin, “TÜRKÇE METİNLERİN SINIFLANDIRMA BAŞARISINI ARTIRMAK İÇİN YENİ BİR YÖNTEM ÖNERİSİ”, UUJFE, c. 24, sy 1, ss. 125–136, Nis. 2019, doi: 10.17482/uumfd.484525.
ISNAD
Bilgin, Metin. “TÜRKÇE METİNLERİN SINIFLANDIRMA BAŞARISINI ARTIRMAK İÇİN YENİ BİR YÖNTEM ÖNERİSİ”. Uludağ Üniversitesi Mühendislik Fakültesi Dergisi 24/1 (01 Nisan 2019): 125-136. https://doi.org/10.17482/uumfd.484525.
JAMA
1.Bilgin M. TÜRKÇE METİNLERİN SINIFLANDIRMA BAŞARISINI ARTIRMAK İÇİN YENİ BİR YÖNTEM ÖNERİSİ. UUJFE. 2019;24:125–136.
MLA
Bilgin, Metin. “TÜRKÇE METİNLERİN SINIFLANDIRMA BAŞARISINI ARTIRMAK İÇİN YENİ BİR YÖNTEM ÖNERİSİ”. Uludağ Üniversitesi Mühendislik Fakültesi Dergisi, c. 24, sy 1, Nisan 2019, ss. 125-36, doi:10.17482/uumfd.484525.
Vancouver
1.Metin Bilgin. TÜRKÇE METİNLERİN SINIFLANDIRMA BAŞARISINI ARTIRMAK İÇİN YENİ BİR YÖNTEM ÖNERİSİ. UUJFE. 01 Nisan 2019;24(1):125-36. doi:10.17482/uumfd.484525

Cited By

DUYURU:

30.03.2021- Nisan 2021 (26/1) sayımızdan itibaren TR-Dizin yeni kuralları gereği, dergimizde basılacak makalelerde, ilk gönderim aşamasında Telif Hakkı Formu yanısıra, Çıkar Çatışması Bildirim Formu ve Yazar Katkısı Bildirim Formu da tüm yazarlarca imzalanarak gönderilmelidir. Yayınlanacak makalelerde de makale metni içinde "Çıkar Çatışması" ve "Yazar Katkısı" bölümleri yer alacaktır. İlk gönderim aşamasında doldurulması gereken yeni formlara "Yazım Kuralları" ve "Makale Gönderim Süreci" sayfalarımızdan ulaşılabilir. (Değerlendirme süreci bu tarihten önce tamamlanıp basımı bekleyen makalelerin yanısıra değerlendirme süreci devam eden makaleler için, yazarlar tarafından ilgili formlar doldurularak sisteme yüklenmelidir).  Makale şablonları da, bu değişiklik doğrultusunda güncellenmiştir. Tüm yazarlarımıza önemle duyurulur.

Bursa Uludağ Üniversitesi, Mühendislik Fakültesi Dekanlığı, Görükle Kampüsü, Nilüfer, 16059 Bursa. Tel: (224) 294 1907, Faks: (224) 294 1903, e-posta: mmfd@uludag.edu.tr