Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili Desenler

Cilt: 31 Sayı: 4 14 Aralık 2016
PDF İndir

Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili Desenler

Öz

Doğal dil işlemenin önemli alt konularından biri olan dil tanıma (DT),  bir dokümanın içeriğine göre yazıldığı dili belirleme işlemidir.  Bu çalışmada, karakterlerin UTF-8 değerlerini birbirleri ile karşılaştırmalar sonucu elde edilen ikili desenler kullanarak yeni bir dil tanıma yaklaşımı, bir boyutlu yerel ikili örüntüler  (1B-YİÖ) önerilmiştir.  Önerilen yöntem farklı sayıda dillerden oluşan metinler içeren dört  veri kümesi ile test edilmiştir. 1B-YİÖ ile dokümanlardan elde edilen öznitelikler kullanılarak farklı makine öğrenmesi yöntemleri  ile sınıflandırma işlemi gerçekleştirilmiştir. Dört veri kümesi için sınıflandırma başarıları sırası ile  %86.20, %92.75, %100 ve %89.77 olarak gözlenmiştir. Elde edilen sonuçlara göre önerilen öznitelik çıkarım yönteminin dil tanıma için önemli örüntüler sağladığı görülmüştür. 

Anahtar Kelimeler

Kaynakça

  1. Selamat, A., ve Ng, C. C. 2011. Arabic script web page language identifications using decision tree neural networks. Pattern Recognition, 44(1): 133-144.
  2. Takçı, H. ve Ekinci, E. 2012. Minimal feature set in language identification and finding suitable classification method with it, Procedia Technology, 1: 444 – 448
  3. Xafopoulos, A., Kotropoulos, C., Almpanidis, G., ve Pitas, I. 2004. Language identification in web documents using discrete HMMs. Pattern recognition,37(3): 583-594.
  4. Popescu, M., ve Liviu P. Dinu. 2007. Kernel meth ods and string kernels for authorship identification:The federalist papers case. Proceedings of RANLP, September.
  5. Popescu M., ve Cristian Grozea. 2012. Kernel methods and string kernels for authorship analysis. CLEF (Online Working Notes/Labs/Workshop), September.
  6. Popescu, M., ve Radu Tudor Ionescu. 2013. The Story of the Characters, the DNA and the Native Language. Proceedings of the Eighth Workshop on Innovative Use of NLP for Building Educational Applications, pages 270–278, June.
  7. Nie, J. Y. (2010). Cross-language information retrieval. Synthesis Lectures on Human Language Technologies, 3(1), 1-125.
  8. Li, H., Ma, B., ve Lee, C. H. 2007. A vector space modeling approach to spoken language identification. IEEE Transactions on Audio, Speech, and Language Processing, , 15(1): 271-284.

Ayrıntılar

Birincil Dil

Türkçe

Konular

-

Bölüm

-

Yayımlanma Tarihi

14 Aralık 2016

Gönderilme Tarihi

30 Ekim 2015

Kabul Tarihi

-

Yayımlandığı Sayı

Yıl 2016 Cilt: 31 Sayı: 4

Kaynak Göster

APA
Kaya, Y., & Ertuğrul, Ö. F. (2016). Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili Desenler. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 31(4). https://doi.org/10.17341/gazimmfd.278463
AMA
1.Kaya Y, Ertuğrul ÖF. Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili Desenler. GUMMFD. 2016;31(4). doi:10.17341/gazimmfd.278463
Chicago
Kaya, Yılmaz, ve Ömer Faruk Ertuğrul. 2016. “Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili Desenler”. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 31 (4). https://doi.org/10.17341/gazimmfd.278463.
EndNote
Kaya Y, Ertuğrul ÖF (01 Aralık 2016) Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili Desenler. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 31 4
IEEE
[1]Y. Kaya ve Ö. F. Ertuğrul, “Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili Desenler”, GUMMFD, c. 31, sy 4, Ara. 2016, doi: 10.17341/gazimmfd.278463.
ISNAD
Kaya, Yılmaz - Ertuğrul, Ömer Faruk. “Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili Desenler”. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 31/4 (01 Aralık 2016). https://doi.org/10.17341/gazimmfd.278463.
JAMA
1.Kaya Y, Ertuğrul ÖF. Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili Desenler. GUMMFD. 2016;31. doi:10.17341/gazimmfd.278463.
MLA
Kaya, Yılmaz, ve Ömer Faruk Ertuğrul. “Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili Desenler”. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, c. 31, sy 4, Aralık 2016, doi:10.17341/gazimmfd.278463.
Vancouver
1.Yılmaz Kaya, Ömer Faruk Ertuğrul. Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili Desenler. GUMMFD. 01 Aralık 2016;31(4). doi:10.17341/gazimmfd.278463

Cited By