Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili Desenler
Öz
Doğal dil işlemenin önemli alt konularından biri olan dil tanıma (DT), bir dokümanın içeriğine göre yazıldığı dili belirleme işlemidir. Bu çalışmada, karakterlerin UTF-8 değerlerini birbirleri ile karşılaştırmalar sonucu elde edilen ikili desenler kullanarak yeni bir dil tanıma yaklaşımı, bir boyutlu yerel ikili örüntüler (1B-YİÖ) önerilmiştir. Önerilen yöntem farklı sayıda dillerden oluşan metinler içeren dört veri kümesi ile test edilmiştir. 1B-YİÖ ile dokümanlardan elde edilen öznitelikler kullanılarak farklı makine öğrenmesi yöntemleri ile sınıflandırma işlemi gerçekleştirilmiştir. Dört veri kümesi için sınıflandırma başarıları sırası ile %86.20, %92.75, %100 ve %89.77 olarak gözlenmiştir. Elde edilen sonuçlara göre önerilen öznitelik çıkarım yönteminin dil tanıma için önemli örüntüler sağladığı görülmüştür.
Anahtar Kelimeler
Kaynakça
- Selamat, A., ve Ng, C. C. 2011. Arabic script web page language identifications using decision tree neural networks. Pattern Recognition, 44(1): 133-144.
- Takçı, H. ve Ekinci, E. 2012. Minimal feature set in language identification and finding suitable classification method with it, Procedia Technology, 1: 444 – 448
- Xafopoulos, A., Kotropoulos, C., Almpanidis, G., ve Pitas, I. 2004. Language identification in web documents using discrete HMMs. Pattern recognition,37(3): 583-594.
- Popescu, M., ve Liviu P. Dinu. 2007. Kernel meth ods and string kernels for authorship identification:The federalist papers case. Proceedings of RANLP, September.
- Popescu M., ve Cristian Grozea. 2012. Kernel methods and string kernels for authorship analysis. CLEF (Online Working Notes/Labs/Workshop), September.
- Popescu, M., ve Radu Tudor Ionescu. 2013. The Story of the Characters, the DNA and the Native Language. Proceedings of the Eighth Workshop on Innovative Use of NLP for Building Educational Applications, pages 270–278, June.
- Nie, J. Y. (2010). Cross-language information retrieval. Synthesis Lectures on Human Language Technologies, 3(1), 1-125.
- Li, H., Ma, B., ve Lee, C. H. 2007. A vector space modeling approach to spoken language identification. IEEE Transactions on Audio, Speech, and Language Processing, , 15(1): 271-284.
Ayrıntılar
Birincil Dil
Türkçe
Konular
-
Bölüm
-
Yayımlanma Tarihi
14 Aralık 2016
Gönderilme Tarihi
30 Ekim 2015
Kabul Tarihi
-
Yayımlandığı Sayı
Yıl 2016 Cilt: 31 Sayı: 4
Cited By
Brain tumor classification using modified local binary patterns (LBP) feature extraction methods
Medical Hypotheses
https://doi.org/10.1016/j.mehy.2020.109696Determination and Classification of Importance of Attributes Used in Diagnosing Pregnant Women's Birth Method
Alphanumeric Journal
https://doi.org/10.17093/alphanumeric.757769Döküman dili tanıma için içerik bağımsız yeni bir yaklaşım: Açı Örüntüler
Gazi Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi
https://doi.org/10.17341/gazimmfd.844700