Araştırma Makalesi

Döküman dili tanıma için içerik bağımsız yeni bir yaklaşım: Açı Örüntüler

Cilt: 37 Sayı: 3 28 Şubat 2022
PDF İndir
EN TR

Döküman dili tanıma için içerik bağımsız yeni bir yaklaşım: Açı Örüntüler

Öz

Metin madenciliğinde dil tanıma (DT), bir belgenin veya bir kısmının yazıldığı doğal dili algılama çalışmasıdır. Bu çalışmada, karakterlerin UTF-8 değerleri arasında kalan açı bilgisini kullanan metinden yeni bir dil tanıma yaklaşımı önerilmiştir. Önerilen açı yöntemi metinlerden öznitelik çıkarımı için kullanılmıştır. Açı örüntüler yöntemi istatistiksel bir yaklaşımdır. Önerilen yaklaşımı test etmek amacıyla çeşitli şekillerde oluşturulan dört veri setinin kullanılması kararlaştırılmıştır. Elde edilen öznitelikler Rastsal Orman (RO, RF, Random Forest), Destek Vektör Makinesi (DVM, SVM, Support Vector Machine), Liner Diskriminant Analiz (LDA, Linear Discriminant Analysis), Naive Bayes (NB) ve k-en yakın komşu (Knn, k-nearest neighbors) olmak üzere farklı sınıflandırma yöntemleri kullanılmıştır. Dört farklı veri seti kümesinden belirlenen DT başarım sonuçları sırası ile %96,81, %99,39, %93,31 ve %98,60 olarak gözlenmiştir. Yapılan çalışma sonucunda ulaşılan başarım sonuçlarına göre önerilen açı örüntüler yönteminin DT uygulamasında önemli ayırt edici bilgiler verdiği belirlenmiştir.

Anahtar Kelimeler

Teşekkür

Bu çalışma Siirt Üniversitesi Mühendislik Fakültesi MaVi Laboratuvarında yapılmıştır. Bu makalenin yazarları, verilen destekten dolayı MaVi Laboratuvar çalışanlarına teşekkür ederler.

Kaynakça

  1. 1. Başkaya, F., & Aydin, İ. (2017, September). Haber metinlerinin farkli metin madenciliği yöntemleriyle siniflandirilmasi. In 2017 International Artificial Intelligence and Data Processing Symposium (IDAP) (pp. 1-5). IEEE.
  2. 2. Acı, Ç , Çırak, A . (2019). Türkçe Haber Metinlerinin Konvolüsyonel Sinir Ağları ve Word2Vec Kullanılarak Sınıflandırılması . Bilişim Teknolojileri Dergisi , 12 (3) , 219-228 . DOI: 10.17671/gazibtd.457917.
  3. 3. Öztürk, Ö., Abidin, D., & Özacar, T. (2018). Using classification algorithms for Turkish music makam recognition. Selçuk Üniversitesi Mühendislik, Bilim ve Teknoloji Dergisi, 6(3), 377-393.
  4. 4. Aksu, M. Ç., & Karaman, E. (2020). FastText ve Kelime Çantası Kelime Temsil Yöntemlerinin Turistik Mekanlar İçin Yapılan Türkçe İncelemeler Kullanılarak Karşılaştırılması. Avrupa Bilim ve Teknoloji Dergisi, (20), 311-320.
  5. 5. Kutlu, Y. (2020). Challenges Encountered in Turkish Natural Language Processing Studies. Natural and Engineering Sciences.
  6. 6. Kuncan, M., Vardar, E., Kaplan, K., & Ertunç, H. M. (2020). Turkish handwriting recognition system using multi-layer perceptron. Journal of Mechatronics and Artificial Intelligence in Engineering, 1(2).
  7. 7. Özcan, T , Baştürk, A . (2020). ERUSLR: Yeni bir Türkçe işaret dili veri seti ve hiperparametre optimizasyonu destekli evrişimli sinir ağı ile tanınması . Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi , 36 (1) , 527-542 . DOI: 10.17341/gazimmfd.746793.
  8. 8. Fragkou P., Text segmentation for language identification in Greek forums. Procedia-Social and Behavioral Sciences, 147, 160-166, 2014.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Mühendislik

Bölüm

Araştırma Makalesi

Yayımlanma Tarihi

28 Şubat 2022

Gönderilme Tarihi

21 Aralık 2020

Kabul Tarihi

25 Eylül 2021

Yayımlandığı Sayı

Yıl 2022 Cilt: 37 Sayı: 3

Kaynak Göster

APA
Noyan, T., Kuncan, F., Tekin, R., & Kaya, Y. (2022). Döküman dili tanıma için içerik bağımsız yeni bir yaklaşım: Açı Örüntüler. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 37(3), 1277-1292. https://doi.org/10.17341/gazimmfd.844700
AMA
1.Noyan T, Kuncan F, Tekin R, Kaya Y. Döküman dili tanıma için içerik bağımsız yeni bir yaklaşım: Açı Örüntüler. GUMMFD. 2022;37(3):1277-1292. doi:10.17341/gazimmfd.844700
Chicago
Noyan, Tuba, Fatma Kuncan, Ramazan Tekin, ve Yılmaz Kaya. 2022. “Döküman dili tanıma için içerik bağımsız yeni bir yaklaşım: Açı Örüntüler”. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 37 (3): 1277-92. https://doi.org/10.17341/gazimmfd.844700.
EndNote
Noyan T, Kuncan F, Tekin R, Kaya Y (01 Şubat 2022) Döküman dili tanıma için içerik bağımsız yeni bir yaklaşım: Açı Örüntüler. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 37 3 1277–1292.
IEEE
[1]T. Noyan, F. Kuncan, R. Tekin, ve Y. Kaya, “Döküman dili tanıma için içerik bağımsız yeni bir yaklaşım: Açı Örüntüler”, GUMMFD, c. 37, sy 3, ss. 1277–1292, Şub. 2022, doi: 10.17341/gazimmfd.844700.
ISNAD
Noyan, Tuba - Kuncan, Fatma - Tekin, Ramazan - Kaya, Yılmaz. “Döküman dili tanıma için içerik bağımsız yeni bir yaklaşım: Açı Örüntüler”. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 37/3 (01 Şubat 2022): 1277-1292. https://doi.org/10.17341/gazimmfd.844700.
JAMA
1.Noyan T, Kuncan F, Tekin R, Kaya Y. Döküman dili tanıma için içerik bağımsız yeni bir yaklaşım: Açı Örüntüler. GUMMFD. 2022;37:1277–1292.
MLA
Noyan, Tuba, vd. “Döküman dili tanıma için içerik bağımsız yeni bir yaklaşım: Açı Örüntüler”. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, c. 37, sy 3, Şubat 2022, ss. 1277-92, doi:10.17341/gazimmfd.844700.
Vancouver
1.Tuba Noyan, Fatma Kuncan, Ramazan Tekin, Yılmaz Kaya. Döküman dili tanıma için içerik bağımsız yeni bir yaklaşım: Açı Örüntüler. GUMMFD. 01 Şubat 2022;37(3):1277-92. doi:10.17341/gazimmfd.844700

Cited By