Yıl 2019, Cilt 2 , Sayı 2, Sayfalar 18 - 24 2019-12-30

Otomatik Konuşma Tanıma Sistemlerinde Kullanılan Gerçek Metin Verisinde Biçimbilimsel-Sözdizimsel Hataların Tespiti ve Düzeltmesi

Hüseyin POLAT [1] , Hayri SEVER [2] , Saadin OYUCU [3] , Şükran TEKBAŞ [4]


Türkçe Otomatik Konuşma Tanıma (ASR: Automatic Speech Recognition) sistemlerinde kullanılan akustik model gürbüz bir dil modeli ile desteklenmediği durumlarda kelime hata oranı yüksek çıkmaktadır. İyi dizayn edilmiş bir dil modeli ile akustik modelin birlikte ASR’de kullanılması kelime hata oranını düşürmektedir. ASR için gerekli dil modelinin eğitiminde düz metin verisi kullanılmaktadır. Kullanılan metin verisinin doğruluğu ASR modellerinin eğitimi için oldukça önemlidir. Bu çalışmada, doğal dil işlemeye dayalı bir yöntem kullanılarak Türkçe ASR sisteminin eğitilmesinde kullanılan metin verisi içerisindeki yazım hatalarının tespiti ve düzeltilmesi gerçekleştirilmiştir. Öncelikle metin verisi içerisinde dil bilgisel olarak yanlış yazılmış olan kelimeler bulunmuştur. Bir kelimedeki karakter eksikliği, karakter fazlalığı, karakterlerin yer değiştirmesi veya karakteri yanlış yazılmış olan kelimeler hatalı olarak kabul edilmiştir. Metin verisi içerisinde hatalı olarak kabul edilen kelimeler morfolojik analiz ile tespit edilmiştir. Yanlış kelimelerin yerine atanacak olan kelimeler belirlenmiştir. Yanlış yazılmış olan kelimeler doğru kelimeler ile değiştirilmiştir. Gerçekleştirilen çalışma hatalı kelimeleri tespit etme ve doğru kelimeler ile yer değiştirme işleminde %93 oranında başarı göstermiştir.

Konuşma Tanıma, Doğal Dil İşleme, Düz Metin Hataları, Gramatik Kelime Hatası
  • [1] Delibas A. “Doğal Dil İşleme İle Türkçe Yazım Hatalarının Denetlenmesi”. Yüksek Lisans Tezi, İstanbul Teknik Üniversitesi, Bilgisayar Mühendisliği, İstanbul, Türkiye, 2008 .
  • [2] Starlander M, Popescu-Belis A. “Corpus-based Evaluation of A French Spelling and Grammer Checker”. Third International Conference On Language Resources And Evaluation, Las Palmas, Canary Islands, Spain, 29 -31 May 2002.
  • [3] Gabriele K. “A Word Analysis System for German Hyphenation Full Text Search and Spell Checking with Regard to the Latest Reform of German Orthography” Institute of Computer Graphics, Algorithms and Data Structures Group, Vienna University of Technology, Vienna, Austria, 2011.
  • [4] Dembitz S, Knezevich P, Sokele M. “Developing A Spell Checker As An Expert System” Journal of Computing and Information Technology, 1(4), 285- 291, 2004.
  • [5] Dembitz S, Knezevich P, Sokele M. “Hascheck – the Croatian Academic Spelling Checker” 18th Annual International Conference of The British Computer Society Specialist Group on Expert System, Cambridge, England, December 1998.
  • [6] Dhanabalan T, Parthasarathi R, Geetha TV. “Tamil Spell Checker” Tamil Internet, Chennai, India 2003.
  • [7] Murata M, Utiyama M, Uchimoto K, Ma Q, Isahara H. “Correction of Errors in a Modality Corpus Used for Machine Translation Using Machine-learning”. Japan Communications Research Laboratory, Kyoto, Japan, 2001.
  • [8] Cakiroglu U, Ozyurt, O. “Türkçe Metinlerdeki Yazım Yanlışlarına Yönelik Otomatik Düzeltme Modeli”, Eleco, Bursa, Türkiye, 7-9 Haziran 2016.
  • [9] Zemberek. “Ağaç Performansı ve Kök Seçiciler”. http://zembereknlp.blogspot.com/2007/04/zemberek-nasl-alr-2aa-performans-ve-kk.html (15.04.20189).
  • [10] Akgul O. “Türkçe Kelimelerin Morfolojik Analizi”. https://akgulomer.wordpress.com/2011/01/23/turkce-kelimelerin-morfolojik-analizi/ (13.04.2019).
Birincil Dil tr
Konular Mühendislik
Bölüm Makaleler
Yazarlar

Yazar: Hüseyin POLAT
Kurum: GAZİ ÜNİVERSİTESİ
Ülke: Turkey


Yazar: Hayri SEVER
Kurum: ÇANKAYA ÜNİVERSİTESİ
Ülke: Turkey


Yazar: Saadin OYUCU (Sorumlu Yazar)
Kurum: GAZİ ÜNİVERSİTESİ
Ülke: Turkey


Yazar: Şükran TEKBAŞ
Kurum: Emfa Yazılım Danışmanlık A.Ş.
Ülke: Turkey


Tarihler

Yayımlanma Tarihi : 30 Aralık 2019

Bibtex @araştırma makalesi { veri641373, journal = {Veri Bilimi}, issn = {}, eissn = {2667-582X}, address = {}, publisher = {Murat GÖK}, year = {2019}, volume = {2}, pages = {18 - 24}, doi = {}, title = {Otomatik Konuşma Tanıma Sistemlerinde Kullanılan Gerçek Metin Verisinde Biçimbilimsel-Sözdizimsel Hataların Tespiti ve Düzeltmesi}, key = {cite}, author = {POLAT, Hüseyin and SEVER, Hayri and OYUCU, Saadin and TEKBAŞ, Şükran} }
APA POLAT, H , SEVER, H , OYUCU, S , TEKBAŞ, Ş . (2019). Otomatik Konuşma Tanıma Sistemlerinde Kullanılan Gerçek Metin Verisinde Biçimbilimsel-Sözdizimsel Hataların Tespiti ve Düzeltmesi. Veri Bilimi , 2 (2) , 18-24 . Retrieved from https://dergipark.org.tr/tr/pub/veri/issue/51241/641373
MLA POLAT, H , SEVER, H , OYUCU, S , TEKBAŞ, Ş . "Otomatik Konuşma Tanıma Sistemlerinde Kullanılan Gerçek Metin Verisinde Biçimbilimsel-Sözdizimsel Hataların Tespiti ve Düzeltmesi". Veri Bilimi 2 (2019 ): 18-24 <https://dergipark.org.tr/tr/pub/veri/issue/51241/641373>
Chicago POLAT, H , SEVER, H , OYUCU, S , TEKBAŞ, Ş . "Otomatik Konuşma Tanıma Sistemlerinde Kullanılan Gerçek Metin Verisinde Biçimbilimsel-Sözdizimsel Hataların Tespiti ve Düzeltmesi". Veri Bilimi 2 (2019 ): 18-24
RIS TY - JOUR T1 - Otomatik Konuşma Tanıma Sistemlerinde Kullanılan Gerçek Metin Verisinde Biçimbilimsel-Sözdizimsel Hataların Tespiti ve Düzeltmesi AU - Hüseyin POLAT , Hayri SEVER , Saadin OYUCU , Şükran TEKBAŞ Y1 - 2019 PY - 2019 N1 - DO - T2 - Veri Bilimi JF - Journal JO - JOR SP - 18 EP - 24 VL - 2 IS - 2 SN - -2667-582X M3 - UR - Y2 - 2019 ER -
EndNote %0 Veri Bilimi Otomatik Konuşma Tanıma Sistemlerinde Kullanılan Gerçek Metin Verisinde Biçimbilimsel-Sözdizimsel Hataların Tespiti ve Düzeltmesi %A Hüseyin POLAT , Hayri SEVER , Saadin OYUCU , Şükran TEKBAŞ %T Otomatik Konuşma Tanıma Sistemlerinde Kullanılan Gerçek Metin Verisinde Biçimbilimsel-Sözdizimsel Hataların Tespiti ve Düzeltmesi %D 2019 %J Veri Bilimi %P -2667-582X %V 2 %N 2 %R %U
ISNAD POLAT, Hüseyin , SEVER, Hayri , OYUCU, Saadin , TEKBAŞ, Şükran . "Otomatik Konuşma Tanıma Sistemlerinde Kullanılan Gerçek Metin Verisinde Biçimbilimsel-Sözdizimsel Hataların Tespiti ve Düzeltmesi". Veri Bilimi 2 / 2 (Aralık 2020): 18-24 .
AMA POLAT H , SEVER H , OYUCU S , TEKBAŞ Ş . Otomatik Konuşma Tanıma Sistemlerinde Kullanılan Gerçek Metin Verisinde Biçimbilimsel-Sözdizimsel Hataların Tespiti ve Düzeltmesi. Veri Bilimi. 2019; 2(2): 18-24.
Vancouver POLAT H , SEVER H , OYUCU S , TEKBAŞ Ş . Otomatik Konuşma Tanıma Sistemlerinde Kullanılan Gerçek Metin Verisinde Biçimbilimsel-Sözdizimsel Hataların Tespiti ve Düzeltmesi. Veri Bilimi. 2019; 2(2): 24-18.