Araştırma Makalesi

Türkçe Konuşmadan Metne Dönüştürme için Ön Eğitimli Modellerin Performans Karşılaştırması: Whisper-Small ve Wav2Vec2-XLS-R-300M

Cilt: 16 Sayı: 2 20 Kasım 2023
PDF İndir
TR EN

Türkçe Konuşmadan Metne Dönüştürme için Ön Eğitimli Modellerin Performans Karşılaştırması: Whisper-Small ve Wav2Vec2-XLS-R-300M

Öz

Bu çalışmada konuşmadan metne çeviri için önerilmiş ve çok sayıda dille ön eğitilmiş iki model olan Whisper-Small ve Wav2Vec2-XLS-R-300M modellerinin Türkçe dilinde konuşmadan metne çevirme başarıları incelenmiştir. Çalışmada açık kaynaklı bir veri kümesi olan Türkçe dilinde hazırlanmış Mozilla Common Voice 11.0 versiyonu kullanılmıştır. Az sayıda veri içeren bu veri kümesi ile çok dilli modeller olan Whisper-Small ve Wav2Vec2-XLS-R-300M ince ayar yapılmıştır. İki modelin konuşmadan metne çeviri başarımı değerlendirilmiş ve Wav2Vec2-XLS-R-300M modelinin 0,28 WER değeri Whisper-Small modelinin 0,16 WER değeri gösterdiği gözlemlenmiştir. Ek olarak modellerin başarısı eğitim ve doğrulama veri kümesinde bulunmayan çağrı merkezi kayıtlarıyla hazırlanmış sınama verisiyle incelenmiştir.

Anahtar Kelimeler

Destekleyen Kurum

TÜBİTAK TEYDEB 1501

Proje Numarası

3210713

Teşekkür

Bu çalışma TÜBİTAK TEYDEB 1501 kapsamında desteklenmekte olan 3210713 numaralı "Güncel Derin Öğrenme Mimarileri ile Türkçe Dili için Konuşmadan Metne Çeviri Yapabilen ve Hizmet Olarak Yazılım (SaaS) Modeli ile Çalışan Sistemin Geliştirilmesi" isimli proje kapsamında gerçekleştirilmiştir.

Kaynakça

  1. Özlan, B., Haznedaroğlu, A., Arslan, L. M., Automatic fraud detection in call center conversations, In 2019 27th Signal Processing and Communications Applications Conference (SIU), 2019, pp. 1-4.
  2. Dhanjal, A. S., Singh, W. An automatic machine translation system for multi-lingual speech to Indian sign language. multimedia Tools and Applications, 2022, pp.1-39.
  3. Ballati, F., Corno, F., De Russis, L., Assessing virtual assistant capabilities with Italian dysarthric speech, In Proceedings of the 20th International ACM SIGACCESS Conference on Computers and Accessibility, 2018, pp. 93-101.
  4. Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A. R., Jaitly, N., Kingsbury, B., Deep neural networks for acoustic modeling in speech recognition: The shared views of four research Groups, IEEE Signal processing magazine, 2012, 29(6), pp.82-97.
  5. Sainath, T. N., Vinyals, O., Senior, A., Sak, H. Convolutional, long short-term memory, fully connected deep neural networks, IEEE international conference on acoustics, speech and signal processing (ICASSP), 2015, pp. 4580-4584.
  6. Alharbi, S., Alrazgan, M., Alrashed, A., Alnomasi, T., Almojel, R., Alharbi, R., Almojil, M., Automatic speech recognition: Systematic literature Review, IEEE Access, 9, 2021, pp.131858-131876.
  7. Hellman, E., Nordstrand, M., Research in methods for achieving secure voice anonymization: Evaluation and improvement of voice anonymization techniques for whistleblowing, 2022.
  8. Chorowski, J. K., Bahdanau, D., Serdyuk, D., Cho, K., Bengio, Y., Attention-based models for speech recognition, Advances in neural information processing systems, 2015.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Mühendislik

Bölüm

Araştırma Makalesi

Erken Görünüm Tarihi

22 Ekim 2023

Yayımlanma Tarihi

20 Kasım 2023

Gönderilme Tarihi

17 Şubat 2023

Kabul Tarihi

3 Mayıs 2023

Yayımlandığı Sayı

Yıl 2023 Cilt: 16 Sayı: 2

Kaynak Göster

APA
Mercan, Ö. B., Çepni, S., Taşar, D. E., & Ozan, Ş. (2023). Türkçe Konuşmadan Metne Dönüştürme için Ön Eğitimli Modellerin Performans Karşılaştırması: Whisper-Small ve Wav2Vec2-XLS-R-300M. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 16(2), 109-116. https://doi.org/10.54525/tbbmd.1252487
AMA
1.Mercan ÖB, Çepni S, Taşar DE, Ozan Ş. Türkçe Konuşmadan Metne Dönüştürme için Ön Eğitimli Modellerin Performans Karşılaştırması: Whisper-Small ve Wav2Vec2-XLS-R-300M. TBV-BBMD. 2023;16(2):109-116. doi:10.54525/tbbmd.1252487
Chicago
Mercan, Öykü Berfin, Sercan Çepni, Davut Emre Taşar, ve Şükrü Ozan. 2023. “Türkçe Konuşmadan Metne Dönüştürme için Ön Eğitimli Modellerin Performans Karşılaştırması: Whisper-Small ve Wav2Vec2-XLS-R-300M”. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi 16 (2): 109-16. https://doi.org/10.54525/tbbmd.1252487.
EndNote
Mercan ÖB, Çepni S, Taşar DE, Ozan Ş (01 Kasım 2023) Türkçe Konuşmadan Metne Dönüştürme için Ön Eğitimli Modellerin Performans Karşılaştırması: Whisper-Small ve Wav2Vec2-XLS-R-300M. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi 16 2 109–116.
IEEE
[1]Ö. B. Mercan, S. Çepni, D. E. Taşar, ve Ş. Ozan, “Türkçe Konuşmadan Metne Dönüştürme için Ön Eğitimli Modellerin Performans Karşılaştırması: Whisper-Small ve Wav2Vec2-XLS-R-300M”, TBV-BBMD, c. 16, sy 2, ss. 109–116, Kas. 2023, doi: 10.54525/tbbmd.1252487.
ISNAD
Mercan, Öykü Berfin - Çepni, Sercan - Taşar, Davut Emre - Ozan, Şükrü. “Türkçe Konuşmadan Metne Dönüştürme için Ön Eğitimli Modellerin Performans Karşılaştırması: Whisper-Small ve Wav2Vec2-XLS-R-300M”. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi 16/2 (01 Kasım 2023): 109-116. https://doi.org/10.54525/tbbmd.1252487.
JAMA
1.Mercan ÖB, Çepni S, Taşar DE, Ozan Ş. Türkçe Konuşmadan Metne Dönüştürme için Ön Eğitimli Modellerin Performans Karşılaştırması: Whisper-Small ve Wav2Vec2-XLS-R-300M. TBV-BBMD. 2023;16:109–116.
MLA
Mercan, Öykü Berfin, vd. “Türkçe Konuşmadan Metne Dönüştürme için Ön Eğitimli Modellerin Performans Karşılaştırması: Whisper-Small ve Wav2Vec2-XLS-R-300M”. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, c. 16, sy 2, Kasım 2023, ss. 109-16, doi:10.54525/tbbmd.1252487.
Vancouver
1.Öykü Berfin Mercan, Sercan Çepni, Davut Emre Taşar, Şükrü Ozan. Türkçe Konuşmadan Metne Dönüştürme için Ön Eğitimli Modellerin Performans Karşılaştırması: Whisper-Small ve Wav2Vec2-XLS-R-300M. TBV-BBMD. 01 Kasım 2023;16(2):109-16. doi:10.54525/tbbmd.1252487

https://i.creativecommons.org/l/by-nc/4.0Makale Kabulü

 

Çevrimiçi makale yüklemesi yapmak için kullanıcı kayıt/girişini kullanınız.

Dergiye gönderilen makalelerin kabul süreci şu aşamalardan oluşmaktadır:

1.       Gönderilen her makale ilk aşamada en az iki hakeme gönderilmektedir.

2.       Hakem ataması, dergi editörleri tarafından yapılmaktadır. Derginin hakem havuzunda yaklaşık 200 hakem bulunmaktadır ve bu hakemler ilgi alanlarına göre sınıflandırılmıştır. Her hakeme ilgilendiği konuda makale gönderilmektedir. Hakem seçimi menfaat çatışmasına neden olmayacak biçimde yapılmaktadır.

3.       Hakemlere gönderilen makalelerde yazar adları kapatılmaktadır.

4.       Hakemlere bir makalenin nasıl değerlendirileceği açıklanmaktadır ve aşağıda görülen değerlendirme formunu doldurmaları istenmektedir.

5.       İki hakemin olumlu görüş bildirdiği makaleler editörler tarafından benzerlik incelemesinden geçirilir. Makalelerdeki benzerliğin %25’ten küçük olması beklenir.

6.       Tüm aşamaları geçmiş olan bir bildiri dil ve sunuş açısından editör tarafından incelenir ve gerekli düzeltme ve iyileştirmeler yapılır. Gerekirse yazarlara durum bildirilir.

 88x31.png   Bu eser Creative Commons Atıf-GayriTicari 4.0 Uluslararası Lisansı ile lisanslanmıştır.