Türkçe Metinden Konusma Sentezlemede Doğallığın Artırılması İçin Öneriler / Recommendations for Increasing the Naturalness in Turkish Text-to-Speech Synthesis
Öz
Özet
Metinden konusma sentezleme; yazılı bir metnin gelistirilen sistem tarafından otomatik olarak okunmasıdır. Bu çalısmada, difon tabanlı, eklemeli bir konusma sentezleyici tasarlanmıs ve gerçeklestirilmistir. Birlestirmede PSOLA yöntemi kullanılmaktadır. Genellikle konusma sentezleyicilerin ezgi modeli yoktur veya eksiktir. Bu durum sentezlenen konusmanın dogallıgını olumsuz yönde etkiler. Çalısmamızda bu eksikligin giderilmesi için yeni bir model önerilmistir. Sentezlenen konusmanın dogallıgının artırılması için, konusmanın ezgisi üzerinde süre ve vurgu temelli kurallar tanımlanmıstır. Bu kurallar, hazırlanan ara yüzde yapılan pek çok denemenin sonucunda bulunmustur. Uygulanan kuralların sentezlerin dogallıgındaki basarısı öznel dinleme testleriyle ölçülmüstür. Sonuç olarak, tanımlanan kuralların gelistirilen konusma sentezleyicide uygulanması ile CMOS testi sonucunda 1,86/5,00 puanlık bir artıs elde edilmistir. Bu sonuç, ezgi modelimizin basarılı oldugunu göstermektedir.
Abstract
Text to speech synthesis (TTS) is the automatic reading of a text by a system. In this work, a TTS system which concatenates diphones has been designed and implemented. For concatenations, PSOLA method was used. Usually speech synthesizers lack an intonation model. This degrades the naturalness of the synthesized speech. For increasing the naturalness of the synthesized speech, duration and accent based rules were defined in this study for a proper intonation. These rules were determined after an extensive set of experiments performed in the designed testbed. In the end, an improvement of 1.86/5.00 in the CMOS score was obtained by applying the defined rules in the developed synthesis platform. This result shows the success of our intonation model.
Anahtar Kelimeler
Kaynakça
- Braille Teknik Ltd. Sti. http://www.brailleteknik.com/jaws.html son erisim: 08/02/2012
- Loquendo S.p.A., a Telecom Italia Group Company http://www.loquendo.com/en/demo-center/tts-demo/
- GVZ Ses tanıma ve sentezleme teknolojileri sirketi http://www.gvz.com.tr/index.html son erisim: 08/02/2012
- DİKTE Yöndata Bilgisayar Ltd. Sti. http://www.dikte.com.tr/konusmatanima.php son erisim: 08/02/2012
- Google translate http://translate.google.com son erisim: 08/02/2012
- Dutoit, T., An Introduction to Text-to-Speech Synthesis, Kluwer Academic Publishers, 1997.
- Tatham, M. and Morton K., Developments in Speech Synthesis, Wiley, 2005.
- Narayanan, S. and Alwan, A., Text to Speech Synthesis, New Paradigms and Advances, Prentice Hall, 2005.
Ayrıntılar
Birincil Dil
Türkçe
Konular
-
Bölüm
-
Yayımlanma Tarihi
1 Aralık 2011
Gönderilme Tarihi
9 Ekim 2012
Kabul Tarihi
-
Yayımlandığı Sayı
Yıl 2011 Cilt: 1 Sayı: 2