Corpus-based machine translation (MT) has been the main approach to developing and implementing MT systems in both academia and the industry over the last three decades. In this field, the type and size of the corpus used for training MT engines have presented problems for both statistical MT (SMT) systems as well as neural MT (NMT) systems, being the two dominant corpusbased approaches. Moreover, language pairs such as Turkish-English have been understudied within this framework. This article aims to evaluate the translation quality in Turkish-to-English custom MT systems that have been trained on different corpus sizes and types. Two NMT engines and two SMT engines were trained on the KantanMT platform using two different training corpus types with either only domain-specific cardiology corpus or this corpus plus a mixed-domain corpus. The study conducted both automatic evaluations with metrics including BLEU, F-Measure and TER, as well as a comprehensive human evaluation with metrics including fluency, A/B test, and adequacy. Lastly, the study realized a separate, subjective terminology evaluation in order to investigate how differently MT systems handle terminology, as this is a crucial aspect for specific-domain text types such as cardiology. While the automatic evaluation results suggest the SMT engines to perform better than NMT engines, all human evaluators rated the mixed-domain NMT engine as the highest performing one. However, the terminology evaluation task demonstrated SMT to still be able to perform better and to commit less terminology errors, despite the industry and academia shifting toward NMT engines.
Machine translation evaluation Turkish-to-English machine translation medical translation neural machine translation statistical machine translation
European Union-NextGenerationEU grant
The work herein is adapted from the PhD study of the author and formatted as a stand-alone article. This work is supported by the European Union-NextGenerationEU grant in the framework of Margarita Salas Postdoctoral Grant. I would like to thank Anna Aguilar Amat and Adria Martin Mor for their invaluable comments during my PhD work and Mr. Joss Moorkens for his feedback during my research visit to Dublin City University as a postdoctoral researcher.
Machine translation evaluation Turkish-to-English machine translation medical translation neural machine translation statistical machine translation Makine çevirisi değerlendirmesi Türkçeden İngilizceye makine çevirisi tıp çevirisi nöral makine çevirisi istatistiksel makine çevirisi
Machine translation evaluation Turkish-to-English machine translation medical translation neural machine translation statistical machine translation Makine çevirisi değerlendirmesi Türkçeden İngilizceye makine çevirisi tıp çevirisi nöral makine çevirisi istatistiksel makine çevirisi
Derlem tabanlı makine çevirisi (MÇ), son otuz yılda hem akademide hem de endüstride MÇ sistemleri geliştirmek ve uygulamak konusunda ana yaklaşım olmuştur. MÇ motorlarını eğitmek için kullanılan derlemin türü ve boyutu, iki baskın derlem tabanlı yaklaşım olan istatistiksel MÇ (İMÇ) sistemleri ve nöral MÇ (NMÇ) sistemleri için problemler ortaya çıkarmıştır. Ayrıca bu çerçevede Türkçe → İngilizce gibi dil çiftleri üzerinde yeterince çalışma yapılmamıştır. Bu makale, farklı derlem boyutu ve türü üzerinde eğitilmiş Türkçe → İngilizce, özelleştirilmiş MÇ sistemlerinde çeviri kalitesini değerlendirmeyi amaçlamaktadır. İki NMÇ motoru ve iki İMÇ motoru, yalnızca alana özgü kardiyoloji derlemi veya bu derlem artı bir karma alanlı derlem ile iki farklı MÇ eğitme derlemi türü kullanılarak KantanMT platformunda eğitildi. Hem BLEU, F-Measure ve TER gibi metriklerle otomatik değerlendirmeler, hem de akıcılık, A/B testi ve yeterlilik gibi metriklerle kapsamlı bir insan değerlendirmesi yapıldı. Son olarak, kardiyoloji gibi belirli bir alana dayalı metin türleri için çok önemli olduğundan farklı MÇ sistemlerinin terminolojiyi nasıl ele aldığını araştırmak adına ayrı, öznel bir terminoloji değerlendirmesi gerçekleştirildi. Otomatik değerlendirme sonuçları, İMÇ motorlarının NMÇ motorlarından daha iyi performans sergilediğini gösterirken, tüm insan değerlendiriciler, karma alanlı NMÇ motorunu en yüksek performanslı motor olarak değerlendirdi. Yine de terminoloji değerlendirme görevi, endüstri ve akademi NMÇ'ye doğru kaysa da İMÇ'nin yine de daha iyi performans gösterebileceğini ve daha az terminoloji hatası yapabileceğini ortaya koydu.
Makine çevirisi değerlendirmesi Türkçeden İngilizceye makine çevirisi tıp çevirisi nöral makine çevirisi istatistiksel makine çevirisi
Birincil Dil | İngilizce |
---|---|
Bölüm | MAKALELER |
Yazarlar | |
Yayımlanma Tarihi | 29 Aralık 2022 |
Yayımlandığı Sayı | Yıl 2022 |