BibTex RIS Cite

Statistical machine translation implementation and performance tests between Kyrgyz and Turkish Languages

Year 2015, Volume: 3 Issue: 2, 59 - 68, 01.10.2015

Abstract

Bilgisayarlı çeviri, doğal diller arası metin çevirmede kullanılan farklı yöntem ve yazılımları araştırmayı amaçlayan bilgisayarlı dilbilim alt alanıdır. Bilgisayarlı çeviri araçlarının yüksek seviyede sözdizimsel ve anlambilimsel analiz sağlayamamasına rağmen : gelişmiş bilgisayarlı yöntemler uygulanarak yaygın kullanılan diller arası çeviride nispeten kabul edilebilir sonuçlara ulaşılmıştır. Son yıllarda, bilgisayarlı çeviride, büyük veri üzerinde istatistiksel analizle kendi kendini eğitebilen yöntemler geliştirilmiştir. Türkçe dil ailesi üzerine yapılan bilgisayarlı çeviri araştırmalarında, doğal dillerin kurallı yapısı çözümlenerek kural tabanlı yöntemlerin uygulandığı, ancak yaygın olarak araştırılan İstatistiksel Bilgisayarlı Çeviri yöntemlerinin ise sınırlı sayıda ve kısmen uygulandığı görülmektedir. Bu çalışmanın amacı, Kırgız Türkçesi ve Türkiye Türkçesi arasında N-GRAM Tabanlı ve İfade Tabanlı İBÇ sistemlerini uygulamak ve sınırlı paralel korpus üzerinde eğitilen İstatistiksel Bilgisayarlı Çeviri sistemlerinin başarımını çeviri örnekleri üzerinde test etmek ve incelemektir. Sonuçta her iki sistemin çeviri kalitesi BLEU değerlendirme yöntemi ile puanlanmıştır. Değerlendirmeye göre, Kırgız Türkçesi ve Türkiye Türkçesi arasında çeviri kalitesi ortalama 0.1 değerinde elde edilmiştir. Çevrisi hiç bulunmayan, ya da insan çevirisine göre uyumsuz durumlar da gözlemlenmiştir. Daha yüksek çeviri kalitesine ulaşma ve sistemler geliştirme amacıyla çeşitli öneriler sunulmuştur.

References

  • [1] Hutchins, W. J. (1986). Machine translation: past, present, future (p. 66). Chichester: Ellis Horwood.
  • [2] Gökgöz, E., Kurt, A., Kulamshaev, K., & Kara, M. (2011). Two-Level Qazan Tatar Morphology.
  • [3] Chéragui, M. A. (2012). Theoretical Overview of Machine Translation. Proceedings ICWIT, 160.
  • [4] Hutchins, W. J., & Somers, H. L. (1992). An introduction to machine translation (Vol. 362). London: Academic Press.
  • [5] Delavenay, E., & Delavenay, K. M. (1960). An introduction to machine translation. London: Thames and Hudson.
  • [6] Sadler, L. (1992, July). Rule-Based Translation as Constraint Resolution. In Proc. FGNLP Workshop, S. Ananiadou (ed.) (pp. 1-21).
  • [7] Lopez, A. (2008). Statistical machine translation. ACM Computing Surveys (CSUR), 40(3), 8.
  • [8] Och, F. J., & Ney, H. (2003). A systematic comparison of various statistical alignment models. Computational linguistics, 29(1), 19-51.
  • [9] Vogel, S., Ney, H., & Tillmann, C. (1996, August). HMM-based word alignment in statistical translation. In Proceedings of the 16th conference on Computational linguistics-Volume 2 (pp. 836-841). Association for Computational Linguistics.
  • [10] Chiang, D. (2007). Hierarchical phrase-based translation. computational linguistics, 33(2), 201-228.
  • [11] Marcu, D., & Wong, W. (2002, July). A phrase-based, joint probability model for statistical machine translation. In Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10 (pp. 133-139). Association for Computational Linguistics.
  • [12] Marino, J. B., Banchs, R. E., Crego, J. M., de Gispert, A., Lambert, P., Fonollosa, J. A., & Costa-Jussà, M. R. (2006). N-gram-based machine translation. Computational Linguistics, 32(4), 527-549.
  • [13] Koehn, P. (2009). Statistical machine translation. Cambridge University Press.
  • [14] Koehn, P., Och, F. J., & Marcu, D. (2003, May). Statistical phrase-based translation. In Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1 (pp. 48-54). Association for Computational Linguistics.
  • [15] Dunning, T. (1994). Statistical identification of language (pp. 10-03). Computing Research Laboratory, New Mexico State University.
  • [16] Slobin, D. I., & Zimmer, K. (Eds.). (1986). Studies in Turkish linguistics (Vol. 8). John Benjamins Publishing.
  • [17] Abduvaliev, I. (2008). Kyrgyz tilinin morfologiyasy. “Kyrgyz tili jana adabiyaty” adistigi boyuncha jogorku okuu jailardyn studentteri uchun okuu kitepteri. Bishek
  • [18] Korkmaz, Z. (2003). Türkiye Türkçesi grameri şekil bilgisi. Atatürk Kültür, Dil ve Tarih Yüksek Kurumu, Türk Dil Kurumu, Ankara.
  • [19] Akunova, A., Raimbekova, M., Karamendeeva, Ch. (2010). Azyrky Kyrgyz tili. Sintaksis. Jogorku okuu jaidyn studentteri uchun. Bishkek.
  • [20] Lewis, G. L. (1985). Turkish grammar. Oxford University Press, USA.
  • [21] Heafield, K. (2011, July). KenLM: Faster and smaller language model queries. In Proceedings of the Sixth Workshop on Statistical Machine Translation (pp. 187-197). Association for Computational Linguistics.
  • [22] Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002, July). BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting on association for computational linguistics (pp. 311-318). Association for Computational Linguistics.
  • [23] Madnani, N. (2011, September). iBLEU: Interactively debugging and scoring statistical machine translation systems. In Semantic Computing (ICSC), 2011 Fifth IEEE International Conference on (pp. 213-214). IEEE.

Kırgız ve Türkiye Türkçeleri arasında istatistiksel bilgisayarlı çeviri uygulaması ve başarım testi

Year 2015, Volume: 3 Issue: 2, 59 - 68, 01.10.2015

Abstract

Bilgisayarlı çeviri, doğal diller arası metin çevirmede kullanılan farklı yöntem ve yazılımları araştırmayı amaçlayan bilgisayarlı dilbilim alt alanıdır. Bilgisayarlı çeviri araçlarının yüksek seviyede sözdizimsel ve anlambilimsel analiz sağlayamamasına rağmen; gelişmiş bilgisayarlı yöntemler uygulanarak yaygın kullanılan diller arası çeviride nispeten kabul edilebilir sonuçlara ulaşılmıştır. Son yıllarda, bilgisayarlı çeviride, büyük veri üzerinde istatistiksel analizle kendi kendini eğitebilen yöntemler geliştirilmiştir. Türkçe dil ailesi üzerine yapılan bilgisayarlı çeviri araştırmalarında, doğal dillerin kurallı yapısı çözümlenerek kural tabanlı yöntemlerin uygulandığı, ancak yaygın olarak araştırılan İstatistiksel Bilgisayarlı Çeviri yöntemlerinin ise sınırlı sayıda ve kısmen uygulandığı görülmektedir. Bu çalışmanın amacı, Kırgız Türkçesi ve Türkiye Türkçesi arasında N-GRAM Tabanlı ve İfade Tabanlı İBÇ sistemlerini uygulamak ve sınırlı paralel korpus üzerinde eğitilen İstatistiksel Bilgisayarlı Çeviri sistemlerinin başarımını çeviri örnekleri üzerinde test etmek ve incelemektir. Sonuçta her iki sistemin çeviri kalitesi BLEU değerlendirme yöntemi ile puanlanmıştır. Değerlendirmeye göre, Kırgız Türkçesi ve Türkiye Türkçesi arasında çeviri kalitesi ortalama 0.1 değerinde elde edilmiştir. Çevrisi hiç bulunmayan, ya da insan çevirisine göre uyumsuz durumlar da gözlemlenmiştir. Daha yüksek çeviri kalitesine ulaşma ve sistemler geliştirme amacıyla çeşitli öneriler sunulmuştur

References

  • [1] Hutchins, W. J. (1986). Machine translation: past, present, future (p. 66). Chichester: Ellis Horwood.
  • [2] Gökgöz, E., Kurt, A., Kulamshaev, K., & Kara, M. (2011). Two-Level Qazan Tatar Morphology.
  • [3] Chéragui, M. A. (2012). Theoretical Overview of Machine Translation. Proceedings ICWIT, 160.
  • [4] Hutchins, W. J., & Somers, H. L. (1992). An introduction to machine translation (Vol. 362). London: Academic Press.
  • [5] Delavenay, E., & Delavenay, K. M. (1960). An introduction to machine translation. London: Thames and Hudson.
  • [6] Sadler, L. (1992, July). Rule-Based Translation as Constraint Resolution. In Proc. FGNLP Workshop, S. Ananiadou (ed.) (pp. 1-21).
  • [7] Lopez, A. (2008). Statistical machine translation. ACM Computing Surveys (CSUR), 40(3), 8.
  • [8] Och, F. J., & Ney, H. (2003). A systematic comparison of various statistical alignment models. Computational linguistics, 29(1), 19-51.
  • [9] Vogel, S., Ney, H., & Tillmann, C. (1996, August). HMM-based word alignment in statistical translation. In Proceedings of the 16th conference on Computational linguistics-Volume 2 (pp. 836-841). Association for Computational Linguistics.
  • [10] Chiang, D. (2007). Hierarchical phrase-based translation. computational linguistics, 33(2), 201-228.
  • [11] Marcu, D., & Wong, W. (2002, July). A phrase-based, joint probability model for statistical machine translation. In Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10 (pp. 133-139). Association for Computational Linguistics.
  • [12] Marino, J. B., Banchs, R. E., Crego, J. M., de Gispert, A., Lambert, P., Fonollosa, J. A., & Costa-Jussà, M. R. (2006). N-gram-based machine translation. Computational Linguistics, 32(4), 527-549.
  • [13] Koehn, P. (2009). Statistical machine translation. Cambridge University Press.
  • [14] Koehn, P., Och, F. J., & Marcu, D. (2003, May). Statistical phrase-based translation. In Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1 (pp. 48-54). Association for Computational Linguistics.
  • [15] Dunning, T. (1994). Statistical identification of language (pp. 10-03). Computing Research Laboratory, New Mexico State University.
  • [16] Slobin, D. I., & Zimmer, K. (Eds.). (1986). Studies in Turkish linguistics (Vol. 8). John Benjamins Publishing.
  • [17] Abduvaliev, I. (2008). Kyrgyz tilinin morfologiyasy. “Kyrgyz tili jana adabiyaty” adistigi boyuncha jogorku okuu jailardyn studentteri uchun okuu kitepteri. Bishek
  • [18] Korkmaz, Z. (2003). Türkiye Türkçesi grameri şekil bilgisi. Atatürk Kültür, Dil ve Tarih Yüksek Kurumu, Türk Dil Kurumu, Ankara.
  • [19] Akunova, A., Raimbekova, M., Karamendeeva, Ch. (2010). Azyrky Kyrgyz tili. Sintaksis. Jogorku okuu jaidyn studentteri uchun. Bishkek.
  • [20] Lewis, G. L. (1985). Turkish grammar. Oxford University Press, USA.
  • [21] Heafield, K. (2011, July). KenLM: Faster and smaller language model queries. In Proceedings of the Sixth Workshop on Statistical Machine Translation (pp. 187-197). Association for Computational Linguistics.
  • [22] Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002, July). BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting on association for computational linguistics (pp. 311-318). Association for Computational Linguistics.
  • [23] Madnani, N. (2011, September). iBLEU: Interactively debugging and scoring statistical machine translation systems. In Semantic Computing (ICSC), 2011 Fifth IEEE International Conference on (pp. 213-214). IEEE.
There are 23 citations in total.

Details

Other ID JA67BN33VP
Journal Section Research Article
Authors

N. Tayirova This is me

M. Tekerek

U. Brimkulov This is me

Publication Date October 1, 2015
Published in Issue Year 2015 Volume: 3 Issue: 2

Cite

APA Tayirova, N., Tekerek, M., & Brimkulov, U. (2015). Statistical machine translation implementation and performance tests between Kyrgyz and Turkish Languages. MANAS Journal of Engineering, 3(2), 59-68.
AMA Tayirova N, Tekerek M, Brimkulov U. Statistical machine translation implementation and performance tests between Kyrgyz and Turkish Languages. MJEN. October 2015;3(2):59-68.
Chicago Tayirova, N., M. Tekerek, and U. Brimkulov. “Statistical Machine Translation Implementation and Performance Tests between Kyrgyz and Turkish Languages”. MANAS Journal of Engineering 3, no. 2 (October 2015): 59-68.
EndNote Tayirova N, Tekerek M, Brimkulov U (October 1, 2015) Statistical machine translation implementation and performance tests between Kyrgyz and Turkish Languages. MANAS Journal of Engineering 3 2 59–68.
IEEE N. Tayirova, M. Tekerek, and U. Brimkulov, “Statistical machine translation implementation and performance tests between Kyrgyz and Turkish Languages”, MJEN, vol. 3, no. 2, pp. 59–68, 2015.
ISNAD Tayirova, N. et al. “Statistical Machine Translation Implementation and Performance Tests between Kyrgyz and Turkish Languages”. MANAS Journal of Engineering 3/2 (October 2015), 59-68.
JAMA Tayirova N, Tekerek M, Brimkulov U. Statistical machine translation implementation and performance tests between Kyrgyz and Turkish Languages. MJEN. 2015;3:59–68.
MLA Tayirova, N. et al. “Statistical Machine Translation Implementation and Performance Tests between Kyrgyz and Turkish Languages”. MANAS Journal of Engineering, vol. 3, no. 2, 2015, pp. 59-68.
Vancouver Tayirova N, Tekerek M, Brimkulov U. Statistical machine translation implementation and performance tests between Kyrgyz and Turkish Languages. MJEN. 2015;3(2):59-68.

Manas Journal of Engineering 

16155