Research Article
BibTex RIS Cite

Combining Statistical and Rule-Based Approach with N-Gram Method to Generate Meaningful and Dissimilar Turkish Texts

Year 2020, , 331 - 342, 15.05.2020
https://doi.org/10.21205/deufmd.2020226504

Abstract



Text generation studies are the
systems which new knowledge inferences are made by analyzing the existing
sentences and meaningful information is obtained from an existing knowledge.
These systems provide convenience to users to return more meaningful results
related to search results, especially on internet searches. To develop a text
generator, there is a need for a linguistic theory to define the sources of
natural language and a software tool to process these resources in computer
environment. In this study, it is aimed to generate meaningful new Turkish
sentences using class-based n-gram model from the sentences in the source
data set.
Trigram model has been proposed to generate sentences and
this model has been developed for use with rule based approach. Unlike other
methods, the method used in this study produced meaningful and different
sentences with the successive addition method within the framework of the
rules determined from the groups divided into triple word groups. Thus, new
texts were generated
by connecting different sentences from the word or
word groups in the source text file as much as the number of the groups that
associated with.


References

  • [1] Akalın, Ş.H. 2007. Türk Dünyasında Bilgisayar Destekli Dil Bilimi Çalışmaları ve Türk Dil Kurumu. 38. Uluslararası Asya ve Kuzey Afrika Çalışmaları Kongresi (ICANAS), 10-15 Eylül, Ankara, 17-22.
  • [2] Oflazer, K. ve Bozşahin, H.C. 2006. Türkçe Doğal Dil İşleme. Çukurova Üniversitesi Türkoloji Araştırmaları Merkezi.
  • [3] Korkmaz, T. 1996. Turkish Text Generation with Systemic-Functional Grammar. Master's Thesis, Bilkent University, Department of Computer Engineering and Information Science, Ankara.
  • [4] Gündoğdu, Ö.E. ve Duru, N. 2016. Türkçe Metin Özetlemede Kullanılan Yöntemler. 18. Akademik Bilişim Konferansı, Adnan Menderes Üniversitesi, 30 Ocak-5 Şubat, Aydın.
  • [5] Kazkılınç, S. 2013. Türkçe Metinlerin Etiketlenmesi. Yüksek Lisans Tezi, İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, İstanbul.
  • [6] Mocan, Z. 2005. Metin İşleme:Soru Soran Bir Sistem Tasarımı. Yüksek Lisans Tezi, İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, İstanbul.
  • [7] Bilgin, M. ve Amasyalı, M.F. 2017. Dependency parsing with stacked conditional random fields for Turkish. Journal of the Faculty of Engineering and Architecture of Gazi University, 32(2), 385-392.
  • [8] Adalı, Ş. ve Erenler, Y. 2003. Türkçe için Okuma Fonksiyonlu Otomatik Metin Oluşturma Sistemi. Elektrik-Elektronik-Bilgisayar Mühendisliği 10. Ulusal Kongresi, İstanbul Sayfa:484-487.
  • [9] Özdemir, C.B. ve Amasyalı, M.F. 2010. Hayat Bilgisi Veritabanı Kullanılarak Otomatik Cümle Üretimi. XV. Türkiye'de İnternet Konferansı, 2-4 Aralık, İstanbul, cilt.1 s.1-4.
  • [10] Metin, Senem Kumova, and Bahar Karaoğlan. 2010. Collocation extraction in Turkish texts using statistical methods. International Conference on Natural Language Processing. Springer, Berlin, Heidelberg.
  • [11] Brown, P.F. et al. 1990. Class-Based N-Gram Models of Natural Language. In Proceedings of the IBM Natural Language ITL, Paris, pp. 283–298.
  • [12] Mairesse, F. et al. 2010. Phrase-based Statistical Language Generation using Graphical Models and Active Learning. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL), Uppsala.
  • [13] Uchimoto, K. et al. 2002. Text Generation from Keywords. COLING '02 Proceedings of the 19th International Conference on Computational Linguistics, Taipei.
  • [14] Tan, J. et al. 2017. From neural sentence summarization to headline generation: a coarse-to-fine approach. 26th International Joint Conference on Artificial Intelligence (IJCAI-17), 19-25 August, Melbourne-Australia, p.4109-4115.
  • [15] Bauer, A. et al. 2015. Rule-based Approach to Text Generation in Natural Language-Automated Text Markup Language. (ATML3), Challenge+ DC@ RuleML.
  • [16] Kutlugün, Mehmet Ali, and Şirin, Yahya. 2018. Turkish meaningful text generation with class based n-gram model. 26th Signal Processing and Communications Applications Conference (SIU). IEEE. DOI: 10.1109/SIU.2018.8404801.
  • [17] Yıldırım, O. ve Atık, F. 2013. Kişisel Gazete, Bitirme Projesi. Yıldız Teknik Üniversitesi, Elektrik-Elektronik Fakültesi, İstanbul.
  • [18] Erdogan, H. 2001. Speech Recognition for a Travel Reservation System. International Conference on Artificial Intelligence (IC-AI'2001), 25-28 Jun, Las Vegas-Nevada.
  • [19] Manning, C.D. and Schütze, H. 1999. Foundations of Statistical Natural Language Processing. The MIT Press.
  • [20] Justeson, J.S. and Katz, S.M. 1995. Principled Disambiguation: Discriminating Adjective Senses with Modified Nouns. Computational Linguistics.
  • [21] Eryiğit, Gülşen, Joakim Nivre, and Kemal Oflazer. 2006. The incremental use of morphological information and lexicalization in data-driven dependency parsing. International Conference on Computer Processing of Oriental Languages. Springer, Berlin, Heidelberg.

Anlamlı ve Benzer Olmayan Türkçe Metinler Üretmek için N-Gram Yöntemi ile İstatistiksel ve Kural Tabanlı Yaklaşımın Birlikte Kullanımı

Year 2020, , 331 - 342, 15.05.2020
https://doi.org/10.21205/deufmd.2020226504

Abstract

Metin üretme çalışmaları, mevcut
cümlelerin analiz edilerek yeni bilgi çıkarımlarının yapıldığı, varolan bir
bilgiden yola çıkarak bununla bağlantılı anlamlı bilgilerin elde edildiği
sistemlerdir. Bu sistemler, özellikle internet üzerinden yapılan aramalarda
girilen cümlelerin türetilerek kullanıcılara arama sonuçları ile ilgili daha
anlamlı sonuçlar döndürebilmek gibi kolaylıklar sağlarlar. Bir metin üretici
geliştirmek için, doğal dilin kaynaklarını tanımlayacak bir dilbilim teorisine
ve bu kaynakları bilgisayar ortamında işleyecek bir yazılım aracına ihtiyaç
vardır. Bu çalışmada, kaynak veri kümesindeki cümlelerden sınıf tabanlı n-gram
modeli kullanılarak Türkçe dil yapısına uygun anlamlı ve yeni cümleler
oluşturulması hedeflenmiştir. Cümle üretimini gerçekleştirmek için trigram
modeli önerilmiş ve bu model kural tabanlı yaklaşım ile birlikte kullanılmak
için geliştirilmiştir. Bu çalışmada kullanılan yöntem ile diğer kullanılan
yöntemlerden farklı olarak, üçlü kelime grupları şeklinde ayrılan gruplardan belirlenen
kurallar çerçevesinde, art arda ekleme yöntemiyle anlamlı ve farklı cümleler
üretilmesi gerçekleştirilmiştir. Böylece kaynak metin dosyasındaki kelime ya da
kelime gruplarından ilişkili olduğu grup sayısı kadar farklı cümleler birbirine
bağlanarak yeni metinler oluşturulmuştur. 

References

  • [1] Akalın, Ş.H. 2007. Türk Dünyasında Bilgisayar Destekli Dil Bilimi Çalışmaları ve Türk Dil Kurumu. 38. Uluslararası Asya ve Kuzey Afrika Çalışmaları Kongresi (ICANAS), 10-15 Eylül, Ankara, 17-22.
  • [2] Oflazer, K. ve Bozşahin, H.C. 2006. Türkçe Doğal Dil İşleme. Çukurova Üniversitesi Türkoloji Araştırmaları Merkezi.
  • [3] Korkmaz, T. 1996. Turkish Text Generation with Systemic-Functional Grammar. Master's Thesis, Bilkent University, Department of Computer Engineering and Information Science, Ankara.
  • [4] Gündoğdu, Ö.E. ve Duru, N. 2016. Türkçe Metin Özetlemede Kullanılan Yöntemler. 18. Akademik Bilişim Konferansı, Adnan Menderes Üniversitesi, 30 Ocak-5 Şubat, Aydın.
  • [5] Kazkılınç, S. 2013. Türkçe Metinlerin Etiketlenmesi. Yüksek Lisans Tezi, İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, İstanbul.
  • [6] Mocan, Z. 2005. Metin İşleme:Soru Soran Bir Sistem Tasarımı. Yüksek Lisans Tezi, İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, İstanbul.
  • [7] Bilgin, M. ve Amasyalı, M.F. 2017. Dependency parsing with stacked conditional random fields for Turkish. Journal of the Faculty of Engineering and Architecture of Gazi University, 32(2), 385-392.
  • [8] Adalı, Ş. ve Erenler, Y. 2003. Türkçe için Okuma Fonksiyonlu Otomatik Metin Oluşturma Sistemi. Elektrik-Elektronik-Bilgisayar Mühendisliği 10. Ulusal Kongresi, İstanbul Sayfa:484-487.
  • [9] Özdemir, C.B. ve Amasyalı, M.F. 2010. Hayat Bilgisi Veritabanı Kullanılarak Otomatik Cümle Üretimi. XV. Türkiye'de İnternet Konferansı, 2-4 Aralık, İstanbul, cilt.1 s.1-4.
  • [10] Metin, Senem Kumova, and Bahar Karaoğlan. 2010. Collocation extraction in Turkish texts using statistical methods. International Conference on Natural Language Processing. Springer, Berlin, Heidelberg.
  • [11] Brown, P.F. et al. 1990. Class-Based N-Gram Models of Natural Language. In Proceedings of the IBM Natural Language ITL, Paris, pp. 283–298.
  • [12] Mairesse, F. et al. 2010. Phrase-based Statistical Language Generation using Graphical Models and Active Learning. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL), Uppsala.
  • [13] Uchimoto, K. et al. 2002. Text Generation from Keywords. COLING '02 Proceedings of the 19th International Conference on Computational Linguistics, Taipei.
  • [14] Tan, J. et al. 2017. From neural sentence summarization to headline generation: a coarse-to-fine approach. 26th International Joint Conference on Artificial Intelligence (IJCAI-17), 19-25 August, Melbourne-Australia, p.4109-4115.
  • [15] Bauer, A. et al. 2015. Rule-based Approach to Text Generation in Natural Language-Automated Text Markup Language. (ATML3), Challenge+ DC@ RuleML.
  • [16] Kutlugün, Mehmet Ali, and Şirin, Yahya. 2018. Turkish meaningful text generation with class based n-gram model. 26th Signal Processing and Communications Applications Conference (SIU). IEEE. DOI: 10.1109/SIU.2018.8404801.
  • [17] Yıldırım, O. ve Atık, F. 2013. Kişisel Gazete, Bitirme Projesi. Yıldız Teknik Üniversitesi, Elektrik-Elektronik Fakültesi, İstanbul.
  • [18] Erdogan, H. 2001. Speech Recognition for a Travel Reservation System. International Conference on Artificial Intelligence (IC-AI'2001), 25-28 Jun, Las Vegas-Nevada.
  • [19] Manning, C.D. and Schütze, H. 1999. Foundations of Statistical Natural Language Processing. The MIT Press.
  • [20] Justeson, J.S. and Katz, S.M. 1995. Principled Disambiguation: Discriminating Adjective Senses with Modified Nouns. Computational Linguistics.
  • [21] Eryiğit, Gülşen, Joakim Nivre, and Kemal Oflazer. 2006. The incremental use of morphological information and lexicalization in data-driven dependency parsing. International Conference on Computer Processing of Oriental Languages. Springer, Berlin, Heidelberg.
There are 21 citations in total.

Details

Primary Language Turkish
Subjects Engineering
Journal Section Research Article
Authors

Yahya Şirin 0000-0001-5331-1804

Mehmet Ali Kutlugün 0000-0003-0720-2142

Publication Date May 15, 2020
Published in Issue Year 2020

Cite

APA Şirin, Y., & Kutlugün, M. A. (2020). Anlamlı ve Benzer Olmayan Türkçe Metinler Üretmek için N-Gram Yöntemi ile İstatistiksel ve Kural Tabanlı Yaklaşımın Birlikte Kullanımı. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen Ve Mühendislik Dergisi, 22(65), 331-342. https://doi.org/10.21205/deufmd.2020226504
AMA Şirin Y, Kutlugün MA. Anlamlı ve Benzer Olmayan Türkçe Metinler Üretmek için N-Gram Yöntemi ile İstatistiksel ve Kural Tabanlı Yaklaşımın Birlikte Kullanımı. DEUFMD. May 2020;22(65):331-342. doi:10.21205/deufmd.2020226504
Chicago Şirin, Yahya, and Mehmet Ali Kutlugün. “Anlamlı Ve Benzer Olmayan Türkçe Metinler Üretmek için N-Gram Yöntemi Ile İstatistiksel Ve Kural Tabanlı Yaklaşımın Birlikte Kullanımı”. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen Ve Mühendislik Dergisi 22, no. 65 (May 2020): 331-42. https://doi.org/10.21205/deufmd.2020226504.
EndNote Şirin Y, Kutlugün MA (May 1, 2020) Anlamlı ve Benzer Olmayan Türkçe Metinler Üretmek için N-Gram Yöntemi ile İstatistiksel ve Kural Tabanlı Yaklaşımın Birlikte Kullanımı. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi 22 65 331–342.
IEEE Y. Şirin and M. A. Kutlugün, “Anlamlı ve Benzer Olmayan Türkçe Metinler Üretmek için N-Gram Yöntemi ile İstatistiksel ve Kural Tabanlı Yaklaşımın Birlikte Kullanımı”, DEUFMD, vol. 22, no. 65, pp. 331–342, 2020, doi: 10.21205/deufmd.2020226504.
ISNAD Şirin, Yahya - Kutlugün, Mehmet Ali. “Anlamlı Ve Benzer Olmayan Türkçe Metinler Üretmek için N-Gram Yöntemi Ile İstatistiksel Ve Kural Tabanlı Yaklaşımın Birlikte Kullanımı”. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi 22/65 (May 2020), 331-342. https://doi.org/10.21205/deufmd.2020226504.
JAMA Şirin Y, Kutlugün MA. Anlamlı ve Benzer Olmayan Türkçe Metinler Üretmek için N-Gram Yöntemi ile İstatistiksel ve Kural Tabanlı Yaklaşımın Birlikte Kullanımı. DEUFMD. 2020;22:331–342.
MLA Şirin, Yahya and Mehmet Ali Kutlugün. “Anlamlı Ve Benzer Olmayan Türkçe Metinler Üretmek için N-Gram Yöntemi Ile İstatistiksel Ve Kural Tabanlı Yaklaşımın Birlikte Kullanımı”. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen Ve Mühendislik Dergisi, vol. 22, no. 65, 2020, pp. 331-42, doi:10.21205/deufmd.2020226504.
Vancouver Şirin Y, Kutlugün MA. Anlamlı ve Benzer Olmayan Türkçe Metinler Üretmek için N-Gram Yöntemi ile İstatistiksel ve Kural Tabanlı Yaklaşımın Birlikte Kullanımı. DEUFMD. 2020;22(65):331-42.

Dokuz Eylül Üniversitesi, Mühendislik Fakültesi Dekanlığı Tınaztepe Yerleşkesi, Adatepe Mah. Doğuş Cad. No: 207-I / 35390 Buca-İZMİR.