Research Article
BibTex RIS Cite

Turkish natural language processing: phonetic and morphological analysis

Year 2024, , 448 - 465, 31.07.2024
https://doi.org/10.61112/jiens.1472513

Abstract

In this study, phonological and morphological analysis of 230 sentences was carried out using Turkish Natural Language Processing techniques. Software developed in the Visual Studio environment and C# language, which works integrated with Zemberek, was used in the analyses. The Turkish grammar equivalents of 120 out of the 130 suffixes in Zemberek were determined. 13 suffixes are root nouns, 46 are inflectional suffixes, 39 are derivational suffixes, and 22 are other suffixes (compound verbs, deriving verbal adjective from verbs and verbal adverb from verbs) of the Zemberek suffixes. It was determined that the 230 sentences in the dataset consisted of 744 words, the words had an average of 5.30 letters and 2.26 syllables, approximately half of the syllables were in the CV syllable type consisting of consonant-vowel combinations, and 1 analysis was produced by Zemberek for more than half of the words. In addition, it was determined that half of the words do not take suffixes, inflectional suffixes are used more than other types of suffixes, derivational or inflectional suffixes come after derivational suffixes, and only inflectional suffixes come after other suffixes (compound verbs and deriving verbal adjective from verbs) or inflectional suffixes. It was observed that the number of words in the noun type is higher than the words in other types, and the number of words that comply with the vowel and consonant harmony rules is higher than those that do not.

References

  • ChatGPT (2024) An artificial intelligence model. https://chat.openai.com/ Erişim 24 Mart 2024
  • Gemini (2024) An artificial intelligence model. https://gemini.google.com/app Erişim 24 Mart 2024
  • Gürbüz M, Sürmeli D, Taşkın K, Cebeci Hİ (2024) Otellere için paylaşılan çevre ile alakalı yorumların metin madenciliği ile analizi: Antalya otelleri üzerine bir araştırma. Business and Management Studies: An International Journal 12(1):218-239. https://doi.org/10.15295/bmij.v12i1.2369
  • Erdoğan İ, Güllü M, Polat H (2022) Makine Öğrenmesi algoritmaları ile uçtan uca yazar tanıma uygulaması geliştirme. El-Cezeri 9(4):1303-1314. https://doi.org/10.31202/ecjse.1134698
  • Görmez Y, Arslan H, Atak B (2024) Türkçe metinlerde duygu analizi: Derin öğrenme yaklaşımlarının ve ön işlem süreçlerinin model performansına etkisi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 36(1):509-520. https://doi.org/10.35234/fumbd.1429040
  • Pekcoşkun Güner S (2023) Çevirmen-Bilgisayar etkileşiminin kilit bileşeni: Doğal dil işleme. Karamanoğlu Mehmetbey Üniversitesi Uluslararası Filoloji ve Çeviribilim Dergisi 5(1):56-79. https://doi.org/10.55036/ufced.1306746
  • Karaca A, Aydın Ö (2024) Transformatör mimarisi tabanlı derin öğrenme yöntemi ile Türkçe haber metinlerine başlık üretme. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 39(1):485-496. https://doi.org/10.17341/gazimmfd.963240
  • Google Translate (2024) https://translate.google.com/ Erişim 28 Mart 2024
  • DeepL Translate (2024) https://www.deepl.com/translator Erişim 28 Mart 2024
  • Karaca MF (2018) Üç boyutlu sanal model ile Türk İşaret Dili simülasyonu. Yayımlanmış Doktora Tezi, Karabük: Karabük Üniversitesi Fen Bilimleri Enstitüsü.
  • Harman G, Aydemir E (2022) Kolay kişiselleştirilebilir akıllı sanal asistan. International Journal of Multidisciplinary Studies and Innovative Technologies 6(2):143-151. https://doi.org/10.36287/ijmsit.6.2.143
  • Ethnologue (2024) How many languages are there in the world? https://www.ethnologue.com/insights/how-many-languages/ Erişim 29 Mart 2024
  • Toparlı R (2000) Türk dili ve kompozisyon (1. Baskı). Sivas: Baskı Dilek Ofset Matbaacılık, ss. 20, 64, 67.
  • Hengirmen M (2007) Türkçe dilbilgisi (9. Baskı). Ankara: Engin Yayınları, ss. 33, 35, 69-71, 111, 113.
  • Ergin M (1980) Türk dilbilgisi (5. Baskı). İstanbul: Boğaziçi Yayınları, ss. 39, 40, 67, 68, 72, 73, 104-106, 115, 121-124.
  • Paçacıoğlu B (2010) Türk dili ve kompozisyon (1. Baskı). İstanbul: Hat Yayınevi, ss. 32, 34, 64, 66, 67, 79.
  • Türk Dil Kurumu (2024) Ünsüzlerin nitelikleri. https://tdk.gov.tr/icerik/yazim-kurallari/unsuzlerin-nitelikleri/ Erişim 29 Mart 2024
  • Türk Dil Kurumu (2024) Türk Dil Kurumu sözlükleri. https://sozluk.gov.tr/ Erişim 29 Mart 2024
  • Boz E (2012) Türkiye Türkçesi biçimsel ve anlamsal işlevli biçimbilgisi (1. Baskı). Ankara: Gazi Kitabevi, s. 5.
  • Zemberek (2007) Açık kaynak kodlu Türkçe Doğal Dil İşleme Kütüphanesi. http://code.google.com/p/nzemberek Erişim 12 Temmuz 2015
  • Akın MD, Akın, AA (2007) Türk dilleri için açık kaynaklı doğal dil işleme kütüphanesi: Zemberek. Elektrik Mühendisliği 431:38-44.
  • Demirhan T, Hacıoğlu İ (2024) 6 Şubat 2023 Türkiye’deki deprem fırtınasının X (Twitter) özelinde tanımlayıcı analizlerinin yapılması. Fırat Üniversitesi Sosyal Bilimler Dergisi 34(1):285-300. https://doi.org/10.18069/firatsbed.1384400
  • Yakar Ö, Büyüktanır B, Çil A,Altınel Girgin AB (2024) Türkçe nefret söylemi problemi analizinde farklı sınıflandırma algoritmalarının ve özellik seçimi yöntemlerinin performans karşılaştırması. Avrupa Bilim ve Teknoloji Dergisi (53):97-111. https://dergipark.org.tr/en/pub/ejosat/issue/82065/1373310
  • Kayakuş M, Yiğit Açıkgöz F (2023) Twitter’da makine öğrenmesi yöntemleriyle sahte haber tespiti. Abant Sosyal Bilimler Dergisi 23(2):1017-1027. https://doi.org/10.11616/asbi.1266179
  • Kocak S, İç YT, Sert M, Dengiz B (2023) Ar-Ge projelerinin sınıflandırılması için doğal Türkçe dil işleme tabanlı yöntem. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 38(3):1375-1388. https://doi.org/10.17341/gazimmfd.889395
  • Aram K, Erdemir G, Can B (2021) Açık kaynak kod Türkçe doğal dil işleme kütüphanelerinin robotik uygulamalarda kullanımı. İstanbul Sabahattin Zaim Üniversitesi Fen Bilimleri Enstitüsü Dergisi 3(2):133-137. https://doi.org/10.47769/izufbed.880143

Türkçe doğal dil işleme: ses bilgisi ve morfolojik analiz

Year 2024, , 448 - 465, 31.07.2024
https://doi.org/10.61112/jiens.1472513

Abstract

Bu çalışmada Türkçe Doğal Dil İşleme teknikleriyle 230 cümlenin ses bilgisi ve morfolojik analizi gerçekleştirilmiştir. İşlemlerde Zemberek’le entegre şekilde çalışan Visual Studio ortamında ve C# dilinde geliştirilen yazılım kullanılmıştır. Zemberek’te bulunan 130 ekten 120’sinin Türkçe dil bilgisindeki ek karşılıkları belirlenmiştir. Zemberek eklerinden 13’ü kök adı, 46’sı çekim eki, 39’u yapım eki ve 22 tanesi diğer eklerdir (birleşik fiil, fiilden sıfat fiil ve fiilden zarf fiil türeten). Veri kümesindeki 230 cümlenin 744 kelimeden oluştuğu, kelimelerin ortalama 5.30 harf ve 2.26 heceli olduğu, hecelerin yaklaşık yarısının ünsüz-ünlü birleşiminden oluşan CV hece türünde bulunduğu ve kelimelerin yarısından fazlası için Zemberek tarafından 1 çözümleme üretildiği belirlenmiştir. Ayrıca, kelimelerin yarısının ek almadığı, çekim eklerinin diğer ek türlerinden daha çok kullanıldığı, yapım eklerinden sonra yapım veya çekim eklerinin, diğer eklerden (birleşik fiil ve fiilden sıfat fiil türeten) veya çekim eklerinden sonra ise yalnızca çekim eklerinin geldiği tespit edilmiştir. İsim türündeki kelime sayısının diğer türlerdeki kelime sayısından, ünlü ve ünsüz uyum kurallarına uyan kelime sayısının uymayan kelime sayısından daha yüksek olduğu görülmüştür.

References

  • ChatGPT (2024) An artificial intelligence model. https://chat.openai.com/ Erişim 24 Mart 2024
  • Gemini (2024) An artificial intelligence model. https://gemini.google.com/app Erişim 24 Mart 2024
  • Gürbüz M, Sürmeli D, Taşkın K, Cebeci Hİ (2024) Otellere için paylaşılan çevre ile alakalı yorumların metin madenciliği ile analizi: Antalya otelleri üzerine bir araştırma. Business and Management Studies: An International Journal 12(1):218-239. https://doi.org/10.15295/bmij.v12i1.2369
  • Erdoğan İ, Güllü M, Polat H (2022) Makine Öğrenmesi algoritmaları ile uçtan uca yazar tanıma uygulaması geliştirme. El-Cezeri 9(4):1303-1314. https://doi.org/10.31202/ecjse.1134698
  • Görmez Y, Arslan H, Atak B (2024) Türkçe metinlerde duygu analizi: Derin öğrenme yaklaşımlarının ve ön işlem süreçlerinin model performansına etkisi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 36(1):509-520. https://doi.org/10.35234/fumbd.1429040
  • Pekcoşkun Güner S (2023) Çevirmen-Bilgisayar etkileşiminin kilit bileşeni: Doğal dil işleme. Karamanoğlu Mehmetbey Üniversitesi Uluslararası Filoloji ve Çeviribilim Dergisi 5(1):56-79. https://doi.org/10.55036/ufced.1306746
  • Karaca A, Aydın Ö (2024) Transformatör mimarisi tabanlı derin öğrenme yöntemi ile Türkçe haber metinlerine başlık üretme. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 39(1):485-496. https://doi.org/10.17341/gazimmfd.963240
  • Google Translate (2024) https://translate.google.com/ Erişim 28 Mart 2024
  • DeepL Translate (2024) https://www.deepl.com/translator Erişim 28 Mart 2024
  • Karaca MF (2018) Üç boyutlu sanal model ile Türk İşaret Dili simülasyonu. Yayımlanmış Doktora Tezi, Karabük: Karabük Üniversitesi Fen Bilimleri Enstitüsü.
  • Harman G, Aydemir E (2022) Kolay kişiselleştirilebilir akıllı sanal asistan. International Journal of Multidisciplinary Studies and Innovative Technologies 6(2):143-151. https://doi.org/10.36287/ijmsit.6.2.143
  • Ethnologue (2024) How many languages are there in the world? https://www.ethnologue.com/insights/how-many-languages/ Erişim 29 Mart 2024
  • Toparlı R (2000) Türk dili ve kompozisyon (1. Baskı). Sivas: Baskı Dilek Ofset Matbaacılık, ss. 20, 64, 67.
  • Hengirmen M (2007) Türkçe dilbilgisi (9. Baskı). Ankara: Engin Yayınları, ss. 33, 35, 69-71, 111, 113.
  • Ergin M (1980) Türk dilbilgisi (5. Baskı). İstanbul: Boğaziçi Yayınları, ss. 39, 40, 67, 68, 72, 73, 104-106, 115, 121-124.
  • Paçacıoğlu B (2010) Türk dili ve kompozisyon (1. Baskı). İstanbul: Hat Yayınevi, ss. 32, 34, 64, 66, 67, 79.
  • Türk Dil Kurumu (2024) Ünsüzlerin nitelikleri. https://tdk.gov.tr/icerik/yazim-kurallari/unsuzlerin-nitelikleri/ Erişim 29 Mart 2024
  • Türk Dil Kurumu (2024) Türk Dil Kurumu sözlükleri. https://sozluk.gov.tr/ Erişim 29 Mart 2024
  • Boz E (2012) Türkiye Türkçesi biçimsel ve anlamsal işlevli biçimbilgisi (1. Baskı). Ankara: Gazi Kitabevi, s. 5.
  • Zemberek (2007) Açık kaynak kodlu Türkçe Doğal Dil İşleme Kütüphanesi. http://code.google.com/p/nzemberek Erişim 12 Temmuz 2015
  • Akın MD, Akın, AA (2007) Türk dilleri için açık kaynaklı doğal dil işleme kütüphanesi: Zemberek. Elektrik Mühendisliği 431:38-44.
  • Demirhan T, Hacıoğlu İ (2024) 6 Şubat 2023 Türkiye’deki deprem fırtınasının X (Twitter) özelinde tanımlayıcı analizlerinin yapılması. Fırat Üniversitesi Sosyal Bilimler Dergisi 34(1):285-300. https://doi.org/10.18069/firatsbed.1384400
  • Yakar Ö, Büyüktanır B, Çil A,Altınel Girgin AB (2024) Türkçe nefret söylemi problemi analizinde farklı sınıflandırma algoritmalarının ve özellik seçimi yöntemlerinin performans karşılaştırması. Avrupa Bilim ve Teknoloji Dergisi (53):97-111. https://dergipark.org.tr/en/pub/ejosat/issue/82065/1373310
  • Kayakuş M, Yiğit Açıkgöz F (2023) Twitter’da makine öğrenmesi yöntemleriyle sahte haber tespiti. Abant Sosyal Bilimler Dergisi 23(2):1017-1027. https://doi.org/10.11616/asbi.1266179
  • Kocak S, İç YT, Sert M, Dengiz B (2023) Ar-Ge projelerinin sınıflandırılması için doğal Türkçe dil işleme tabanlı yöntem. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 38(3):1375-1388. https://doi.org/10.17341/gazimmfd.889395
  • Aram K, Erdemir G, Can B (2021) Açık kaynak kod Türkçe doğal dil işleme kütüphanelerinin robotik uygulamalarda kullanımı. İstanbul Sabahattin Zaim Üniversitesi Fen Bilimleri Enstitüsü Dergisi 3(2):133-137. https://doi.org/10.47769/izufbed.880143
There are 26 citations in total.

Details

Primary Language Turkish
Subjects Machine Learning (Other), Natural Language Processing
Journal Section Research Articles
Authors

Mehmet Fatih Karaca 0000-0002-7612-1437

Şafak Bayır 0000-0003-4719-8088

Publication Date July 31, 2024
Submission Date April 23, 2024
Acceptance Date July 3, 2024
Published in Issue Year 2024

Cite

APA Karaca, M. F., & Bayır, Ş. (2024). Türkçe doğal dil işleme: ses bilgisi ve morfolojik analiz. Journal of Innovative Engineering and Natural Science, 4(2), 448-465. https://doi.org/10.61112/jiens.1472513


by.png
Journal of Innovative Engineering and Natural Science by İdris Karagöz is licensed under CC BY 4.0