Türkçe doğal dil işleme: ses bilgisi ve morfolojik analiz

Mehmet Fatih Karaca; Şafak Bayır

doi:10.61112/jiens.1472513

Research Article

Türkçe doğal dil işleme: ses bilgisi ve morfolojik analiz

Year 2024, Volume: 4 Issue: 2, 448 - 465, 31.07.2024

Mehmet Fatih Karaca , Şafak Bayır

https://doi.org/10.61112/jiens.1472513

Abstract

Bu çalışmada Türkçe Doğal Dil İşleme teknikleriyle 230 cümlenin ses bilgisi ve morfolojik analizi gerçekleştirilmiştir. İşlemlerde Zemberek’le entegre şekilde çalışan Visual Studio ortamında ve C# dilinde geliştirilen yazılım kullanılmıştır. Zemberek’te bulunan 130 ekten 120’sinin Türkçe dil bilgisindeki ek karşılıkları belirlenmiştir. Zemberek eklerinden 13’ü kök adı, 46’sı çekim eki, 39’u yapım eki ve 22 tanesi diğer eklerdir (birleşik fiil, fiilden sıfat fiil ve fiilden zarf fiil türeten). Veri kümesindeki 230 cümlenin 744 kelimeden oluştuğu, kelimelerin ortalama 5.30 harf ve 2.26 heceli olduğu, hecelerin yaklaşık yarısının ünsüz-ünlü birleşiminden oluşan CV hece türünde bulunduğu ve kelimelerin yarısından fazlası için Zemberek tarafından 1 çözümleme üretildiği belirlenmiştir. Ayrıca, kelimelerin yarısının ek almadığı, çekim eklerinin diğer ek türlerinden daha çok kullanıldığı, yapım eklerinden sonra yapım veya çekim eklerinin, diğer eklerden (birleşik fiil ve fiilden sıfat fiil türeten) veya çekim eklerinden sonra ise yalnızca çekim eklerinin geldiği tespit edilmiştir. İsim türündeki kelime sayısının diğer türlerdeki kelime sayısından, ünlü ve ünsüz uyum kurallarına uyan kelime sayısının uymayan kelime sayısından daha yüksek olduğu görülmüştür.

Keywords

Türkçe , Dil Bilgisi , Ses Bilgisi Analizi , Morfolojik Analiz , Doğal Dil İşleme

References

ChatGPT (2024) An artificial intelligence model. https://chat.openai.com/ Erişim 24 Mart 2024
Gemini (2024) An artificial intelligence model. https://gemini.google.com/app Erişim 24 Mart 2024
Gürbüz M, Sürmeli D, Taşkın K, Cebeci Hİ (2024) Otellere için paylaşılan çevre ile alakalı yorumların metin madenciliği ile analizi: Antalya otelleri üzerine bir araştırma. Business and Management Studies: An International Journal 12(1):218-239. https://doi.org/10.15295/bmij.v12i1.2369
Erdoğan İ, Güllü M, Polat H (2022) Makine Öğrenmesi algoritmaları ile uçtan uca yazar tanıma uygulaması geliştirme. El-Cezeri 9(4):1303-1314. https://doi.org/10.31202/ecjse.1134698
Görmez Y, Arslan H, Atak B (2024) Türkçe metinlerde duygu analizi: Derin öğrenme yaklaşımlarının ve ön işlem süreçlerinin model performansına etkisi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 36(1):509-520. https://doi.org/10.35234/fumbd.1429040
Pekcoşkun Güner S (2023) Çevirmen-Bilgisayar etkileşiminin kilit bileşeni: Doğal dil işleme. Karamanoğlu Mehmetbey Üniversitesi Uluslararası Filoloji ve Çeviribilim Dergisi 5(1):56-79. https://doi.org/10.55036/ufced.1306746
Karaca A, Aydın Ö (2024) Transformatör mimarisi tabanlı derin öğrenme yöntemi ile Türkçe haber metinlerine başlık üretme. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 39(1):485-496. https://doi.org/10.17341/gazimmfd.963240
Google Translate (2024) https://translate.google.com/ Erişim 28 Mart 2024
DeepL Translate (2024) https://www.deepl.com/translator Erişim 28 Mart 2024
Karaca MF (2018) Üç boyutlu sanal model ile Türk İşaret Dili simülasyonu. Yayımlanmış Doktora Tezi, Karabük: Karabük Üniversitesi Fen Bilimleri Enstitüsü.
Harman G, Aydemir E (2022) Kolay kişiselleştirilebilir akıllı sanal asistan. International Journal of Multidisciplinary Studies and Innovative Technologies 6(2):143-151. https://doi.org/10.36287/ijmsit.6.2.143
Ethnologue (2024) How many languages are there in the world? https://www.ethnologue.com/insights/how-many-languages/ Erişim 29 Mart 2024
Toparlı R (2000) Türk dili ve kompozisyon (1. Baskı). Sivas: Baskı Dilek Ofset Matbaacılık, ss. 20, 64, 67.
Hengirmen M (2007) Türkçe dilbilgisi (9. Baskı). Ankara: Engin Yayınları, ss. 33, 35, 69-71, 111, 113.
Ergin M (1980) Türk dilbilgisi (5. Baskı). İstanbul: Boğaziçi Yayınları, ss. 39, 40, 67, 68, 72, 73, 104-106, 115, 121-124.
Paçacıoğlu B (2010) Türk dili ve kompozisyon (1. Baskı). İstanbul: Hat Yayınevi, ss. 32, 34, 64, 66, 67, 79.
Türk Dil Kurumu (2024) Ünsüzlerin nitelikleri. https://tdk.gov.tr/icerik/yazim-kurallari/unsuzlerin-nitelikleri/ Erişim 29 Mart 2024
Türk Dil Kurumu (2024) Türk Dil Kurumu sözlükleri. https://sozluk.gov.tr/ Erişim 29 Mart 2024
Boz E (2012) Türkiye Türkçesi biçimsel ve anlamsal işlevli biçimbilgisi (1. Baskı). Ankara: Gazi Kitabevi, s. 5.
Zemberek (2007) Açık kaynak kodlu Türkçe Doğal Dil İşleme Kütüphanesi. http://code.google.com/p/nzemberek Erişim 12 Temmuz 2015
Akın MD, Akın, AA (2007) Türk dilleri için açık kaynaklı doğal dil işleme kütüphanesi: Zemberek. Elektrik Mühendisliği 431:38-44.
Demirhan T, Hacıoğlu İ (2024) 6 Şubat 2023 Türkiye’deki deprem fırtınasının X (Twitter) özelinde tanımlayıcı analizlerinin yapılması. Fırat Üniversitesi Sosyal Bilimler Dergisi 34(1):285-300. https://doi.org/10.18069/firatsbed.1384400
Yakar Ö, Büyüktanır B, Çil A,Altınel Girgin AB (2024) Türkçe nefret söylemi problemi analizinde farklı sınıflandırma algoritmalarının ve özellik seçimi yöntemlerinin performans karşılaştırması. Avrupa Bilim ve Teknoloji Dergisi (53):97-111. https://dergipark.org.tr/en/pub/ejosat/issue/82065/1373310
Kayakuş M, Yiğit Açıkgöz F (2023) Twitter’da makine öğrenmesi yöntemleriyle sahte haber tespiti. Abant Sosyal Bilimler Dergisi 23(2):1017-1027. https://doi.org/10.11616/asbi.1266179
Kocak S, İç YT, Sert M, Dengiz B (2023) Ar-Ge projelerinin sınıflandırılması için doğal Türkçe dil işleme tabanlı yöntem. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 38(3):1375-1388. https://doi.org/10.17341/gazimmfd.889395
Aram K, Erdemir G, Can B (2021) Açık kaynak kod Türkçe doğal dil işleme kütüphanelerinin robotik uygulamalarda kullanımı. İstanbul Sabahattin Zaim Üniversitesi Fen Bilimleri Enstitüsü Dergisi 3(2):133-137. https://doi.org/10.47769/izufbed.880143

Turkish natural language processing: phonetic and morphological analysis

Year 2024, Volume: 4 Issue: 2, 448 - 465, 31.07.2024

Mehmet Fatih Karaca , Şafak Bayır

https://doi.org/10.61112/jiens.1472513

Abstract

In this study, phonological and morphological analysis of 230 sentences was carried out using Turkish Natural Language Processing techniques. Software developed in the Visual Studio environment and C# language, which works integrated with Zemberek, was used in the analyses. The Turkish grammar equivalents of 120 out of the 130 suffixes in Zemberek were determined. 13 suffixes are root nouns, 46 are inflectional suffixes, 39 are derivational suffixes, and 22 are other suffixes (compound verbs, deriving verbal adjective from verbs and verbal adverb from verbs) of the Zemberek suffixes. It was determined that the 230 sentences in the dataset consisted of 744 words, the words had an average of 5.30 letters and 2.26 syllables, approximately half of the syllables were in the CV syllable type consisting of consonant-vowel combinations, and 1 analysis was produced by Zemberek for more than half of the words. In addition, it was determined that half of the words do not take suffixes, inflectional suffixes are used more than other types of suffixes, derivational or inflectional suffixes come after derivational suffixes, and only inflectional suffixes come after other suffixes (compound verbs and deriving verbal adjective from verbs) or inflectional suffixes. It was observed that the number of words in the noun type is higher than the words in other types, and the number of words that comply with the vowel and consonant harmony rules is higher than those that do not.

Keywords

Turkish , Grammar , Phonetic Analysis , Morphological Analysis , Natural Language Processing

References

ChatGPT (2024) An artificial intelligence model. https://chat.openai.com/ Erişim 24 Mart 2024
Gemini (2024) An artificial intelligence model. https://gemini.google.com/app Erişim 24 Mart 2024
Gürbüz M, Sürmeli D, Taşkın K, Cebeci Hİ (2024) Otellere için paylaşılan çevre ile alakalı yorumların metin madenciliği ile analizi: Antalya otelleri üzerine bir araştırma. Business and Management Studies: An International Journal 12(1):218-239. https://doi.org/10.15295/bmij.v12i1.2369
Erdoğan İ, Güllü M, Polat H (2022) Makine Öğrenmesi algoritmaları ile uçtan uca yazar tanıma uygulaması geliştirme. El-Cezeri 9(4):1303-1314. https://doi.org/10.31202/ecjse.1134698
Görmez Y, Arslan H, Atak B (2024) Türkçe metinlerde duygu analizi: Derin öğrenme yaklaşımlarının ve ön işlem süreçlerinin model performansına etkisi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 36(1):509-520. https://doi.org/10.35234/fumbd.1429040
Pekcoşkun Güner S (2023) Çevirmen-Bilgisayar etkileşiminin kilit bileşeni: Doğal dil işleme. Karamanoğlu Mehmetbey Üniversitesi Uluslararası Filoloji ve Çeviribilim Dergisi 5(1):56-79. https://doi.org/10.55036/ufced.1306746
Karaca A, Aydın Ö (2024) Transformatör mimarisi tabanlı derin öğrenme yöntemi ile Türkçe haber metinlerine başlık üretme. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 39(1):485-496. https://doi.org/10.17341/gazimmfd.963240
Google Translate (2024) https://translate.google.com/ Erişim 28 Mart 2024
DeepL Translate (2024) https://www.deepl.com/translator Erişim 28 Mart 2024
Karaca MF (2018) Üç boyutlu sanal model ile Türk İşaret Dili simülasyonu. Yayımlanmış Doktora Tezi, Karabük: Karabük Üniversitesi Fen Bilimleri Enstitüsü.
Harman G, Aydemir E (2022) Kolay kişiselleştirilebilir akıllı sanal asistan. International Journal of Multidisciplinary Studies and Innovative Technologies 6(2):143-151. https://doi.org/10.36287/ijmsit.6.2.143
Ethnologue (2024) How many languages are there in the world? https://www.ethnologue.com/insights/how-many-languages/ Erişim 29 Mart 2024
Toparlı R (2000) Türk dili ve kompozisyon (1. Baskı). Sivas: Baskı Dilek Ofset Matbaacılık, ss. 20, 64, 67.
Hengirmen M (2007) Türkçe dilbilgisi (9. Baskı). Ankara: Engin Yayınları, ss. 33, 35, 69-71, 111, 113.
Ergin M (1980) Türk dilbilgisi (5. Baskı). İstanbul: Boğaziçi Yayınları, ss. 39, 40, 67, 68, 72, 73, 104-106, 115, 121-124.
Paçacıoğlu B (2010) Türk dili ve kompozisyon (1. Baskı). İstanbul: Hat Yayınevi, ss. 32, 34, 64, 66, 67, 79.
Türk Dil Kurumu (2024) Ünsüzlerin nitelikleri. https://tdk.gov.tr/icerik/yazim-kurallari/unsuzlerin-nitelikleri/ Erişim 29 Mart 2024
Türk Dil Kurumu (2024) Türk Dil Kurumu sözlükleri. https://sozluk.gov.tr/ Erişim 29 Mart 2024
Boz E (2012) Türkiye Türkçesi biçimsel ve anlamsal işlevli biçimbilgisi (1. Baskı). Ankara: Gazi Kitabevi, s. 5.
Zemberek (2007) Açık kaynak kodlu Türkçe Doğal Dil İşleme Kütüphanesi. http://code.google.com/p/nzemberek Erişim 12 Temmuz 2015
Akın MD, Akın, AA (2007) Türk dilleri için açık kaynaklı doğal dil işleme kütüphanesi: Zemberek. Elektrik Mühendisliği 431:38-44.
Demirhan T, Hacıoğlu İ (2024) 6 Şubat 2023 Türkiye’deki deprem fırtınasının X (Twitter) özelinde tanımlayıcı analizlerinin yapılması. Fırat Üniversitesi Sosyal Bilimler Dergisi 34(1):285-300. https://doi.org/10.18069/firatsbed.1384400
Yakar Ö, Büyüktanır B, Çil A,Altınel Girgin AB (2024) Türkçe nefret söylemi problemi analizinde farklı sınıflandırma algoritmalarının ve özellik seçimi yöntemlerinin performans karşılaştırması. Avrupa Bilim ve Teknoloji Dergisi (53):97-111. https://dergipark.org.tr/en/pub/ejosat/issue/82065/1373310
Kayakuş M, Yiğit Açıkgöz F (2023) Twitter’da makine öğrenmesi yöntemleriyle sahte haber tespiti. Abant Sosyal Bilimler Dergisi 23(2):1017-1027. https://doi.org/10.11616/asbi.1266179
Kocak S, İç YT, Sert M, Dengiz B (2023) Ar-Ge projelerinin sınıflandırılması için doğal Türkçe dil işleme tabanlı yöntem. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 38(3):1375-1388. https://doi.org/10.17341/gazimmfd.889395
Aram K, Erdemir G, Can B (2021) Açık kaynak kod Türkçe doğal dil işleme kütüphanelerinin robotik uygulamalarda kullanımı. İstanbul Sabahattin Zaim Üniversitesi Fen Bilimleri Enstitüsü Dergisi 3(2):133-137. https://doi.org/10.47769/izufbed.880143

There are 26 citations in total.

Details

Primary Language	Turkish
Subjects	Machine Learning (Other), Natural Language Processing
Journal Section	Research Article
Authors	Mehmet Fatih Karaca 0000-0002-7612-1437 Şafak Bayır 0000-0003-4719-8088
Publication Date	July 31, 2024
Submission Date	April 23, 2024
Acceptance Date	July 3, 2024
Published in Issue	Year 2024 Volume: 4 Issue: 2

Cite

APA	Karaca, M. F., & Bayır, Ş. (2024). Türkçe doğal dil işleme: ses bilgisi ve morfolojik analiz. Journal of Innovative Engineering and Natural Science, 4(2), 448-465. https://doi.org/10.61112/jiens.1472513

Download Cover Image

Article Files

Full Text

Open Journal Systems 28737

Journal of Innovative Engineering and Natural Science by İdris Karagöz is licensed under CC BY 4.0