In this study, phonological and morphological analysis of 230 sentences was carried out using Turkish Natural Language Processing techniques. Software developed in the Visual Studio environment and C# language, which works integrated with Zemberek, was used in the analyses. The Turkish grammar equivalents of 120 out of the 130 suffixes in Zemberek were determined. 13 suffixes are root nouns, 46 are inflectional suffixes, 39 are derivational suffixes, and 22 are other suffixes (compound verbs, deriving verbal adjective from verbs and verbal adverb from verbs) of the Zemberek suffixes. It was determined that the 230 sentences in the dataset consisted of 744 words, the words had an average of 5.30 letters and 2.26 syllables, approximately half of the syllables were in the CV syllable type consisting of consonant-vowel combinations, and 1 analysis was produced by Zemberek for more than half of the words. In addition, it was determined that half of the words do not take suffixes, inflectional suffixes are used more than other types of suffixes, derivational or inflectional suffixes come after derivational suffixes, and only inflectional suffixes come after other suffixes (compound verbs and deriving verbal adjective from verbs) or inflectional suffixes. It was observed that the number of words in the noun type is higher than the words in other types, and the number of words that comply with the vowel and consonant harmony rules is higher than those that do not.
Bu çalışmada Türkçe Doğal Dil İşleme teknikleriyle 230 cümlenin ses bilgisi ve morfolojik analizi gerçekleştirilmiştir. İşlemlerde Zemberek’le entegre şekilde çalışan Visual Studio ortamında ve C# dilinde geliştirilen yazılım kullanılmıştır. Zemberek’te bulunan 130 ekten 120’sinin Türkçe dil bilgisindeki ek karşılıkları belirlenmiştir. Zemberek eklerinden 13’ü kök adı, 46’sı çekim eki, 39’u yapım eki ve 22 tanesi diğer eklerdir (birleşik fiil, fiilden sıfat fiil ve fiilden zarf fiil türeten). Veri kümesindeki 230 cümlenin 744 kelimeden oluştuğu, kelimelerin ortalama 5.30 harf ve 2.26 heceli olduğu, hecelerin yaklaşık yarısının ünsüz-ünlü birleşiminden oluşan CV hece türünde bulunduğu ve kelimelerin yarısından fazlası için Zemberek tarafından 1 çözümleme üretildiği belirlenmiştir. Ayrıca, kelimelerin yarısının ek almadığı, çekim eklerinin diğer ek türlerinden daha çok kullanıldığı, yapım eklerinden sonra yapım veya çekim eklerinin, diğer eklerden (birleşik fiil ve fiilden sıfat fiil türeten) veya çekim eklerinden sonra ise yalnızca çekim eklerinin geldiği tespit edilmiştir. İsim türündeki kelime sayısının diğer türlerdeki kelime sayısından, ünlü ve ünsüz uyum kurallarına uyan kelime sayısının uymayan kelime sayısından daha yüksek olduğu görülmüştür.
Primary Language | Turkish |
---|---|
Subjects | Machine Learning (Other), Natural Language Processing |
Journal Section | Research Articles |
Authors | |
Publication Date | July 31, 2024 |
Submission Date | April 23, 2024 |
Acceptance Date | July 3, 2024 |
Published in Issue | Year 2024 Volume: 4 Issue: 2 |