Language modelling is an important foundation in linguistic studies. Although different modelling methods can be ported for different languages, these ports may not always be sufficient. Morphologically rich languages are affected the most by this issue. During the model construction, it is required to focus on the unique features of the language as well as the universally common feature. In this article, we presented a constituency grammar considering Turkish, a morpheme-rich language. The grammar model that we detailed is based on traditional constituency grammar. However, our grammar method differs from the traditional constituency grammar in that it handles morphemes as syntactic elements, together with traditional syntactic elements, their effects on syntax, and the specific set of components. Unlike the traditional method, we started sentence analysis from morphological elements such as word stems, morphemes, and similar elements. Additionally, we propose a set of constituents which is constructed considering the syntactic and morphological features of Turkish. The set of components we proposed includes traditional syntactic constituents such as a sentence, noun phrase, verb phrase, adverb phrase, an intermediate structure we call a phrase stem, and constituents that represent morphemes or morpheme groups, such as plural suffix, case suffix, tense suffix.
Dilin modellenmesi, dil çalışmalarında önemli bir temel olarak yer alır. Farklı modelleme yöntemleri, farklı diller için uyarlanabilir olsa da bu uyarlamalar, hedef dil için her zaman yeterli olmayabilir. Bu durumdan en çok biçimbirimsel açıdan zengin diller etkilenir. Böyle bir dil için hazırlanacak model kurgulanırken dilin evrensel olarak ortak olan özelliklerinin yanı sıra, dilin kendine özgü özelliklerine odaklanılmalıdır. Bu makalede, bağımlı biçimbirim bakımından zengin bir görünüm sunan Türkçe ele alınarak uyarlanan gramer sunulmuştur. Çalışmada açıklanan gramer temelleri geleneksel üretici gramer yönteminden uyarlanmıştır. Bununla birlikte, sunulan gramer, biçimbirimleri söz dizimi elemanı olarak geleneksel söz dizimi elemanlarıyla birlikte, söz dizimine olan etkilerini ele almasıyla ve kullanılan özel bileşen kümesiyle geleneksel üretici gramer yöntemden ayrılır. Geleneksel yöntemden farklı olarak önerilen gramerde, tümce çözümlemesine sözcüklerden değil, biçimbirim elemanları olan sözcük gövdeleri, ekler, biçimbirimler ve bu gibi elemanların oluşturduğu gruplardan başlanır. Buna ek olarak Türkçenin söz dizimsel ve birimbirimsel özelliklerine göre kurgulanan bir bileşen kümesi de sunulmuştur. Sunulan bileşen kümesi, tümce, ad öbeği, eylem öbeği, belirteç öbeği gibi geleneksel sözdizimsel bileşenleri, öbek gövdesi olarak adlandırılan ara bir yapıyı ve çoğul eki, durum eki, zaman çekimi eki gibi, biçimbirimleri veya biçimbirim gruplarını temsil eden bileşenleri içerir.
Primary Language | Turkish |
---|---|
Subjects | Natural Language Processing |
Journal Section | Research Article |
Authors | |
Publication Date | December 26, 2024 |
Submission Date | July 1, 2024 |
Acceptance Date | October 15, 2024 |
Published in Issue | Year 2024 Volume: 12 Issue: 2 |