Çok sözcüklü birim (ÇSB) çıkarımı çalışmalarında,
Türkçe gibi zengin biçimbilime sahip dillerde karşılaşılan pek çok güçlük, bu
süreci etkileyen istatistik sıralamanın yanında, işlevsel ayıklamanın,
zihnimizde nasıl işlediği üzerine çalışarak aşılabilir. Herhangi bir sözcük
dizisinin ÇSB olarak sözlükselleşmesi için, bazı sözlüksel ve biçimsözdizimsel
kısıtlamalara da uygun olması gerekeceği varsayımından hareketle, bu çalışma,
Türkçe’de işlevsel örüntülerde gözlenen biçimsözdizimsel eğilimlere ve bu
eğilimlere dayalı olarak, Türkçe’de ÇSB ayıklama sürecine ilişkin çıkarımlara
değinecektir. Çalışmanın amacı, Türkçe’de bir sözcük dizisinin, ÇSB olarak
sözlükselleşmesi için, içerdiği sözcükler arasındaki ilinti gücünün yeterli
olmadığını göstermek ve bu sözcük dizilerinin kabul edilebilir ÇSB’ler olarak
sözlükçemizde yer alması için gerekli olan biçimsözdizimsel ve sözlüksel
kısıtlamaları tartışmaktır. Çalışma bu yönüyle, zengin biçimbilimli dillere
özel bir ÇSB çıkarım yöntemiyle ilgili de bir bakış açısı sunmayı
amaçlamaktadır. Belirtilen amaçlar doğrultusunda, öncelikle, Text-NSP (Banerjee
& Pedersen, 2011) kullanılarak, Türkçe Ulusal Derlemi’nin 10 milyon
sözcüklük bir alt-derleminden ÇSB adayları -üçlü diziler- çekilmiştir.
Sonrasında, bu üçlü sözcük dizileri TUD-işaretleyicinin içerdiği Doğal Dil
İşleme (DDİ) sözlüğü yardımıyla işaretlenmiş ve içerdikleri işlev dizileri ve
sözcük türlerine göre sıralanmıştır. Sonuç olarak, bu en sık gözlenen işlev
dizilerinin, Türkçe’de çok sözcüklü birimlerin sözlükçeye yerleşmesinde etken
olan biçimsözdizimsel eğilimler olduğu savlanmıştır. Bu yönüyle çalışma,
Türkçe’de fazlaca çalışılmayan kalıp dil kullanımı (İng. formulaic language)
konusuna katkı sunmayı hedeflemektedir.
Çok sözcüklü birim işlevsel örüntü sözcük çerçevesi derlem-çıkışlı Türkçe Ulusal Derlemi
In multi-word unit (MWU) extraction studies, most of the challenges for rich
morphology languages like Turkish can be overcome by the study of how
colligational filtering works in our minds, along with how statistical and
collocational sorting affects the process. Based on the assumption that lexicalization
of any given collocation as a MWU also requires compatibility to some lexical
or morphosyntactic constraints, this study will present the morphosyntactic
tendencies observed in colligational patterns of Turkish MWUs and discuss their
implications on language-specific MWU filtering processes. The aim of the study
is to discuss if in Turkish, associative strength is enough for a collocation
to be lexicalized as a MWU or not. Another purpose of the study is to show some
morphosyntactic and lexical constraints that may validate collocations to be
lexical multi-word units in Turkish. The paper will also underscore the
methodological perspectives of MWU identification valid for rich-morphology
languages. To achieve these goals, we first extracted MWU candidates -trigrams- from a 10-million-word sub-corpus of
Turkish National Corpus (TNC) by using Text-NSP (Banerjee & Pederson,
2011). After that, the 3-grams were annotated by using the NLP dictionary of
TNC-tagger, and classified according to their colligational patterns and
lexical categories of the MWU. Most frequently observed colligational patterns
are argued to be morphosyntactic tendencies governing MWU lexicalization in
Turkish. In this respect, the study aims to contribute to the understudied area
of formulaic language in Turkish.
Multi-word unit colligational pattern lexical frame corpus-driven Turkish National Corpus
Bölüm | Makaleler |
---|---|
Yazarlar | |
Yayımlanma Tarihi | 15 Temmuz 2016 |
Yayımlandığı Sayı | Yıl 2016 Cilt: 13 Sayı: 2 |