Learner corpora are electronic collections of texts produced by learners of a foreign or second language. Learner corpora are reliable tools for investigating learner language and are widely used in the fields of second language acquisition and foreign language learning. This paper describes an error tagging system that has been designed on the basis of the 274,000-word Turkish learner corpus that comprises the Turkish examination papers written by learners coming from 94 different countries. The texts were manually keyboarded while retaining all errors, after which a 44,000-word component of the corpus was error coded using the specially devised error tag set. The majority of codes are based on a three- or four-letter system in which the first letter represents the error domain and the next series of letters identify the error category, as well as the word class where relevant. The error tag set has a total of 58 possible codes. The designed error tagging system can be used to assess the linguistic competence of Turkish learners and to build other error-annotated Turkish learner corpora.
Error Tagging Error Taxonomy Error Analysis Learner Corpus Turkish as a Foreign Language
Öğrenen derlemleri, bir dili yabancı veya ikinci dil olarak öğrenenlerin ortaya koyduğu metinlerin elektronik koleksiyonlarıdır. İkinci dil edinimi ve yabancı dil öğrenimi alanlarında yaygın olarak kullanılan öğrenen derlemleri, öğrenen dilini araştırmaya olanak sağlayan güvenilir araçlar olarak karşımıza çıkmaktadır. Bu çalışmanın amacı, 94 ülkeden gelen öğrencilere ait sınav kağıtlarından oluşan 274 bin kelimelik Türkçe Öğrenen Derleminin temelinde Türkçeye özgü bir hata etiketleme sistemini geliştirmektir. Derlemdeki metinler, orijinallerine sadık kalınarak manuel olarak bilgisayar ortamına aktarıldıktan sonra 44 bin kelimelik çekirdek derlem oluşturulmuş ve üzerinde hata etiketlemesi yapılmıştır. Hata etiketleme sistemi, ilk harfin hata alanını temsil ettiği, sonraki harflerin ise hata kategorisini ve geçerli ise kelime türünü belirttiği üç veya dört harfli kodlara dayanmaktadır. Toplamda 58 hata kodu mevcuttur. Tasarlanan hata etiketleme sistemi, Türkçe öğrenenlerin dil yeterliliğini değerlendirmek ve hata etiketlemesi içeren diğer Türkçe öğrenen derlemlerini oluşturmak için kullanılabilecektir.
Hata Etiketleme Hata Taksonomisi Hata Analizi Öğrenen Derlemi Yabancı Dil Olarak Türkçe Error Tagging Error Taxonomy Error Analysis Learner Corpus Turkish as a Foreign Language
Birincil Dil | Türkçe |
---|---|
Konular | Dilbilim |
Bölüm | Araştırma Makaleleri |
Yazarlar | |
Yayımlanma Tarihi | 3 Şubat 2023 |
Yayımlandığı Sayı | Yıl 2022 Sayı: 39 |