This study describes and informs about the design process and methods of The Balanced Corpus of Contemporary Written Language (BCCWJ), one of the corpora designed by the Center for Corpus Development within National Institute for Japanese Language and Linguistics (NINJAL). There are studies on corpora in different languages around the world. Though the methods of such studies are alike in general, there are also differences depending on the purpose of the corpus design. Since BCCWJ was designed in order to create a balanced corpus, the whole process from the design of the corpus to the selection of samples was carried out in accordance with this purpose. Accordingly, the most significant feature of BCCWJ is that it consists of three sub-corpora: publication sub-corpus, library sub-corpus and special-purpose sub-corpus. Besides, it makes use of two types of sampling: fixed length samples and variable length samples. This corpus, which was prepared in a five-year period and consists of 105 million words, can be taken as an example to design similar corpora in Turkish language
Corpus Japanese corpus corpus of written language balanced corpus BCCWJ
Bu çalışmada, Ulusal Japonca Araştırmaları Enstitüsü (NINJAL) bünyesindeki Derlem Geliştirme Merkezi tarafından hazırlanan derlemlerden biri olan Çağdaş Japonca Yazı Dilinin Dengelenmiş Derlemi (BCCWJ) tanıtılıp hazırlanma aşamaları ve yöntemi hakkında bilgi verilmiştir. Dünyada farklı dillerle ilgili derlem çalışmaları yapılmaktadır. Bunların yöntemleri genel olarak birbirine benzemekle birlikte derlemin hazırlanma amacına göre faklılıklar da bulunmaktadır. BCCWJ, dengelenmiş bir derlem oluşturma amacıyla hazırlandığı için, derlemin tasarımından örneklem seçimine kadar her aşamada bu amaç doğrultusunda hareket edilmiştir. Buna göre BCCWJ’nin en önemli özelliği yayın alt derlemi, kütüphane alt derlemi ve özel amaçlı alt derlem olmak üzere toplam üç alt derlemden oluşması; örneklem seçiminde ise sabit uzunluktaki metin ve değişken uzunluktaki metin şeklinde iki tür metin kullanılmasıdır. Beş yıllık bir süreçte hazırlanan ve yaklaşık 105 milyon kelimeden oluşan bu derlem, Türkçe için hazırlanacak benzer derlemler için örnek alınabilir
Derlem Japonca derlem yazı dili derlemi dengelenmiş derlem BCCWJ
Diğer ID | JA55TC94CG |
---|---|
Bölüm | Araştırma Makalesi |
Yazarlar | |
Yayımlanma Tarihi | 1 Mayıs 2016 |
Yayımlandığı Sayı | Yıl 2016 Cilt: 45 Sayı: 210 |