The goal of this study is to determine some statistical properties of printed Turkish. Compiled statistics include the letter frequency (monogram, digram, ..., pentagram) distributions of Turkish, first/last letter analyses, per letter entropy and redundancy, index of coincidence, word length distribution, vowel/consonant proportion. These values are obtained by compiling a corpus from the Internet archive of daily Hurriyet newspaper. Furthermore, using existing studies on Turkish and combining them together, the largest Turkish corpus base to date with the widest text variety and the most comprehensive results are obtained. To determine the degree of agreement for the results of the different studies, a similarity rate measure has been developed and applied to the existing studies' results.
Statistical Properties of Turkish N-Gram Frequency Distributions Entropy First/Last Letter Analysis Word Lengths Similarity Assessment of Sorted Lists
Bu çalışmanın amacı, basılı Türkçe’nin bazı istatistiksel değerlerinin belirlenmesidir. Derlenen istatistikler tekli, ikili, …, beşli harf gruplarının sıklık dağılımları, ilk/son harf çözümlemeleri, harf başına belirsizlik (entropi)ve fazlalık, rastgelelik endeksi, sözcük uzunluk dağılımı, sesli/sessiz harf oranı’nı içermektedir. Hürriyet gazetesinin internet arşivinden bir Türkçe külliyat (corpus) oluşturularak anılan değerler elde edilmiştir. Bununla yetinilmeyip, Türkçe’ye ilişkin öteki çalışmalar da kullanılarak, tüm bu çalışmaların ağırlıklı bileşkesi olan, bugüne kadar elde edilen en geniş Türkçe külliyat tabanı ve metin çeşitliliğine sahip, en kapsamlı sonuçlar elde edilmiştir. Farklı çalışmalarda elde edilen sonuçların birbiriyle uyumluluk derecesini belirlemek amacıyla bir benzerlik ölçütü geliştirilmiş ve mevcut çalışmaların sonuçlarına uygulanmıştır.
Türkçe’nin İstatistiksel Özellikleri N-Gram Sıklık Dağılımları Belirsizlik İlk/Son Harf Çözümlemesi Sözcük Uzunlukları Sıralı Liste Benzerlik Ölçütü
Birincil Dil | Türkçe |
---|---|
Konular | Uygulamalı İstatistik |
Bölüm | Araştırma Makaleleri |
Yazarlar | |
Yayımlanma Tarihi | 15 Nisan 2002 |
Yayımlandığı Sayı | Yıl 2002 Cilt: 1 Sayı: 1 |