Dede Korkut Kitabı, Türk dili ve tarihinin önemli yapıtları arasında yer almaktadır. Dede Korkut Kitabı’nın söz varlığı dönemin kültür ve dil özelliklerinin ortaya çıkarılması bakımından da önemli veriler içerir. Tarihsel metinlerin sayısallaştırılmalarıyla hazırlanacak derlemlerin dilbilgisel özelliklere yeni bakış açıları getirmesi yanında dile ait eskiden yeniye söz varlığı değişmelerini de yansıtması, bilgisayar destekli yöntemlerin daha özgül biçimde söz varlığına dair özelliklerin ayrıntılı çıkarımını gerekli kılmaktadır. Dilbilimde söz varlığı incelemeleri çeşitli yöntemlerle yapılabilmekte son yıllarda ise metin ve metin derlemleri temelinde hesaplamalı bir biçimde yeni yöntem ve tekniklerle ele alınabilmektedir. Metin madenciliği temelde yapılandırılmamış bir veri görünümü sunan metinlerden çeşitli örüntülerin elde edilmesi, sınıflandırılması ve makine öğrenmesi tekniklerinin de kullanıldığı yeni gelişen alanlar arasında bulunmaktadır. Çalışmada genel olarak veri madenciliği ve metin madenciliği terimlerinin farklı yönleri ele alınmış ve metin madenciliği bakımından Dede Korkut Kitabı’nın Dresden nüshası esas alınarak nüshadaki bütün sözcüklere ait genel metin istatistikleri, ilk 100 sözcüğün sıklığı, eşdizim ve sözcük ağlarının metin madenciliğinde kullanılan yazılımlar aracılığıyla genel olarak çıkarımları amaçlanmıştır. Sayısallaştırılan metin yazılımların hesaplama modüllerinde yer alan varsayılan istatistik değerleriyle işlenmiş ve elde edilen veriler görsel sonuçlarla da gösterilmiştir. Elde edilen ilk bulgularda 12 hikâyeden oluşan metinde demek, söylemek kavramlarını yansıtan sözcüklerin hem sözcük ağı oluşturmada hem de tekil olarak sıklık listesinde önde gelen sözcükler olduğu görülmüştür. Sonuç olarak, çalışmanın ilk bulgularından hareketle Dede Korkut Kitabı’nın metin madenciliği teknikleriyle daha ayrıntılı söz varlığı ve kavramsal analizinin yapılabileceği ve farklı örüntülerin bulunabileceği düşünülmektedir.
The Book of Dede Qorqut is one of the most important works of Turkish language and history. The vocabulary of The Book of Dede Qorkut also reveals important results in terms of revealing the cultural and linguistic characteristics of its period. The fact that the corpora prepared by digitizing the historical texts bring new perspectives to the grammatical features as well as reflect the changes of vocabulary from old to new, necessitates the detailed inference of more specific vocabulary features of computer-aided methods. Analysis of the vocabulary in linguistics can be carry out by various methods, while in recent years, it can be handled with new methods and techniques in a computational fashion based on text and text collections. In general, different aspects of data mining and text mining terms were discussed in the study and general text statistics of all words in the copy text, frequency of the first 100 words, collocation and lexical networks were generally inferred through software used in text mining, based on the Dresden copy of The Book of Dede Qorkut terms of text mining. Digitized text is processed with the default statistical values contained in the software's calculation modules, and the resulting visual results are presented. In the first findings, it was found that words reflecting the concepts of saying in the text consisting of 12 stories were the leading words in both the word network visualisation and the frequency list. As a result, based on the initial findings of this study, it is believed that a more detailed vocabulary spesific feature and conceptual analysis of The Book of Dede Qorkut can be done using text mining techniques, and thus different patterns can be found.
Primary Language | Turkish |
---|---|
Subjects | Linguistics |
Journal Section | Turkish language, culture and literature |
Authors | |
Publication Date | June 21, 2021 |
Published in Issue | Year 2021 Issue: 23 |