Metin
madenciliği, doğal dil metninde yer alan yapılandırılmamış (metin) verilerin
çeşitli yöntem, araç ve tekniklerin kullanılarak analiz edilmesidir. Bugün, kurum ve
kuruluşların çoğu, veri ambarlarında ve bulut platformlarında büyük miktarda
veri toplamakta ve depolamaktadır. Bu veriler, birden fazla kaynaktan gelen
yeni verilerin gelmesiyle birlikte, üssel olarak artmaya devam etmektedir.
Şirketlerin ve kuruluşların geleneksel araçlarla büyük miktardaki metin
verilerini depolaması, işlemesi ve analiz etmesi zordur. Bugün, gelişen Tableau
gibi yazılımlar sayesinde bu problemler ortadan kalkmıştır. Bu çalışmanın
amacı; metin madenciliği yöntemi ile Shakespeare eserlerindeki kahramanları ve
olay örgülerini istatistiksel olarak saptamak ve edebiyat alanında çalışanlara
bazı öngörüler sağlamaktır. Bu amaçla çalışmada, Tableau yazılımı kullanılarak
Google BigQuery’nin alt yapısında bulunan Shakespeare veri setine kelime
frekansları, görselleştirme ve kümeleme analiz yöntemi uygulanmıştır. Kümeleme
analizi sonucunda “Hamlet” kelimesinin tüm eserlerin merkezinde yer aldığı ve
Hamlet’in Shakespeare’in en önemli eseri olduğu bulunmuştur. Ayrıca, “Romeo ve
Juliet” eserinde sırasıyla; “Romeo”, “Juliet” ve “Love” en çok kullanılan
kelimeler olarak bulunmuştur. Elde edilen bu bulgulardan eserin ana
karakterlerinin “Romeo” ve “Juliet”, konusunun ise “aşk” olduğu sonucuna
varılmıştır.
Metin Madenciliği Tableau Kelime Frekansları Görselleştirme K-means kümeleme
Birincil Dil | Türkçe |
---|---|
Bölüm | Araştırma Makalesi |
Yazarlar | |
Yayımlanma Tarihi | 21 Temmuz 2020 |
Gönderilme Tarihi | 8 Mayıs 2019 |
Yayımlandığı Sayı | Yıl 2020 |
MANAS Journal of Social Studies (MANAS Sosyal Araştırmalar Dergisi)