Metin Madenciliği ile Shakespeare Külliyatının İncelenmesi
Öz
Metin madenciliği, doğal dil metninde yer alan yapılandırılmamış (metin) verilerin çeşitli yöntem, araç ve tekniklerin kullanılarak analiz edilmesidir. Bugün, kurum ve kuruluşların çoğu, veri ambarlarında ve bulut platformlarında büyük miktarda veri toplamakta ve depolamaktadır. Bu veriler, birden fazla kaynaktan gelen yeni verilerin gelmesiyle birlikte, üssel olarak artmaya devam etmektedir. Şirketlerin ve kuruluşların geleneksel araçlarla büyük miktardaki metin verilerini depolaması, işlemesi ve analiz etmesi zordur. Bugün, gelişen Tableau gibi yazılımlar sayesinde bu problemler ortadan kalkmıştır. Bu çalışmanın amacı; metin madenciliği yöntemi ile Shakespeare eserlerindeki kahramanları ve olay örgülerini istatistiksel olarak saptamak ve edebiyat alanında çalışanlara bazı öngörüler sağlamaktır. Bu amaçla çalışmada, Tableau yazılımı kullanılarak Google BigQuery’nin alt yapısında bulunan Shakespeare veri setine kelime frekansları, görselleştirme ve kümeleme analiz yöntemi uygulanmıştır. Kümeleme analizi sonucunda “Hamlet” kelimesinin tüm eserlerin merkezinde yer aldığı ve Hamlet’in Shakespeare’in en önemli eseri olduğu bulunmuştur. Ayrıca, “Romeo ve Juliet” eserinde sırasıyla; “Romeo”, “Juliet” ve “Love” en çok kullanılan kelimeler olarak bulunmuştur. Elde edilen bu bulgulardan eserin ana karakterlerinin “Romeo” ve “Juliet”, konusunun ise “aşk” olduğu sonucuna varılmıştır.
Anahtar Kelimeler
Kaynakça
- Arslan, H., Kaynar, O., & Yüksek, A. G. (2015). Kurumsal Kolektif Süreçler için E-Posta İletilerinden Görev Keşfi ve Gerçek Zamanlı Görev Yönetim Sisteminin Geliştirilmesi. Bilişim Teknolojileri Dergisi, 10(4), 381-388.
- Azzalini, A., & Scarpa, B. (2012). Data analysis and data mining: An introduction. OUP USA.
- Bose, B. (2018). Techniques and Aplications of Text Mining. https://www.digitalvidya.com/blog/techniques-applications-text-mining/, (Erişim Tarihi: 10.06.2018).
- Bozyiğit, F. (2015). Analyzing source code and detecting similarities, M.Sc Thesis, Dokuz Eylül University, Izmir.
- Coursehero (2019). Terim frekanı tf bir doküman içerisinde bir. https://www.coursehero.com/file/p14lar0/Terim-Frekans, (Erişim Tarihi: 20.01.2019).
- Delibaş, A., (2008). Doğal Dil İşleme İle Türkçe Yazım Hatalarının Denetlenmesi, Yüksek Lisans Tezi, İstanbul Teknik Üniversitesi, İstanbul, Türkiye.
- Dinçer, E. (2006). Veri Madenciliğinde K-Means Algoritması ve Tıp Alanında Uygulanması, Yüksek Lisans Tezi, Kocaeli Üniversitesi, Fen Bilimleri Enstitüsü, Kocaeli, 101s.
- Dolgun, M. Ö., Özdemir, T. G., & Oğuz, D. (2009). Veri madenciliğiâ nde yapısal olmayan verinin analizi: Metin ve web madenciliği. İstatistikçiler Dergisi: İstatistik ve Aktüerya, 2(2), 48-58.
Ayrıntılar
Birincil Dil
Türkçe
Konular
-
Bölüm
Araştırma Makalesi
Yazarlar
Sadullah Çelik
*
0000-0001-5468-475X
Türkiye
Yayımlanma Tarihi
21 Temmuz 2020
Gönderilme Tarihi
8 Mayıs 2019
Kabul Tarihi
3 Şubat 2020
Yayımlandığı Sayı
Yıl 2020 Cilt: 9 Sayı: 3
Cited By
Extractive Text Summarization System for News Texts
International Journal of Applied Mathematics Electronics and Computers
https://doi.org/10.18100/ijamec.800905Sosyal Medya Alanında Yazılan Büyük Veri Konulu Tezlerin Metin Madenciliğiyle İncelenmesi
Türkiye Araştırmaları Literatür Dergisi
https://doi.org/10.55842/talid.1115782High-frequency words have higher frequencies in Turkish social sciences article
Quality & Quantity
https://doi.org/10.1007/s11135-022-01444-3EDEBİYAT ARAŞTIRMACILARI İÇİN BİLGİSAYAR DİLLERİ VE METİN MADENCİLİĞİ
Littera Turca Journal of Turkish Language and Literature
https://doi.org/10.20322/littera.1477535Türkiye’de Uluslararası Ticaret Lisansüstü Programlarının Metin Madenciliği ile Analizi
Journal of Higher Education and Science
https://doi.org/10.5961/higheredusci.1368506