Sosyal Medya Platformu Üzerinde Gizli Anlam Analizi
Öz
Günlük hayatımızın vazgeçilmez bir parçası haline gelen Internet ve sosyal medya alanındaki gelişmeler ile birlikte, bilgisayar ve mobil cihaz kullanıcıların farklı mecralardaki yorumlarında büyük artış yaşanmaktadır. Bu büyük veri miktarında artış nedeniyle, kullanıcı paylaşımlarımda konu başlıklarını ve özelliklerinin doğru ve otomatik olarak çıkarılması önemli bir problem haline gelmiştir. Çeşitli platformlarda paylaşılan kullanıcı metinleri, ilişkisel olmayan ve düzensiz verilerdir. Bu verileri sınıflandırmak, büyük veri işleme ve yapay zekâ çalışma alanlarından biri olan doğal dil işleme için önemli bir konudur. Doğal dil işlemenin kullanım amaçları arasında, ilişkisel olmayan düzensiz metinlerden, anlamlı veriler elde etmek önemli bir çalışma konusudur. Buradan hareketle; iki insanın karşılıklı anlaştığı doğal bir dili anlayıp, cevap verme, özet çıkarma, gibi doğal bir insan zekasının yapabildiğini çok daha hızlı yapabilmek büyük bir önem taşımaktadır. Doğal dil işlemenin alt çalışma alanlarından biri olan konu modelleme, birçok belgenin hangi konuları içerdiğini ve bu konuların önemli özelliklerini ortaya koyar. Günümüzde birçok içerik sağlayıcılar, takipçilerine, anlık içeriklerin önerilmesi işleminde, konu modelleme yapılarını kullanarak, veri akışını doğru kişilere, çok hızlı bir şekilde yönlendirebilirler. Daha önceden etiketlenmiş eğitim setine gerek duymayan Gizli Anlam Analizi (Latent Semantic Indexing - LSI) algoritması bu çalışmada kullanılmıştır. Bu çalışmada, Türkçe kullanıcı girdilerinin yer aldığı Ekşisözlük platformunda, “Apple”, “Samsung” ve “Microsoft” başlıklı tartışmalar elde edilerek ve bu tartışmaların alt konu başlıkları “Gizli Anlam Analizi” yöntemi ile modellenmiştir. Toplanan verilerden alt konu başlıkları bulunarak, elde edilen konu başlıkları ile kategoriler karşılaştırılmış, karşılaştırma sonucunda F-Score ile doğruluk oranı ölçülmüştür. Elde edilen F-Score değeri, %74 doğruluk oranı ile bu veri seti ve bu algoritma için sınıflandırma yapıldığını göstermiştir.
Anahtar Kelimeler
Kaynakça
- Aggarwal, CC., Zhai, C., “An Introduction to Text Mining” In: Aggarwal CC, Zhai C, editors. Mining text data, New York: Springer, p. 1-10, 2012.
- Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., and Harshman, R., “Indexing by Latent Semantic Analysis”. Journal of the American Society for Information Science, 41(6):391–407, 1990.
- Harris, Z., “Distributional Structure”, Word, 23(10), 146–162, 1954.
- Landauer, T. K., Dumais, S. T., “A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge”, Psychological Review, 104(2), 211–240, 1997.
- X., Cai, Z., Wiemer-Hastings, P., Graesser, A., McNamara, D., Strengths, “Limitations, and Extensions of LSA”. Handbook of Latent Semantic Analysis, 401–426, 2007.
- Ekşi Sözlük, 1999. https://eksisozluk.com/
- Elberrichi, Z. Rahmoun, A. and Bentaallah, M. A., “Using WordNet for Text Categorization”, The International Arab Journal of Information Technology, s. 16- 24, 2008.
- Liu, H. and Singh, P., “ConceptNet-A Practical Commonsense Reasoning ToolKit”, BT Technology Journal, s. 211-226, 2004.
Ayrıntılar
Birincil Dil
Türkçe
Konular
Mühendislik
Bölüm
Araştırma Makalesi
Yazarlar
Volkan Altıntaş
*
0000-0002-1560-9017
Türkiye
Kamil Topal
Bu kişi benim
0000-0002-0266-7365
Mehmet Albayrak
Bu kişi benim
0000-0002-7089-122X
Yayımlanma Tarihi
31 Ağustos 2019
Gönderilme Tarihi
11 Temmuz 2019
Kabul Tarihi
9 Ağustos 2019
Yayımlandığı Sayı
Yıl 2019 Sayı: 16