There is a dramatic rise in the number of comments in Internet, which is an indispensable tool for our daily lives. Modelling topics and their features have become more important because of this high volume. Social media users’ texts shared in various social media websites are unstructured and not relational data. Clustering this data is one of the most important study area of Natural Language Processing which is a crucial branch of Artificial Intelligence.The purpose of NLP is to get information from unstructured data and react in proper way just like two human being understand each other via a natural language. NLP can do such these jobs faster than natural intelligence. Topic Modelling produces the results of existing topics and their features from large collection of documents. Content providers may distribute the information to the right people fast by using topic modelling tools. In this study, we use Latent Semantic Indexing (LSI) algorithm since it does not need annotated data to train the model. We collect Turkish entries related to “Apple”, “Samsung” and “Microsoft” in EkşiSözlük and find the subtopics of the discussions. Sub topics were found and the topics were compared with the categories and F-Score was measured for accuracy. The obtained F-Score showed 74% accuracy rate for this data set and this algorithm.
Natural Language Processing Latent Semantic Analyses Text Mining
Günlük hayatımızın vazgeçilmez bir parçası haline gelen Internet ve sosyal
medya alanındaki gelişmeler ile birlikte, bilgisayar ve mobil cihaz
kullanıcıların farklı mecralardaki yorumlarında büyük artış yaşanmaktadır. Bu
büyük veri miktarında artış nedeniyle,
kullanıcı paylaşımlarımda konu başlıklarını ve özelliklerinin doğru ve otomatik
olarak çıkarılması önemli bir problem haline gelmiştir. Çeşitli platformlarda
paylaşılan kullanıcı metinleri, ilişkisel olmayan ve düzensiz verilerdir. Bu
verileri sınıflandırmak, büyük veri işleme ve yapay zekâ çalışma alanlarından
biri olan doğal dil işleme için önemli bir konudur. Doğal dil işlemenin
kullanım amaçları arasında, ilişkisel olmayan düzensiz metinlerden, anlamlı
veriler elde etmek önemli bir çalışma konusudur. Buradan hareketle; iki insanın
karşılıklı anlaştığı doğal bir dili anlayıp, cevap verme, özet çıkarma, gibi
doğal bir insan zekasının yapabildiğini çok daha hızlı yapabilmek büyük bir
önem taşımaktadır. Doğal dil işlemenin alt çalışma alanlarından biri olan konu
modelleme, birçok belgenin hangi konuları içerdiğini ve bu konuların önemli
özelliklerini ortaya koyar. Günümüzde birçok içerik sağlayıcılar,
takipçilerine, anlık içeriklerin önerilmesi işleminde, konu modelleme
yapılarını kullanarak, veri akışını doğru kişilere, çok hızlı bir şekilde yönlendirebilirler.
Daha önceden etiketlenmiş eğitim setine gerek duymayan Gizli Anlam Analizi
(Latent Semantic Indexing - LSI) algoritması bu çalışmada kullanılmıştır. Bu
çalışmada, Türkçe kullanıcı girdilerinin yer aldığı Ekşisözlük platformunda,
“Apple”, “Samsung” ve “Microsoft” başlıklı tartışmalar elde edilerek ve bu
tartışmaların alt konu başlıkları “Gizli Anlam Analizi” yöntemi ile
modellenmiştir. Toplanan verilerden alt konu başlıkları bulunarak, elde edilen
konu başlıkları ile kategoriler karşılaştırılmış, karşılaştırma sonucunda
F-Score ile doğruluk oranı ölçülmüştür. Elde edilen F-Score değeri, %74
doğruluk oranı ile bu veri seti ve bu algoritma için sınıflandırma yapıldığını
göstermiştir.
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 31 Ağustos 2019 |
Yayımlandığı Sayı | Yıl 2019 Sayı: 16 |