Twitter, insanların
güncel konular hakkında görüş bildirdikleri önemli bir sosyal mecradır. Twitter
kullanıcılarının yaptıkları paylaşım ve görüş bildirimleri, araştırmacı ve
uygulayıcılar için önemli bir bilgi kaynağı olarak işlev görmektedir. Twitter
verileri, güncel olayları belirleme, yaygın hastalıklar hakkında bilgi toplama,
kriz yönetimi gibi birçok farklı alanda kullanılabilmektedir. Duygu analizi,
doğal dil işleme, istatistik, bilgisayar bilimleri gibi alanlardan yöntem ve
tekniklerin kullanılması ile görüş sahibinin metin içerisinde belirttiği,
duygu, görüş, tutum gibi öznel bilgilerin belirlenmesini amaçlayan güncel bir
araştırma alanıdır. Makine öğrenmesi sınıflandırıcıları, aralarında duygu
analizinin de yer aldığı, metin madenciliği ve web madenciliğine ilişkin birçok
alanda başarıyla uygulanmaktadır. Metin sınıflandırıcılarının başarımlarında,
ham metin belgelerinin temsil edilmesinde kullanılan öznitelikler büyük önem
taşımaktadır. Bu doğrultuda, bu çalışma kapsamında Türkçe Twitter mesajlarının
sınıflandırılmasında, üç temel makine öğrenmesi sınıflandırıcısı (Naive Bayes
algoritması, destek vektör makineleri, lojistik regresyon) kullanılmıştır.
Metin temsilinde, farklı öznitelik temsili (1-gram, 2-gram ve 3-gram) ve bu
öznitelik temsilleri ile elde edilen farklı öznitelik setleri
değerlendirilmiştir.
Twitter is an important social platform, in which
people can share their opinions about current issues. The opinions and ideas
shared on Twitter can serve as an important source of information for
researchers and practitioners. The data available on Twitter can be used to
identify current events, to collect information about epidemic diseases and to
support crisis management. Sentiment analysis is a recent research direction,
which utilizes tools and techniques from several fields, such as natural
language processing, statistics and computer science, to identify the
subjective information of opinion holders. Machine learning classifiers have
been successfully employed in several different application fields of text and
web mining, including sentiment analysis. The representation schemes utilized
to represent raw text documents are essential for the predictive performance of
text classifiers. In this regard, three well-known machine learning classifiers
(Naïve Bayes algorithm, support vector machines and logistic regression) on
Turkish Twitter messages. In order to represent text documents, different
feature representation schemes (1-gram, 2-gram and 3-gram) and their subsets
are evaluated.
Journal Section | Articles |
---|---|
Authors | |
Publication Date | December 20, 2017 |
Published in Issue | Year 2017 Volume: 3 Issue: 2 |