Sosyal medya, insanların kendilerini ifade edebildikleri ortamlar olarak çok kullanılmaktadır. Bu sebeple Facebook, Instagram ve Twitter gibi sosyal medya ortamlarının kullanıcı sayıları giderek artmaktadır. Sosyal medya kullanıcılarının paylaşımları analiz edilerek ilgili konu hakkındaki duyguları ortaya çıkarılabilmektedir. Sosyal medya platformu olan Twitter da politikacılar, spor kulüpleri, şirketler, aktivistler kısaca neredeyse tüm bireyler ve kurumlar için kendilerini ifade etme ortamı haline gelmiştir. Hemen hemen tüm futbol takımlarının taraftarları için haberlerini paylaştıkları Twitter hesapları vardır. Kullanıcılar Twitter’da futbol müsabakası esnasında ve sonrasında da mesaj paylaşabilmektedir. Bu çalışmanın konusu, Twitter ortamında futbol takımları ve futbol müsabakaları hakkında Twitter kullanıcılarının paylaşımlarının duygu analizi ile ilgilidir. Bu çalışmada Twitter’da futbol müsabakaları hakkında paylaşılan 30.000 Türkçe tweet ile anlık duygu analizi yapılmıştır. Eğitim setlerindeki sınıflandırma hatalarını en aza indirmek için toplanmış olan tweetler el ile etiketlendikten sonra yine aynı kişi tarafından farklı zamanlarda beşer defa kontrol edilmiştir. Bu etiketlemede olumlu, olumsuz, tarafsız ve alakasız olarak 4 duygu sınıfı kullanılmıştır. Bu etiketlenmiş tweetlerden farklı özniteliklere sahip 12 farklı eğitim seti oluşturulmuştur. Oluşturulan bu eğitim setleri kullanılarak farklı sınıflama algoritmaları ile modeller çıkarılmış ve bu modellerin çapraz doğrulama ile sınıflama başarımları bulunmuştur. Farklı özniteliklere sahip olarak oluşturduğumuz eğitim setleri, belirlenen sınıflandırma algoritmaları ile test edilmiş ve algoritmalarının sınıflandırma doğrulukları; Naive Bayes algoritması için %84.30, K-En Yakın Komşu (KNN- K-Nearest Neighborhood) algoritması için %87.73, C4.5 algoritması için %89.60, Destek Vektör Makinesi (SVM- Support Vector Machine) algoritması için %92.30 olarak bulunmuştur. Çalışmada zemberek kütüphanesi kullanılarak Türkçe tweetlerde yaklaşık 48.000 kelimenin düzeltmesi, sınıflandırma başarımına olumlu katkı sağlamıştır. Ayrıca futbol müsabakaları hakkında paylaşılan tweetleri anlık olarak toplayıp, oluşturulan modeller ile bu tweetlerin sınıfını tespit ederek sınıflara ait sonuçları gerçek zamanlı görselleştiren bir uygulama geliştirilmiştir.
Anlık Duygu Analizi Makine Öğrenmesi Twitter Veri Madenciliği
Social media is frequently used as a platform where people can express themselves. For this reason, the number of users of social media platforms such as Facebook, Instagram and Twitter has been gradually increasing. By analyzing the shares of social media users, their feelings about the relevant subject can be revealed. Twitter, as a social media platform, has become a medium for politicians, sports clubs, companies, activists, briefly for almost all individuals and institutions, to express themselves. Almost all football teams have Twitter accounts where they share their news with their fans. Users can share messages on Twitter during and after the football matches. This study is about the sentiment analysis of Twitter users' posts about football teams and football matches on Twitter. Within the scope of this study, a real-time sentiment analysis was made by using 30,000 Turkish tweets shared about football matches on Twitter. In order to minimize the classification errors in the training sets, the collected tweets were manually tagged and then checked five times by the same annotator at different times. In the labeling process, 4 sentiment classes were used as positive, negative, neutral, and irrelevant. 12 different training sets with different attributes were created from these tagged tweets. Using these training sets, models were created with different classification algorithms and classification performance of these models with cross-validation was evaluated. The training sets that we have created with different attributes have been tested with the specified classification algorithms and the classification accuracies of the algorithms are 84.30% for Naive Bayes, 87.73% for K-Nearest Neighborhood (KNN- K-Nearest Neighborhood), 89.60% for C4.5, and 92.30% Support Vector Machine (SVM- Support Vector Machine. In this study, the correction of approximately 48,000 words in Turkish tweets by using the Zemberek library contributed positively to the classification performance. In addition, an application was developed that collects the tweets shared about football matches in real-time and it determines the class of these tweets with the models created and visualizes the class results.
Real Time Sentiment Analysis Machine Learning Twitter Data Mining
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 30 Kasım 2020 |
Yayımlandığı Sayı | Yıl 2020 Ejosat Özel Sayı 2020 (ISMSIT) |