Bu çalışma, Naive Bayes sınıflandırma algoritması kullanılarak sosyal medya verileri üzerinden dünya dillerinde yapılan yorum ve paylaşımların anlaşılmasına katkıda bulunmayı amaçlamaktadır. Duygu analizi veya fikir madenciliği, doğal dil işleme konularının bir alt bölümünde yer alır ve sosyal medya üzerinde yer alan verilerin anlamlandırabilmesi sağlanır. Yapay zekâ ve makine öğrenmesi gibi konularla birlikte günümüzde son derece popüler bir alandır. Küresel bir köye dönüşen dünyada, insanlar sosyal medya araçları üzerinden görüş, düşünce ve o konu hakkında memnuniyet durumları gibi pek çok veriyi paylaşmaktadır. Anlamlandırılmayı bekleyen bu veriler üzerinden insanların duygu ve düşünceleri ortaya çıkartabilmek mümkündür. Son dönemlerde Türkçe dilinde bir takım duygu analizi çalışmalarının yapıldığı görülmektedir. Ancak dünyadaki farklı dil ve lehçelerde yapılan yorumlar üzerinden çok dilli duygu analiz çalışması sınırlıdır. Bu çalışmada, Türkçe, İngilizce, Almanca, Fransızca, Arapça, Rusça ve Korece gibi farklı dünya dillerinden YouTube yorum verileri kullanılmıştır. PHP ile elde edilen bu ham veriler üzerinden anlamsız veriler temizlenerek belirli bir kalitede veri seti elde edilmiştir. Bu yorum verilerini İngilizce'ye çevirmek için Google çeviri aracı API'sı kullanılmıştır. Duygular, PHP Niiknow kütüphanesi üzerinden Naive Bayes algoritması kullanılarak pozitif, negatif ve nötr olarak sınıflandırılır. WEKA ile yapılan veri analizinde doğru sınıflandırma oranı %65,56 olarak bulunmuştur. Bu çalışma, 15.082 veri seti ve Google Çeviri aracı tarafından desteklenen 108 dil sayısı ile sınırlıdır.
This study aims to contribute to the understanding of comments and shares made in world languages over social media data using the Naive Bayes classification algorithm. Sentiment analysis or opinion mining is a subsection of natural language processing and it is ensured that the data on social media can be interpreted. It is an extremely popular field today, along with topics such as artificial intelligence and machine learning. In the world that has turned into a global village, people share a lot of data such as opinions, thoughts and satisfaction about that subject through social media tools. It is possible to reveal people's feelings and thoughts through these data waiting to be interpreted. It is seen that some sentiment analysis studies have been carried out in Turkish language recently. However, multilingual sentiment analysis work is limited on interpretations made in different languages and dialects in the world. In this study, YouTube comment data from different world languages such as Turkish, English, German, French, Arabic, Russian and Korean have been used. A certain quality data set has been obtained by cleaning the meaningless data over these raw data obtained with PHP. The Google translation tool API has been used to translate this comment data into English. Emotions are classified as positive, negative and neutral using the Naive Bayes algorithm via the PHP Niiknow library. In the data analysis performed with WEKA, the correct classification rate has found to be 65.56%. This study is limited to 15,082 data sets and the number of 108 languages supported by the Google Translate tool.
Primary Language | Turkish |
---|---|
Subjects | Computer Software |
Journal Section | Articles |
Authors | |
Publication Date | April 30, 2022 |
Submission Date | October 10, 2021 |
Published in Issue | Year 2022 |