One of the most preferred platforms by social media users is YouTube. The increase in the use of YouTube has brought some problems with it. Unwanted (spam) comments, which are generally unrelated to the shared video content, for advertising purposes and constantly repetitive, cause useless resource use. In this study, it is aimed to automatically detect unwanted comments on YouTube comments. Although some systems have been developed in other languages to solve text classification problems, studies for Turkish are very limited. In this study, datasets consisting of Turkish YouTube comments were created and the performances of automatic text classification algorithms on the datasets were evaluated. An important contribution of this study is the creation of 5 Turkish datasets that will be public for use in future academic studies. In the study, the performances of classification algorithms that give good results in terms of accuracy and speed were compared using the Weka data mining tool. In terms of accuracy values, the SMO machine learning algorithm seems to be more successful than the others on the classification problem of Turkish YouTube comments. In addition, the effect of feature selection on classification performance has been investigated and it has been observed that it generally leads to slight improvements in classification accuracy
Sosyal medya kullanıcıları tarafından en çok tercih edilen platformlardan birisi YouTube’tur. YouTube kullanımının artması beraberinde bazı problemleri de getirmiştir. Genellikle paylaşılan video içerikleriyle alakası olmayan, reklam amaçlı ve sürekli tekrarlayan istenmeyen (spam) yorumlar boşuna kaynak kullanımına sebep olmaktadır. Bu çalışmada, YouTube yorumları üzerinde istenmeyen yorumların otomatik tespit edilmesi amaçlanmaktadır. Metin sınıflandırma problemlerinin çözümü için diğer dillerde gerekli sistemler geliştirilse de Türkçe için yapılan çalışmalar oldukça sınırlıdır. Bu çalışmada Türkçe YouTube yorumlarından oluşan veri setleri oluşturulmuş ve veri setleri üzerinde otomatik metin sınıflandırma algoritmalarının performansları değerlendirilmiştir. Bu çalışmanın önemli bir katkısı da gelecek akademik çalışmalarda kullanılmak üzere erişime açık olacak 5 adet Türkçe veri seti oluşturulmuş olmasıdır. Çalışmada, Weka veri madenciliği aracı kullanılarak doğruluk ve hız açısından iyi sonuçlar veren sınıflandırma algoritmalarının performansları karşılaştırılmıştır. Doğruluk değerleri açısından bakıldığında SMO makine öğrenimi algoritması Türkçe YouTube yorumları sınıflandırma problemi üzerinde diğerlerine göre daha başarılı olarak görünmektedir. Bunun yanısıra öznitelik seçiminin sınıflandırma performansına etkisi araştırılmış ve genellikle az miktarda da olsa sınıflandırma doğruluk değerlerinde iyileşmelere sebep olduğu görülmüştür.
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 25 Ekim 2022 |
Yayımlandığı Sayı | Yıl 2022 Cilt: 10 Sayı: 4 |