It is becoming more and more apparent that social life has reached a breaking point with the
unhealthy communication between people due to the technological developments of recent
years. People are very tense and have unbearable emotions towards each other. The
expression of these emotions has begun to be seen in social media applications. Factors such
as pandemics and wars also contribute to the increase of this problem. In this study, after
natural language processing techniques on Reddit, Twitter, and 4Chan data, texts were
represented with text representations (TF-IDF, BoW, and Word2Vec CBoW and Skip-Gram).
These representations were then classified as containing or not containing hate speech using
machine learning (Decision Tree, K-Nearest Neighbor, Logistic Regression, Naive Bayes, and
Support Vector Machine) and ensemble learning (AdaBoost, Hard Voting, Soft Voting, Stacking,
and XGBooost) methods. The models were evaluated using Precision, Recall, F1 score, and
Accuracy with 80%-20% training test separation. The best result was obtained with 97.20%
Accuracy, 97.61% F1, 95.90% Recall, and 99.39% Precision with the model built using
machine learning algorithms along with Stacking after Word2Vec CBoW. This study shows
that the Word2Vec method, which is one of the prediction-based methods, gives good results
even in unbalanced datasets.
Ensemble Learning Hate speech Machine Learning Text Representation
Son yıllardaki teknolojik gelişmeler nedeniyle insanlar arasındaki sağlıksız iletişim, sosyal
hayatın bir kırılma noktasına ulaştığını giderek daha belirgin hale getirmektedir. İnsanlar
oldukça gergin ve birbirlerine karşı katlanılmaz duygular beslemektedir. Bu duyguların
ifadesi, sosyal medya uygulamalarında görülmeye başlanmıştır. Pandemi ve savaşlar gibi
faktörler de bu sorunun artışına katkıda bulunmaktadır. Bu çalışmada, Reddit, Twitter ve
4Chan verileri üzerinde doğal dil işleme teknikleri uygulandıktan sonra, metinler çeşitli metin
temsil yöntemleriyle (TF-IDF, BoW, Word2Vec CBoW ve Skip-Gram) temsilleri çıkarılmıştır.
Bu temsiller, nefret söylemi içerip içermediğine göre makine öğrenmesi (Karar Ağaçları, K-En
Yakın Komşu, Lojistik Regresyon, Naive Bayes ve Destek Vektör Makineleri) ve topluluk
öğrenme (AdaBoost, Hard Voting, Soft Voting, Stacking ve XGBoost) yöntemleri ile
sınıflandırılmıştır. Modeller, %80-%20 eğitim-test ayrımıyla Doğruluk, hassasiyet, hatırlama
ve F1 skoru kullanılarak değerlendirilmiştir. En iyi sonuç, Word2Vec CBoW temsili sonrası
Stacking ile oluşturulan modelde %97.20 doğruluk, %97.61 F1, %95.90 hatırlama ve %99.39
hassasiyet ile elde edilmiştir. Bu çalışma, tahmin temelli yöntemlerden biri olan Word2Vec
yönteminin, dengesiz veri setlerinde iyi sonuçlar verdiğini göstermektedir.
Topluluk Öğrenmesi Nefret söylemi Makine Öğrenmesi Kelime Temsili
| Birincil Dil | Türkçe |
|---|---|
| Konular | Yapay Görme, Makine Öğrenme (Diğer), Doğal Dil İşleme |
| Bölüm | Araştırma Makalesi |
| Yazarlar | |
| Gönderilme Tarihi | 22 Aralık 2024 |
| Kabul Tarihi | 7 Mart 2025 |
| Yayımlanma Tarihi | 23 Haziran 2025 |
| Yayımlandığı Sayı | Yıl 2025 Cilt: 8 Sayı: 1 |
Dergimizin Tarandığı Dizinler (İndeksler)
Academic Resource Index
| Google Scholar
| ASOS Index
|
Rooting Index
| The JournalTOCs Index
| General Impact Factor (GIF) Index |
Directory of Research Journals Indexing
| I2OR Index
|