Bu çalışmada, sosyal medya platformlarında yer alan toksik içeriklerin otomatik olarak tespit edilmesi amacıyla klasik makine öğrenmesi yöntemleri, derin öğrenme tabanlı modeller ve CNN–BiLSTM hibrit mimarisi karşılaştırmalı olarak ele alınmıştır. Deneysel analizler, kısa ve gürültülü metinlerden oluşan ve belirgin sınıf dengesizliği içeren Twitter veri seti üzerinde gerçekleştirilmiştir. LR, NB ve SVM gibi klasik yöntemler ile LSTM, BiLSTM ve CNN–BiLSTM hibrit modeli aynı eğitim–test bölme stratejisi altında değerlendirilmiştir. Model performansları doğruluk, kesinlik, duyarlılık ve F-skor metrikleri kullanılarak analiz edilmiştir. Deneysel sonuçlar, klasik makine öğrenmesi modellerinin toksik olmayan sınıf üzerinde yüksek doğruluk sağlarken, azınlık sınıf olan toksik içeriklerin tespitinde sınırlı kaldığını göstermektedir. Derin öğrenme tabanlı modellerin bağlamsal bağımlılıkları öğrenme yetenekleri sayesinde daha dengeli sonuçlar ürettiği gözlemlenmiştir. Önerilen CNN–BiLSTM hibrit modelinin ise yerel ve bağlamsal özellikleri birlikte ele alarak tüm modeller arasında en yüksek ve en dengeli performansı sağladığı ortaya konulmuştur.
Toksik dil tespiti metin sınıflandırma derin öğrenme doğal dil işleme
This study comparatively examines classical machine learning methods, deep learning-based models, and a CNN–BiLSTM hybrid architecture for the automatic detection of toxic content on social media platforms. Experimental analyses were conducted on a Twitter dataset consisting of short, noisy texts with significant class imbalance. Classical methods such as LR, NB, and SVM, along with LSTM, BiLSTM, and the CNN–BiLSTM hybrid model, were evaluated under the same training-test split strategy. Model performances were analyzed using accuracy, precision, sensitivity, and F-score metrics. Experimental results show that while classical machine learning models achieve high accuracy on the non-toxic class, they are limited in detecting the minority toxic class. Deep learning-based models were observed to produce more stable results because they can learn contextual dependencies. The proposed CNN–BiLSTM hybrid model achieved the highest and most stable performance among all models, balancing local and contextual features.
Toxic language detection text classification deep learning natural language processing
| Birincil Dil | Türkçe |
|---|---|
| Konular | Sınıflandırma algoritmaları |
| Bölüm | Araştırma Makalesi |
| Yazarlar | |
| Gönderilme Tarihi | 21 Aralık 2025 |
| Kabul Tarihi | 15 Şubat 2026 |
| Yayımlanma Tarihi | 30 Mart 2026 |
| IZ | https://izlik.org/JA82RX79MK |
| Yayımlandığı Sayı | Yıl 2026 Cilt: 38 Sayı: 1 |