Çalışmada, sosyal medya tabanlı metinlerden oluşan ikili sınıflandırma problemi kapsamında duygu analizi gerçekleştirilmiştir. Analiz sürecinde, metinler dil ön işleme adımlarından geçirilmiş ve cümle düzeyinde çok dilli BERT modeli kullanılarak vektörleştirilmiştir. Dengesiz sınıf dağılımı problemi ise SMOTE (Synthetic Minority Over-sampling Technique) yöntemi ile dengelenmiştir. Sınıflandırmada LightGBM ve CatBoost makine öğrenmesi modelleri tercih edilmiştir. Modellere beş katlı çapraz doğrulama uygulanarak, doğruluk, F1 skoru, duyarlılık, özgüllük ve ROC-AUC gibi çeşitli performans metrikleri hesaplanmıştır. Görsel analizlerde metin uzunluğu, kelime sayısı ve kelime bulutu benzeri yapısal dağılımlar incelenmiştir. Elde edilen sonuçlara göre her iki model de yüksek sınıflandırma başarısı göstermiştir. CatBoost doğruluk (%87,4), F1 skoru (0,763), hassasiyet (0,737) ve duyarlılık (0,793) ölçütlerinde LightGBM’ye kıyasla tutarlı bir üstünlük sağlamıştır. Pozitif sınıfı daha başarılı tanıması ve dengeli genel performansı ile öne çıkmıştır. İki modelin ROC-AUC değeri ise eşit (0,926) bulunmuş ve sınıflar arası ayrım gücünün yüksek olduğu anlaşılmıştır. Elde edilen sonuçlar, gelişmiş vektörleştirme tekniklerinin makine öğrenmesi modelleri ile bütünleştiğinde duygu analizinde etkili çıktılar üretebildiğini ortaya koymaktadır.
Teknik analizler, veri ön işleme süreçleri ve Python dili ile programlama sürecinde sağladıkları rehberlik ve geri bildirimler için C ve Sistem Programcıları Derneği çalışanlarına (https://csystem.org/) ve Dernek Başkanı Dr. Kaan ASLAN’a teşekkür ederim. Dr. Kaan ASLAN, özellikle veri temizleme, model hiperparametre optimizasyonu ve performans değerlendirme süreçlerine katkı sağlamış olup, çalışmanın doğruluk oranlarının artırılması konusunda önerilerde bulunmuştur.
In this study, sentiment analysis was performed for a binary classification problem consisting of social media-based texts. In the analysis process, the texts were subjected to language preprocessing steps and vectorized using the multilingual BERT model at the sentence level. The unbalanced class distribution problem was balanced with the SMOTE (Synthetic Minority Over-sampling Technique) method. LightGBM and CatBoost machine learning models were preferred for classification. Five-fold cross-validation was applied to the models and various performance metrics such as accuracy, F1 score, sensitivity, specificity and ROC-AUC were calculated. In visual analysis, text length, word count and word cloud-like structural distributions were analyzed. According to the results, both models showed high classification performance. CatBoost consistently outperformed LightGBM in accuracy (87.4%), F1 score (0.763), precision (0.737) and sensitivity (0.793). It stood out with its better recognition of the positive class and balanced overall performance. The ROC-AUC value of the two models was equal (0.926), indicating high discrimination power between classes. The results show that advanced vectorization techniques can produce effective outputs in sentiment analysis when integrated with machine learning models.
I would like to thank the employees of the C and Systems Programmers Association (https://csystem.org/) and the Association President Dr. Kaan ASLAN for their guidance and feedback during the technical analysis, data preprocessing processes, and programming process using the Python language. Dr. Kaan ASLAN contributed significantly to data cleaning, model hyperparameter optimization, and performance evaluation processes, and provided recommendations for improving the accuracy rates of the study.
| Primary Language | Turkish |
|---|---|
| Subjects | Business Process Management, Decision Support and Group Support Systems, Management Information Systems |
| Journal Section | Research Article |
| Authors | |
| Submission Date | May 28, 2025 |
| Acceptance Date | July 23, 2025 |
| Early Pub Date | December 16, 2025 |
| Publication Date | December 22, 2025 |
| Published in Issue | Year 2025 Volume: 18 Issue: 2 |