Research Article

Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost ve LightGBM ile Performans Karşılaştırması

Volume: 18 Number: 2 December 22, 2025
TR EN

Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost ve LightGBM ile Performans Karşılaştırması

Abstract

Çalışmada, sosyal medya tabanlı metinlerden oluşan ikili sınıflandırma problemi kapsamında duygu analizi gerçekleştirilmiştir. Analiz sürecinde, metinler dil ön işleme adımlarından geçirilmiş ve cümle düzeyinde çok dilli BERT modeli kullanılarak vektörleştirilmiştir. Dengesiz sınıf dağılımı problemi ise SMOTE (Synthetic Minority Over-sampling Technique) yöntemi ile dengelenmiştir. Sınıflandırmada LightGBM ve CatBoost makine öğrenmesi modelleri tercih edilmiştir. Modellere beş katlı çapraz doğrulama uygulanarak, doğruluk, F1 skoru, duyarlılık, özgüllük ve ROC-AUC gibi çeşitli performans metrikleri hesaplanmıştır. Görsel analizlerde metin uzunluğu, kelime sayısı ve kelime bulutu benzeri yapısal dağılımlar incelenmiştir. Elde edilen sonuçlara göre her iki model de yüksek sınıflandırma başarısı göstermiştir. CatBoost doğruluk (%87,4), F1 skoru (0,763), hassasiyet (0,737) ve duyarlılık (0,793) ölçütlerinde LightGBM’ye kıyasla tutarlı bir üstünlük sağlamıştır. Pozitif sınıfı daha başarılı tanıması ve dengeli genel performansı ile öne çıkmıştır. İki modelin ROC-AUC değeri ise eşit (0,926) bulunmuş ve sınıflar arası ayrım gücünün yüksek olduğu anlaşılmıştır. Elde edilen sonuçlar, gelişmiş vektörleştirme tekniklerinin makine öğrenmesi modelleri ile bütünleştiğinde duygu analizinde etkili çıktılar üretebildiğini ortaya koymaktadır.

Keywords

Thanks

I would like to thank the employees of the C and Systems Programmers Association (https://csystem.org/) and the Association President Dr. Kaan ASLAN for their guidance and feedback during the technical analysis, data preprocessing processes, and programming process using the Python language. Dr. Kaan ASLAN contributed significantly to data cleaning, model hyperparameter optimization, and performance evaluation processes, and provided recommendations for improving the accuracy rates of the study.

References

  1. Albayrak, M., Topal, K., & Altıntaş, V. (2017). Sosyal medya üzerinde veri analizi: Twitter. Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 22 (Kayfor 15 Özel Sayısı), 1991-1998.
  2. Liu, B. (2012). Sentiment analysis and opinion mining. Synthesis Lectures on Human Language Technologies, 5(1), 1–167. https://doi.org/10.2200/S00416ED1V01Y201204HLT016
  3. Cambria, E., Schuller, B., Xia, Y., & Havasi, C. (2017). New avenues in opinion mining and sentiment analysis. IEEE Intelligent Systems, 28(2), 15–21. http://dx.doi.org/10.1109/MIS.2013.30
  4. Eşidir, K. A., & Gür, Y. E. (2023). Yapay sinir ağları ile Türkiye plastik sektörü ithalat tahmini: 2023 yılı nisan-aralık ayları. Akademik Hassasiyetler, 10(23), 91-114. https://doi.org/10.58884/akademik-hassasiyetler.1307536
  5. Bae, C. Y., Im, Y., Lee, J., Park, C., Kim, M., Kwon, H. U., & Kim, J. (2021). Comparison of biological age prediction models using clinical biomarkers commonly measured in clinical practice settings: AI techniques vs. traditional statistical methods. Frontiers in Analytical Science, 1. https://doi.org/10.3389/frans.2021.709589
  6. Prokhorenkova, L., Gusev, G., Vorobev, A., Dorogush, A. V., & Gulin, A. (2018). CatBoost: unbiased boosting with categorical features. Advances in Neural Information Processing Systems, 31, 6638–6648. DOI: 10.5555/3327757.3327770
  7. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 4171–4186, Minneapolis, Minnesota. https://doi.org/10.18653/v1/N19-1423
  8. Lundberg, S. M., & Lee, S. I. (2017). A unified approach to interpreting model predictions. Proceedings of the 31st International Conference on Neural Information Processing Systems (NeurIPS 2017), 4765–4774. https://doi.org/10.48550/arXiv.1705.07874

Details

Primary Language

Turkish

Subjects

Business Process Management, Decision Support and Group Support Systems, Management Information Systems

Journal Section

Research Article

Early Pub Date

December 16, 2025

Publication Date

December 22, 2025

Submission Date

May 28, 2025

Acceptance Date

July 23, 2025

Published in Issue

Year 2025 Volume: 18 Number: 2

APA
Eşidir, K. A. (2025). Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost ve LightGBM ile Performans Karşılaştırması. Bilgisayar Bilimleri Ve Mühendisliği Dergisi, 18(2), 112-123. https://doi.org/10.54525/bbmd.1677261
AMA
1.Eşidir KA. Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost ve LightGBM ile Performans Karşılaştırması. Bilgisayar Bilimleri ve Mühendisliği Dergisi. 2025;18(2):112-123. doi:10.54525/bbmd.1677261
Chicago
Eşidir, Kamil Abdullah. 2025. “Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost Ve LightGBM Ile Performans Karşılaştırması”. Bilgisayar Bilimleri Ve Mühendisliği Dergisi 18 (2): 112-23. https://doi.org/10.54525/bbmd.1677261.
EndNote
Eşidir KA (December 1, 2025) Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost ve LightGBM ile Performans Karşılaştırması. Bilgisayar Bilimleri ve Mühendisliği Dergisi 18 2 112–123.
IEEE
[1]K. A. Eşidir, “Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost ve LightGBM ile Performans Karşılaştırması”, Bilgisayar Bilimleri ve Mühendisliği Dergisi, vol. 18, no. 2, pp. 112–123, Dec. 2025, doi: 10.54525/bbmd.1677261.
ISNAD
Eşidir, Kamil Abdullah. “Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost Ve LightGBM Ile Performans Karşılaştırması”. Bilgisayar Bilimleri ve Mühendisliği Dergisi 18/2 (December 1, 2025): 112-123. https://doi.org/10.54525/bbmd.1677261.
JAMA
1.Eşidir KA. Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost ve LightGBM ile Performans Karşılaştırması. Bilgisayar Bilimleri ve Mühendisliği Dergisi. 2025;18:112–123.
MLA
Eşidir, Kamil Abdullah. “Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost Ve LightGBM Ile Performans Karşılaştırması”. Bilgisayar Bilimleri Ve Mühendisliği Dergisi, vol. 18, no. 2, Dec. 2025, pp. 112-23, doi:10.54525/bbmd.1677261.
Vancouver
1.Kamil Abdullah Eşidir. Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost ve LightGBM ile Performans Karşılaştırması. Bilgisayar Bilimleri ve Mühendisliği Dergisi. 2025 Dec. 1;18(2):112-23. doi:10.54525/bbmd.1677261