Araştırma Makalesi

Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost ve LightGBM ile Performans Karşılaştırması

Cilt: 18 Sayı: 2 22 Aralık 2025
PDF İndir
TR EN

Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost ve LightGBM ile Performans Karşılaştırması

Öz

Çalışmada, sosyal medya tabanlı metinlerden oluşan ikili sınıflandırma problemi kapsamında duygu analizi gerçekleştirilmiştir. Analiz sürecinde, metinler dil ön işleme adımlarından geçirilmiş ve cümle düzeyinde çok dilli BERT modeli kullanılarak vektörleştirilmiştir. Dengesiz sınıf dağılımı problemi ise SMOTE (Synthetic Minority Over-sampling Technique) yöntemi ile dengelenmiştir. Sınıflandırmada LightGBM ve CatBoost makine öğrenmesi modelleri tercih edilmiştir. Modellere beş katlı çapraz doğrulama uygulanarak, doğruluk, F1 skoru, duyarlılık, özgüllük ve ROC-AUC gibi çeşitli performans metrikleri hesaplanmıştır. Görsel analizlerde metin uzunluğu, kelime sayısı ve kelime bulutu benzeri yapısal dağılımlar incelenmiştir. Elde edilen sonuçlara göre her iki model de yüksek sınıflandırma başarısı göstermiştir. CatBoost doğruluk (%87,4), F1 skoru (0,763), hassasiyet (0,737) ve duyarlılık (0,793) ölçütlerinde LightGBM’ye kıyasla tutarlı bir üstünlük sağlamıştır. Pozitif sınıfı daha başarılı tanıması ve dengeli genel performansı ile öne çıkmıştır. İki modelin ROC-AUC değeri ise eşit (0,926) bulunmuş ve sınıflar arası ayrım gücünün yüksek olduğu anlaşılmıştır. Elde edilen sonuçlar, gelişmiş vektörleştirme tekniklerinin makine öğrenmesi modelleri ile bütünleştiğinde duygu analizinde etkili çıktılar üretebildiğini ortaya koymaktadır.

Anahtar Kelimeler

Teşekkür

Teknik analizler, veri ön işleme süreçleri ve Python dili ile programlama sürecinde sağladıkları rehberlik ve geri bildirimler için C ve Sistem Programcıları Derneği çalışanlarına (https://csystem.org/) ve Dernek Başkanı Dr. Kaan ASLAN’a teşekkür ederim. Dr. Kaan ASLAN, özellikle veri temizleme, model hiperparametre optimizasyonu ve performans değerlendirme süreçlerine katkı sağlamış olup, çalışmanın doğruluk oranlarının artırılması konusunda önerilerde bulunmuştur.

Kaynakça

  1. Albayrak, M., Topal, K., & Altıntaş, V. (2017). Sosyal medya üzerinde veri analizi: Twitter. Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 22 (Kayfor 15 Özel Sayısı), 1991-1998.
  2. Liu, B. (2012). Sentiment analysis and opinion mining. Synthesis Lectures on Human Language Technologies, 5(1), 1–167. https://doi.org/10.2200/S00416ED1V01Y201204HLT016
  3. Cambria, E., Schuller, B., Xia, Y., & Havasi, C. (2017). New avenues in opinion mining and sentiment analysis. IEEE Intelligent Systems, 28(2), 15–21. http://dx.doi.org/10.1109/MIS.2013.30
  4. Eşidir, K. A., & Gür, Y. E. (2023). Yapay sinir ağları ile Türkiye plastik sektörü ithalat tahmini: 2023 yılı nisan-aralık ayları. Akademik Hassasiyetler, 10(23), 91-114. https://doi.org/10.58884/akademik-hassasiyetler.1307536
  5. Bae, C. Y., Im, Y., Lee, J., Park, C., Kim, M., Kwon, H. U., & Kim, J. (2021). Comparison of biological age prediction models using clinical biomarkers commonly measured in clinical practice settings: AI techniques vs. traditional statistical methods. Frontiers in Analytical Science, 1. https://doi.org/10.3389/frans.2021.709589
  6. Prokhorenkova, L., Gusev, G., Vorobev, A., Dorogush, A. V., & Gulin, A. (2018). CatBoost: unbiased boosting with categorical features. Advances in Neural Information Processing Systems, 31, 6638–6648. DOI: 10.5555/3327757.3327770
  7. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 4171–4186, Minneapolis, Minnesota. https://doi.org/10.18653/v1/N19-1423
  8. Lundberg, S. M., & Lee, S. I. (2017). A unified approach to interpreting model predictions. Proceedings of the 31st International Conference on Neural Information Processing Systems (NeurIPS 2017), 4765–4774. https://doi.org/10.48550/arXiv.1705.07874

Ayrıntılar

Birincil Dil

Türkçe

Konular

İş Süreçleri Yönetimi, Karar Desteği ve Grup Destek Sistemleri, Yönetim Bilişim Sistemleri

Bölüm

Araştırma Makalesi

Erken Görünüm Tarihi

16 Aralık 2025

Yayımlanma Tarihi

22 Aralık 2025

Gönderilme Tarihi

28 Mayıs 2025

Kabul Tarihi

23 Temmuz 2025

Yayımlandığı Sayı

Yıl 2025 Cilt: 18 Sayı: 2

Kaynak Göster

APA
Eşidir, K. A. (2025). Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost ve LightGBM ile Performans Karşılaştırması. Bilgisayar Bilimleri ve Mühendisliği Dergisi, 18(2), 112-123. https://doi.org/10.54525/bbmd.1677261
AMA
1.Eşidir KA. Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost ve LightGBM ile Performans Karşılaştırması. bbmd. 2025;18(2):112-123. doi:10.54525/bbmd.1677261
Chicago
Eşidir, Kamil Abdullah. 2025. “Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost ve LightGBM ile Performans Karşılaştırması”. Bilgisayar Bilimleri ve Mühendisliği Dergisi 18 (2): 112-23. https://doi.org/10.54525/bbmd.1677261.
EndNote
Eşidir KA (01 Aralık 2025) Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost ve LightGBM ile Performans Karşılaştırması. Bilgisayar Bilimleri ve Mühendisliği Dergisi 18 2 112–123.
IEEE
[1]K. A. Eşidir, “Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost ve LightGBM ile Performans Karşılaştırması”, bbmd, c. 18, sy 2, ss. 112–123, Ara. 2025, doi: 10.54525/bbmd.1677261.
ISNAD
Eşidir, Kamil Abdullah. “Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost ve LightGBM ile Performans Karşılaştırması”. Bilgisayar Bilimleri ve Mühendisliği Dergisi 18/2 (01 Aralık 2025): 112-123. https://doi.org/10.54525/bbmd.1677261.
JAMA
1.Eşidir KA. Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost ve LightGBM ile Performans Karşılaştırması. bbmd. 2025;18:112–123.
MLA
Eşidir, Kamil Abdullah. “Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost ve LightGBM ile Performans Karşılaştırması”. Bilgisayar Bilimleri ve Mühendisliği Dergisi, c. 18, sy 2, Aralık 2025, ss. 112-23, doi:10.54525/bbmd.1677261.
Vancouver
1.Kamil Abdullah Eşidir. Tweet Verileri İçin Metin Sınıflandırmasında Gelişmiş Makine Öğrenmesi Modelleri: CatBoost ve LightGBM ile Performans Karşılaştırması. bbmd. 01 Aralık 2025;18(2):112-23. doi:10.54525/bbmd.1677261