Today, the use of social media has become quite widespread. Among social media platforms, Twitter, now known as X, stands out with its number of users and abundance of data. This data can be used in many studies. In this study, it is aimed to predict occupation based on Turkish tweets. In the study, 5 datasets of different sizes were used. The tweets are evaluated and compared as single and pairwise. In the pre-processing step, different machine learning and deep learning methods and pre-trained models were tested using 2 different natural language processing libraries. Among the machine learning methods, the highest accuracy of 88% was obtained from the Logistic Regression model with pairwise tweet data, while the highest accuracy of 88% was obtained with the Multi-layer Perceptron from deep learning models. The BERT and "ytu-ce-cosmos/turkish-base-bert-uncased" developed by Yıldız Technical University COSMOS AI Research Team were used as pre-trained models. Although these models gave different results on different datasets, both of them achieved the highest success with a ratio of 89% on pairwise tweet data.
Günümüzde sosyal medya kullanımı oldukça yaygınlaşmıştır. Sosyal medya platformları arasında artık X olarak bilinen Twitter, kullanıcı sayısı ve veri fazlalığı özellikleriyle öne çıkıyor. Bu veriler pek çok çalışmada kullanılmaya müsaittir. Bu çalışmada Türkçe tivitler üzerinden meslek tahmini yapılması hedeflenmektedir. Çalışmada farklı boyutlarda 5 adet veri seti kullanılmıştır. Tivitler tekli ve ikili olarak değerlendirilerek karşılaştırması yapılmıştır. Ön işleme adımında 2 farklı doğal dil işleme kütüphanesi kullanılarak farklı makine öğrenmesi ve derin öğrenme metotları ve hazır modeller test edilmiştir. Makine öğrenmesi yöntemlerinden en yüksek başarı ikili tivit verileri ile %88 oranında Lojistik Regresyon modelinden alınırken derin öğrenme modellerinden Çok Katmanlı Algılayıcı ile yine %88'lik başarı elde edilmiştir. Hazır model olarak BERT ve Yıldız Teknik Üniversitesi COSMOS AI Araştırma Ekibi tarafından geliştirilen "ytu-ce-cosmos/turkish-base-bert-uncased" modeli kullanılmıştır. Bu modeller farklı veri setlerinde farklı sonuçlar vermelerine rağmen her ikisi de en yüksek başarısını ikili tivit verilerinde %89 oranı ile elde etmişlerdir.
| Primary Language | English |
|---|---|
| Subjects | Distributed Computing and Systems Software (Other) |
| Journal Section | Research Article |
| Authors | |
| Early Pub Date | May 12, 2025 |
| Publication Date | May 23, 2025 |
| Submission Date | August 21, 2024 |
| Acceptance Date | September 18, 2024 |
| Published in Issue | Year 2025 Volume: 27 Issue: 80 |