Sosyal medya platformlarının yaygınlaşması ve kullanıcı sayılarının hızla artmaya devam etmesiyle birlikte sosyal medyada üretilen veri miktarı da hızlı bir şekilde büyümektedir. Bu veriden bilgi çıkarmaya yönelik yapılan bilimsel çalışmaların hedeflerinden biri de meslek tahminidir. Sosyal medya kullanıcılarının meslek bilgisi, akıllı öneri sistemleri başta olmak üzere birçok farklı alanda kullanılabilmektedir. Bu çalışmada da Türkçe tweetler kullanılarak meslek tahmini yapılması amaçlanmıştır. Çalışma kapsamında öncelikle 25.000 Türkçe tweetten oluşan meslek veri kümesi oluşturulmuş ve kamuya açık olarak paylaşılmıştır. Bu veri kümesi üzerinde çeşitli önişleme adımları uygulanmış, hem kelimelerin kendileri hem de kelime kökleri kullanılarak özellik kümeleri çıkarılmıştır. Yapılan testlerde tweetler hem tekil olarak hem de 5’li ve 10’lu gruplar halinde birleştirilerek kullanılmıştır. Destek Vektör Makinesi ve Lojistik Regresyon yöntemlerinin uygulandığı deneylerde özellik seçimi yapılarak testler tekrar edilmiştir. Tekil tweetlerle yapılan deneylerde en iyi sonuç %74,90 doğruluk oranı olarak elde edilirken, 5’li gruplar halinde birleştirilmiş tweetlerle yapılan deneylerde %96,20 ve 10’lu gruplar halinde birleştirilmiş tweetlerle yapılan deneylerde %99,00 doğruluk oranları en iyi performanslar olarak raporlanmıştır. Testlerde kelime köklerinin kullanılmasının kelimelerin kendilerini kullanmaya göre daha yüksek başarı gösterdiği ve özellik seçiminin genel olarak başarıyı yükselttiği görülmüştür. Çalışmanın sonunda, alınan bu sonuçlar tartışılmış ve gelecek çalışmalara dair öneriler sunulmuştur.
Veri toplama aşamasındaki desteklerinden dolayı Murat Karabulut’a teşekkür ediyorum.
With the spread of social media platforms and the rapid increase in the number of users, the amount of data produced in social media is growing rapidly. One of the goals of scientific studies to extract information from this data is occupation prediction. Social media users' occupation information can be used in many different areas, especially in smart suggestion systems. In this study, it is aimed to make occupation prediction using Turkish tweets. Within the scope of the study, an occupation dataset consisting of 25,000 Turkish tweets was created and shared publicly. Various preprocessing steps were applied on this dataset, and feature sets were extracted using both the words themselves and the word roots. In the tests, tweets were used both singularly and combined in groups of 5 and 10. In the experiments in which Support Vector Machine and Logistic Regression methods were applied, tests were repeated by feature selection. While the best result was obtained as 74.90% accuracy in the experiments with singular tweets, the best performances were reported as 96.20% accuracy in experiments with tweets combined in groups of 5, and 99.00% accuracy in experiments with tweets combined in groups of 10. It has been seen that the using of word roots in the tests has higher success than using the words themselves, and the feature selection generally increases the success. At the end of the study, these results were discussed and suggestions for future studies were presented.
Occupation prediction Profession identification Machine learning Natural language processing Twitter
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | September 30, 2022 |
Published in Issue | Year 2022 |