Sosyal medya platformları insanların herhangi bir konu hakkındaki fikirlerine dair çok yüksek miktarda veri sunmaktadır. Bu yüzden, bu tip platformlar market analizi ve toplumsal görüş tahmini gibi birçok çalışma için çok önemli veri kaynaklarıdır. Ancak, sosyal medya kullanıcıları bir toplumu tam anlamıyla yansıtmadığından ötürü sosyal medya verisindeki yanlılığı azaltmak için kullanıcıların yaşı ve cinsiyeti gibi çeşitli bilgileri de göz önünde bulundurarak sayma işlemi gibi ek adımların atılması gerekmektedir. Bu çalışmada verilen bir Türkçe Twitter hesabının paylaştığı mesajları kullanarak hesap sahibinin yaş aralığını ve cinsiyetini tahmin etme problemi konusunu ele aldık. Çalışma kapsamında 1040 Twitter kullanıcısının yaş ve cinsiyet bilgilerinden oluşan etiketli bir veri kümesi hazırlanmıştır. Ardından kelime, karakter, retweet, fastText ve BERT tabanlı beş farklı yöntem geliştirilmiştir. Yaptığımız kapsamlı deneylerden kullanıcıların paylaştıkları mesajların insanların yaş ve cinsiyet bilgisine dair önemli ipuçları sunduğunu göstermektedir.
Tübitak
120E514
Social media platforms provide a huge amount of data on people's opinions on any topic. Therefore, such platforms are very important data sources for many studies such as market analysis and social opinion prediction. However, since social media users do not fully reflect a society, it is necessary to take additional steps to reduce bias such as weighted counting based on users' age and gender. In this study, we focus on the problem of predicting the age range and gender of the owner of a given Twitter account using the shared messages in Turkish. Within the scope of the study, we constructed a labeled dataset consisting of age and gender information of 1040 Twitter users. In addition, we developed five different methods based on words, characters, retweets, fastText, and BERT. Our extensive experiments show that the messages shared by users offer important clues about people's age and gender information.
120E514
Primary Language | Turkish |
---|---|
Subjects | Computer Software |
Journal Section | Computer Engineering |
Authors | |
Project Number | 120E514 |
Publication Date | April 15, 2023 |
Submission Date | October 19, 2022 |
Acceptance Date | February 27, 2023 |
Published in Issue | Year 2023 |