Sosyal medya platformları insanların herhangi bir konu hakkındaki fikirlerine dair çok yüksek miktarda veri sunmaktadır. Bu yüzden, bu tip platformlar market analizi ve toplumsal görüş tahmini gibi birçok çalışma için çok önemli veri kaynaklarıdır. Ancak, sosyal medya kullanıcıları bir toplumu tam anlamıyla yansıtmadığından ötürü sosyal medya verisindeki yanlılığı azaltmak için kullanıcıların yaşı ve cinsiyeti gibi çeşitli bilgileri de göz önünde bulundurarak sayma işlemi gibi ek adımların atılması gerekmektedir. Bu çalışmada verilen bir Türkçe Twitter hesabının paylaştığı mesajları kullanarak hesap sahibinin yaş aralığını ve cinsiyetini tahmin etme problemi konusunu ele aldık. Çalışma kapsamında 1040 Twitter kullanıcısının yaş ve cinsiyet bilgilerinden oluşan etiketli bir veri kümesi hazırlanmıştır. Ardından kelime, karakter, retweet, fastText ve BERT tabanlı beş farklı yöntem geliştirilmiştir. Yaptığımız kapsamlı deneylerden kullanıcıların paylaştıkları mesajların insanların yaş ve cinsiyet bilgisine dair önemli ipuçları sunduğunu göstermektedir.
Doğal Dil İşleme Yaş Tahmini Cinsiyet Tahmini Yazar Profili Tahmini
Tübitak
120E514
Social media platforms provide a huge amount of data on people's opinions on any topic. Therefore, such platforms are very important data sources for many studies such as market analysis and social opinion prediction. However, since social media users do not fully reflect a society, it is necessary to take additional steps to reduce bias such as weighted counting based on users' age and gender. In this study, we focus on the problem of predicting the age range and gender of the owner of a given Twitter account using the shared messages in Turkish. Within the scope of the study, we constructed a labeled dataset consisting of age and gender information of 1040 Twitter users. In addition, we developed five different methods based on words, characters, retweets, fastText, and BERT. Our extensive experiments show that the messages shared by users offer important clues about people's age and gender information.
Natural language processing Age prediction Gender prediction Author profiling
120E514
Birincil Dil | Türkçe |
---|---|
Konular | Bilgisayar Yazılımı |
Bölüm | Bilgisayar Mühendisliği |
Yazarlar | |
Proje Numarası | 120E514 |
Yayımlanma Tarihi | 15 Nisan 2023 |
Gönderilme Tarihi | 19 Ekim 2022 |
Kabul Tarihi | 27 Şubat 2023 |
Yayımlandığı Sayı | Yıl 2023 |