Son yıllarda sosyal medya, çeşitli konulardaki halkın görüşlerini anlamak için önemli bir bilgi kaynağı haline gelmiştir. Bu nedenle, bu verilerden otomatik bilgi çıkarmak öneminin arttığı bir alan haline gelmiştir. Doğal dil işleme alanının alt görevlerinden biri olan görüş belirleme, otomatik bilgi çıkarma için kritik bir konudur. Duruş tespiti, kullanıcının belirli bir konu, olay veya kişi hakkındaki tutumunu otomatik olarak belirler. Bu çalışmada, Rusya-Ukrayna Savaşı'na yönelik sosyal medya kullanıcılarının tutumlarını belirleme görevine odaklanan Türkçe etiketli bir veri kümesi oluşturulmuş ve bu veri kümesinde çeşitli makine öğrenimi yöntemleri değerlendirilmiştir. Bu çalışma için 8215 tweet Twitter'dan toplandı ve temizlendi. Veri kümesi daha sonra Rusya ve Ukrayna olmak üzere iki hedefle etiketlendi. Stance Detection görevi için GloVe ve FastText kelime gömme ile Support Vector Machines, Random Forest, k-Nearest Neighbor, XGBoost, Long-Short Term Memory (LSTM) ve Gated Recurrent Unit (GRU) modelleri kullanılmıştır. Ayrıca, duruş tespiti için transformer tabanlı bir yaklaşım da kullanılmıştır. Veri kümesinin hedefler arasındaki dengesizliği dikkate alındığında, bu algoritmalarla birlikte örnek azaltma ve örnek artırma yöntemleri de kullanılmıştır. Deney sonuçları, BERT tabanlı modellerin diğer tüm modelleri geride bıraktığını göstermektedir. Bu sonuçların yanı sıra, LSTM ve GRU da BERT tabanlı modelin sonuçlarına oldukça benzer sonuçlar üretmiştir. Yeni oluşturulan Türkçe veritabanı, bu araştırma alanı için değerli bir kaynak olarak kabul edilebilir ve gelecekte transformer tabanlı yaklaşımlarla birlikte kullanma potansiyeline sahiptir. Özetle, bu çalışma, Türkçe metin bağlamında duruş tespiti araştırma alanını ilerletmektedir.
In recent years, social media has emerged as a crucial source of information for gauging public sentiment on a variety of topics. As a result, the need for automated data extraction from these platforms has grown. Stance detection, a subtask in natural language processing, plays a pivotal role in this process by automatically determining users' opinions regarding specific subjects, events, or individuals. To address this, we developed a labeled Turkish dataset focused on determining users' stances on the Russia-Ukraine War using social media content. The dataset, comprising 8215 tweets from Twitter, was meticulously cleaned and annotated for two key targets: Russia and Ukraine. We evaluated several machine learning methods, including Support Vector Machines, Random Forest, k-Nearest Neighbor, XGBoost, Long-Short Term Memory (LSTM), and Gated Recurrent Unit (GRU), with word embeddings from GloVe and FastText. Additionally, we incorporated a transformer-based approach for stance detection. Given the dataset's imbalance between targets, we applied undersampling and oversampling techniques alongside these algorithms. Our experiment results indicate that BERT-based models outperformed all other methods, with LSTM and GRU producing similarly strong outcomes. The newly established Turkish corpus stands as a valuable resource in this field, with potential for future use in conjunction with transformer-based approaches. In summary, this study advances the field of stance detection research in the context of Turkish text.
Birincil Dil | İngilizce |
---|---|
Konular | Bilgisayar Yazılımı |
Bölüm | Makaleler |
Yazarlar | |
Erken Görünüm Tarihi | 8 Haziran 2024 |
Yayımlanma Tarihi | 27 Haziran 2024 |
Gönderilme Tarihi | 17 Ekim 2023 |
Kabul Tarihi | 8 Mayıs 2024 |
Yayımlandığı Sayı | Yıl 2024 |
Bu eser Creative Commons Atıf-GayriTicari 4.0 Uluslararası Lisansı ile lisanslanmıştır.