TR
Twitter Platformundan Elde Edilen Türkçe Saldırgan Dil Derlemi
Öz
Sosyal medya platformlarında kullanıcıların paylaşımlar arasında saldırgan dil barındıran içeriklerin önemli oranda arttığı gözlemlenmiştir. Çalışma Türkçe dilinde bu sorunun çözümüne katkı sağlamayı amaçlamaktadır. Bu çalışmada Twitter platformundan elde edilen bir veri seti oluşturulmuştur. 14752 Türkçe tweet metninden oluşan bu veri seti etiketleyiciler tarafından manuel olarak etiketlenmiştir. Buna ek olarak oluşturulan veri seti kullanılarak LSTM (Long ShortTerm Memory) ve GRU (Gated Recurrent Units) modellerinin sınıflandırma performansları karşılaştırılmıştır. Çalışmada ikili ve çoklu sınıflandırma yapılmıştır. Saldırgan dil ile ilgili Türkçe için çoklu sınıflandırma yapılan ilk çalışmadır. Bunlara ek olarak Twitter platformundan 1 milyon 860 bin tweet metninden oluşan genişletilmiş derlem elde edilmiştir. Burada word2vec yöntemi ile kelime temsilleri elde edilmiştir. Böylelikle genişletilmiş derlem kullanımının sınıflandırma performanslarına katkısı karşılaştırılmıştır. Çalışmada yapılan ikili sınıflandırma da genişletilmiş derlem kullanımıyla en yüksek performans GRU modeli F1-skor değeri %94,49’dur. Bu sebeple çoklu sınıflandırma yapılırken GRU modeli kullanılmıştır. Çoklu sınıflandırmada elde edilen sınıflandırma performans değerleri genişletilmiş derlemin katkısıyla GRU F1-makro değeri %71,97 ve %54,10’dur. Bu alanda Türk dili literatürüne katkı sağlamak amacıyla mevcut çalışmanın veri setleri ve genişletilmiş derlem kelime vektörleri paylaşılacaktır.
Anahtar Kelimeler
Kaynakça
- [1] Cambria, E., Poria, S., Gelbukh, A. and Thelwall, M., “Sentiment Analysis Is a Big Suitcase”. IEEE Intelligent Systems, vol. 32, no. 6, pp. 74–80, 2017.
- [2] Liu, B., “Sentiment analysis and opinion mining”. Synthesis lectures on human language technologies, vol. 5, no. 1, pp. 160-167, 2012.
- [3] Craig, W., Boniel-Nissim, M., King, N., Walsh, S. D., Boer, M., Donnelly, P. D., ... and Van den Eijnden, R. “Social media use and cyber-bullying: a cross-national analysis of young people in 42 countries”, Journal of Adolescent Health, vol. 66 no. 6, pp. 100-108, 2020.
- [4] Hinduja, S. and Patchin, J. W., “Bullying, cyberbullying and suicide”, Archiands of suicide research, vol. 14, no. 3, pp. 206-221, 2010. [5] Newberry, C. (2022). 36 Twitter Stats All Marketers Need to Know in 2021. https://blog.hootsuite.com/twitter-statistics/ (Access Date: April 12, 2022).
- [6] Twitter, Rules Enforcement, https://transparency.twitter.com/en/reports/rules-enforcement.html#2020-jul-dec (Accces date: June 12, 2021).
- [7] Oflazer, K., “Türkçe ve Doğal Dil İşleme”, Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, vol. 5, no. 2, 2016.
- [8] Dehkharghani, R., Saygin, Y., Yanikoglu, B., & Oflazer, K., “SentiTurkNet: a Turkish polarity lexicon for sentiment analysis”, Language Resources and Evaluation, vol. 50, no. 3, pp. 667-685, 2016.
- [9] Dehkharghani, R., Yanikoglu, B., Tapucu, D., & Saygin, Y., “Adaptation and use of subjectivity lexicons for domain dependent sentiment classification”, In 2012 IEEE 12th International Conference on Data Mining Workshops, pp. 669-673, 2012.
Ayrıntılar
Birincil Dil
Türkçe
Konular
Yapay Zeka, Yazılım Mühendisliği (Diğer)
Bölüm
Araştırma Makalesi
Yayımlanma Tarihi
26 Ekim 2022
Gönderilme Tarihi
10 Eylül 2022
Kabul Tarihi
10 Ekim 2022
Yayımlandığı Sayı
Yıl 2022 Cilt: 4 Sayı: 2
APA
Şahiner Yılmaz, Ş., Özer, İ., & Gökçen, H. (2022). Twitter Platformundan Elde Edilen Türkçe Saldırgan Dil Derlemi. Mühendislik Bilimleri ve Araştırmaları Dergisi, 4(2), 304-316. https://doi.org/10.46387/bjesr.1173434
AMA
1.Şahiner Yılmaz Ş, Özer İ, Gökçen H. Twitter Platformundan Elde Edilen Türkçe Saldırgan Dil Derlemi. Müh.Bil.ve Araş.Dergisi. 2022;4(2):304-316. doi:10.46387/bjesr.1173434
Chicago
Şahiner Yılmaz, Şeyma, İlyas Özer, ve Hadi Gökçen. 2022. “Twitter Platformundan Elde Edilen Türkçe Saldırgan Dil Derlemi”. Mühendislik Bilimleri ve Araştırmaları Dergisi 4 (2): 304-16. https://doi.org/10.46387/bjesr.1173434.
EndNote
Şahiner Yılmaz Ş, Özer İ, Gökçen H (01 Ekim 2022) Twitter Platformundan Elde Edilen Türkçe Saldırgan Dil Derlemi. Mühendislik Bilimleri ve Araştırmaları Dergisi 4 2 304–316.
IEEE
[1]Ş. Şahiner Yılmaz, İ. Özer, ve H. Gökçen, “Twitter Platformundan Elde Edilen Türkçe Saldırgan Dil Derlemi”, Müh.Bil.ve Araş.Dergisi, c. 4, sy 2, ss. 304–316, Eki. 2022, doi: 10.46387/bjesr.1173434.
ISNAD
Şahiner Yılmaz, Şeyma - Özer, İlyas - Gökçen, Hadi. “Twitter Platformundan Elde Edilen Türkçe Saldırgan Dil Derlemi”. Mühendislik Bilimleri ve Araştırmaları Dergisi 4/2 (01 Ekim 2022): 304-316. https://doi.org/10.46387/bjesr.1173434.
JAMA
1.Şahiner Yılmaz Ş, Özer İ, Gökçen H. Twitter Platformundan Elde Edilen Türkçe Saldırgan Dil Derlemi. Müh.Bil.ve Araş.Dergisi. 2022;4:304–316.
MLA
Şahiner Yılmaz, Şeyma, vd. “Twitter Platformundan Elde Edilen Türkçe Saldırgan Dil Derlemi”. Mühendislik Bilimleri ve Araştırmaları Dergisi, c. 4, sy 2, Ekim 2022, ss. 304-16, doi:10.46387/bjesr.1173434.
Vancouver
1.Şeyma Şahiner Yılmaz, İlyas Özer, Hadi Gökçen. Twitter Platformundan Elde Edilen Türkçe Saldırgan Dil Derlemi. Müh.Bil.ve Araş.Dergisi. 01 Ekim 2022;4(2):304-16. doi:10.46387/bjesr.1173434
Cited By
Adlandırılmış Varlık Tanıma Modelleri ile Türkçe Sosyal Medya Metinlerinde Küfürlü Sözlerin Sansürlenmesi
Afyon Kocatepe University Journal of Sciences and Engineering
https://doi.org/10.35414/akufemubid.1115786Fransızca Ölmekte Olan Bir Dil mi? Twitter’da Konu Hakkında Yapılan Tartışmalara Yönelik Bir Söylem Çözümlemesi
Karamanoğlu Mehmetbey Üniversitesi Uluslararası Filoloji ve Çeviribilim Dergisi
https://doi.org/10.55036/ufced.1402664