Araştırma Makalesi

Ön Eğitimli Dil Modelleri Kullanarak Türkçe Tweetlerden Cinsiyet Tespiti

Cilt: 33 Sayı: 2 15 Eylül 2021
PDF İndir
TR EN

Ön Eğitimli Dil Modelleri Kullanarak Türkçe Tweetlerden Cinsiyet Tespiti

Öz

Yazar profili oluşturma (Author Profiling) bir metnin üslup ve içeriğine bakarak yazarın çeşitli özelliklerinin ortaya çıkarılmasına yönelik bir metin kümesi analizidir. Bu özellikler yaş, cinsiyet, kişilik özellikleri ve hatta meslek gibi unsurları barındırır. Cinsiyet belirleme yazar profili oluşturma çalışmalarının alt alanlarından birisidir. Siber suçlar başta olmak üzere sahte haber yayma gibi adli olayların yanında pazarlama (reklamcılık), sosyolojik ve psikolojik olayların incelenmesinde cinsiyet belirleme oldukça önemlidir. Twitter gönderileri dil kurallarına uymayan, kısaltılmış kelimeler ve anlamsız cümle yapıları da içerme ihtimallerine rağmen cinsiyet belirleme görevi için yaygın bir şekilde kullanılmaktadır. Bu çalışmada Türkçe Twitter gönderilerinden cinsiyet tespiti yapılmaya çalışılmıştır. Problem bir sınıflandırma görevi olarak ele alınmıştır. Yapılan çalışmada makine öğrenmesi metotları(TF-IDF + SVM), derin öğrenme yöntemleri (LSTM, CNN) ve Türkçe için ön eğitimli dil modelleri(BERT, DistilBert, Electra) kullanılmıştır. Yapılan deneyler sonucunda en yüksek başarımı (%80.1) kelime boyutunun 128k olduğu Bert modeli sağlamıştır. Bu çalışma diğer metin sınıflandırma görevleri için de detaylı bir çalışma olma özelliği göstermektedir.

Anahtar Kelimeler

Kaynakça

  1. [1] F. M. R. Pardo, A. Giachanou, B. Ghanem, and P. Rosso, “Overview of the 8th Author Profiling Task at PAN 2020: Profiling Fake News Spreaders on Twitter,” CLEF 2020 Labs Work. Noteb. Pap., pp. 22–25, 2020, [Online]. Available: CEUR-WS.org.
  2. [2] M. A. Álvarez-Carmona et al., “A visual approach for age and gender identification on Twitter,” J. Intell. Fuzzy Syst., vol. 34, no. 5, pp. 3133–3145, 2018, doi: 10.3233/JIFS-169497.
  3. [3] F. Rangel, P. Rosso, M. Montes-Y-Gómez, M. Potthast, and B. Stein, “Overview of the 6th Author Profiling Task at PAN 2018: Multimodal Gender Identification in Twitter,” CEUR Workshop Proc., vol. 2380, 2018.
  4. [4] E. Sezerer, O. Polatbilek, and S. Tekir, “A Turkish Dataset for Gender Identification of Twitter Users,” pp. 203–207, 2019, doi: 10.18653/v1/w19-4023.
  5. [5] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” no. Mlm, 2018, [Online]. Available: http://arxiv.org/abs/1810.04805.
  6. [6] V. Sanh, L. Debut, J. Chaumond, and T. Wolf, “DistilBERT, a distilled version of BERT: Smaller, faster, cheaper and lighter,” arXiv, pp. 2–6, 2019.
  7. [7] C. D. Manning, “Electra : P Re - Training T Ext E Ncoders As D Iscriminators R Ather T Han G Enerators,” Iclr, pp. 1–18, 2020, [Online]. Available: https://github.com/google-research/.
  8. [8] F. Rangel, P. Rosso, M. Potthast, and B. Stein, “Overview of the 5th author profiling task at PAN 2017: Gender and language variety identification in Twitter,” CEUR Workshop Proc., vol. 1866, 2017.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Mühendislik

Bölüm

Araştırma Makalesi

Yayımlanma Tarihi

15 Eylül 2021

Gönderilme Tarihi

28 Nisan 2021

Kabul Tarihi

25 Ağustos 2021

Yayımlandığı Sayı

Yıl 2021 Cilt: 33 Sayı: 2

Kaynak Göster

APA
Sel, İ., & Hanbay, D. (2021). Ön Eğitimli Dil Modelleri Kullanarak Türkçe Tweetlerden Cinsiyet Tespiti. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 33(2), 675-684. https://doi.org/10.35234/fumbd.929133
AMA
1.Sel İ, Hanbay D. Ön Eğitimli Dil Modelleri Kullanarak Türkçe Tweetlerden Cinsiyet Tespiti. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 2021;33(2):675-684. doi:10.35234/fumbd.929133
Chicago
Sel, İlhami, ve Davut Hanbay. 2021. “Ön Eğitimli Dil Modelleri Kullanarak Türkçe Tweetlerden Cinsiyet Tespiti”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 33 (2): 675-84. https://doi.org/10.35234/fumbd.929133.
EndNote
Sel İ, Hanbay D (01 Eylül 2021) Ön Eğitimli Dil Modelleri Kullanarak Türkçe Tweetlerden Cinsiyet Tespiti. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 33 2 675–684.
IEEE
[1]İ. Sel ve D. Hanbay, “Ön Eğitimli Dil Modelleri Kullanarak Türkçe Tweetlerden Cinsiyet Tespiti”, Fırat Üniversitesi Mühendislik Bilimleri Dergisi, c. 33, sy 2, ss. 675–684, Eyl. 2021, doi: 10.35234/fumbd.929133.
ISNAD
Sel, İlhami - Hanbay, Davut. “Ön Eğitimli Dil Modelleri Kullanarak Türkçe Tweetlerden Cinsiyet Tespiti”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 33/2 (01 Eylül 2021): 675-684. https://doi.org/10.35234/fumbd.929133.
JAMA
1.Sel İ, Hanbay D. Ön Eğitimli Dil Modelleri Kullanarak Türkçe Tweetlerden Cinsiyet Tespiti. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 2021;33:675–684.
MLA
Sel, İlhami, ve Davut Hanbay. “Ön Eğitimli Dil Modelleri Kullanarak Türkçe Tweetlerden Cinsiyet Tespiti”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, c. 33, sy 2, Eylül 2021, ss. 675-84, doi:10.35234/fumbd.929133.
Vancouver
1.İlhami Sel, Davut Hanbay. Ön Eğitimli Dil Modelleri Kullanarak Türkçe Tweetlerden Cinsiyet Tespiti. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 01 Eylül 2021;33(2):675-84. doi:10.35234/fumbd.929133

Cited By

ÖN EĞİTİMLİ DİL MODELLERİYLE DUYGU ANALİZİ

İstanbul Sabahattin Zaim Üniversitesi Fen Bilimleri Enstitüsü Dergisi

https://doi.org/10.47769/izufbed.1312032