TR
EN
Kelime Temsil Yöntemleri ile Kelime Benzerliklerinin İncelenmesi
Öz
Günümüzde büyük veri alanında meydana gelen gelişmelerle birlikte günlük işlenebilir durumda olan veri miktarı oldukça büyük boyutlara ulaşmıştır. Bu verilerin çok büyük bir kısmının metin (text) verilerinden oluşması, metin işleme alanında yapılan çalışmaları oldukça önemli ve popüler bir hale getirmiştir. Ancak bu alanda yapılan çalışmalar incelendiğinde başta İngilizce olmak üzere birçok dünya diline yönelik çeşitli çalışmalar yapılırken, Türkçeye özgü yapılan çalışmaların istenilen sayıda olmadığı görülmüştür. Bu nedenle bu çalışma için, python ortamı kütüphanelerinden biri olan Beautiful Soup kütüphanesi kullanılarak Türkçe metinlerden oluşan büyük bir derlem oluşturulmuştur. Bu çalışmada, kelimeleri vektör uzayında her bir kelimenin bir vektörle temsil edildiği yeni bir yaklaşım olan Word2Vec modeli algoritmalarından CBOW ve Skip-Gram algoritmaları ile Glove modeli kullanılmıştır. Oluşturulan derlem üzerinde Word2Vec yöntemi ile Türkçe kelimelerden oluşan ve bu kelimeler arasındaki anlamsal ilişkileri tespit etmeye çalışan bir model geliştirilmiş ve diğer modeller ile başarımı ve eğitim süreleri kıyaslanmıştır. Ayrıca çalışmanın bir diğer katkısı ise modelin performansını artırmak için Türkçe için etkisiz kelimeler listesi oluşturulmasıdır. Geliştirilen bu model ile özellikle Türkçe metin sınıflandırma problemlerinde daha yüksek bir sınıflandırma başarımının yakalanması hedeflenmektedir. Bu çalışma kapsamında oluşturulan model analiz edilip yakın anlamlı kelimeler incelendiğinde oldukça başarılı performans gösterdiği tespit edilmiştir. Veriseti ve kelime vektörleri Türkçe çalışmalara katkı sağlamak için erişime açık olarak paylaşılacaktır.
Anahtar Kelimeler
Kaynakça
- 1. Kaytan, M., Hanbay, D., 2017. Effective Classification of Phishing Web Pages Based on New Rules by Using Extreme Learning Machines. Anatolian Science-Bilgisayar Bilimleri Dergisi, 2(1), 15-36.
- 2. Adalı, E., 2012. Doğal Dil İşleme. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 5, 2.
- 3. Amasyalı, M.F., Çetin, M., Akbulut, C., 2013. Metinlerin Anlamsal Uzaydaki Temsil Yöntemlerinin Sınıflandırma Performansına Etkileri, Sigma, 5, 8-14.
- 4. Polat, H., Körpe, M. 2018. TBMM Genel Kurul Tutanaklarından Yakın Anlamlı Kavramların Çıkarılması. International Journal of Informatics Technologies, 11, 3.
- 5. Sen, M.U., Erdogan, H., 2014. Learning Word Representations for Turkish. In Signal Processing and Communications Applications Conference (SIU), 22nd 1742-1745. IEEE.
- 6. Gözükara, F., Özel, S.A., 2016. Türkçe ve İngilizce Yorumların Duygu Analizinde Doküman Vektörü Hesaplama Yöntemleri için Bir Deneysel İnceleme. Çukurova Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, 31(2), 464-482.
- 7. Güngör, O., Yıldız, E., 2017. Linguistic Features in Turkish Word Representations. In Signal Processing and Communications Applications Conference (SIU), 25th 1-4. IEEE.
- 8. Şahin, G., 2017. Turkish Document Classification Based on Word2Vec and SVM Classifier. In Signal Processing and Communications Applications Conference (SIU), 25th, 1-4. IEEE.
Ayrıntılar
Birincil Dil
Türkçe
Konular
-
Bölüm
Araştırma Makalesi
Yayımlanma Tarihi
30 Haziran 2019
Gönderilme Tarihi
9 Ocak 2019
Kabul Tarihi
28 Haziran 2019
Yayımlandığı Sayı
Yıl 2019 Cilt: 34 Sayı: 2
APA
Aydoğan, M., & Karcı, A. (2019). Kelime Temsil Yöntemleri ile Kelime Benzerliklerinin İncelenmesi. Çukurova Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, 34(2), 181-196. https://doi.org/10.21605/cukurovaummfd.609119
AMA
1.Aydoğan M, Karcı A. Kelime Temsil Yöntemleri ile Kelime Benzerliklerinin İncelenmesi. cukurovaummfd. 2019;34(2):181-196. doi:10.21605/cukurovaummfd.609119
Chicago
Aydoğan, Murat, ve Ali Karcı. 2019. “Kelime Temsil Yöntemleri ile Kelime Benzerliklerinin İncelenmesi”. Çukurova Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi 34 (2): 181-96. https://doi.org/10.21605/cukurovaummfd.609119.
EndNote
Aydoğan M, Karcı A (01 Haziran 2019) Kelime Temsil Yöntemleri ile Kelime Benzerliklerinin İncelenmesi. Çukurova Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi 34 2 181–196.
IEEE
[1]M. Aydoğan ve A. Karcı, “Kelime Temsil Yöntemleri ile Kelime Benzerliklerinin İncelenmesi”, cukurovaummfd, c. 34, sy 2, ss. 181–196, Haz. 2019, doi: 10.21605/cukurovaummfd.609119.
ISNAD
Aydoğan, Murat - Karcı, Ali. “Kelime Temsil Yöntemleri ile Kelime Benzerliklerinin İncelenmesi”. Çukurova Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi 34/2 (01 Haziran 2019): 181-196. https://doi.org/10.21605/cukurovaummfd.609119.
JAMA
1.Aydoğan M, Karcı A. Kelime Temsil Yöntemleri ile Kelime Benzerliklerinin İncelenmesi. cukurovaummfd. 2019;34:181–196.
MLA
Aydoğan, Murat, ve Ali Karcı. “Kelime Temsil Yöntemleri ile Kelime Benzerliklerinin İncelenmesi”. Çukurova Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, c. 34, sy 2, Haziran 2019, ss. 181-96, doi:10.21605/cukurovaummfd.609119.
Vancouver
1.Murat Aydoğan, Ali Karcı. Kelime Temsil Yöntemleri ile Kelime Benzerliklerinin İncelenmesi. cukurovaummfd. 01 Haziran 2019;34(2):181-96. doi:10.21605/cukurovaummfd.609119
Cited By
FastText ve Kelime Çantası Kelime Temsil Yöntemlerinin Turistik Mekanlar İçin Yapılan Türkçe İncelemeler Kullanılarak Karşılaştırılması
European Journal of Science and Technology
https://doi.org/10.31590/ejosat.776629TRSAv1: A new benchmark dataset for classifying user reviews on Turkish e-commerce websites
Journal of Information Science
https://doi.org/10.1177/01655515221074328Siyaset biliminde otomatik metin analizi yöntemleri ve uygulama alanları
Hitit Sosyal Bilimler Dergisi
https://doi.org/10.17218/hititsbd.1260739GloVe Kelime Gömmeleri ve Sinir Ağları ile Haber Metinlerinin Sınıflandırılması
International Journal of Pure and Applied Sciences
https://doi.org/10.29132/ijpas.1265301Effects of robots’ appearance on guest service experiences
Journal of Hospitality Marketing & Management
https://doi.org/10.1080/19368623.2024.2337798A comprehensive analysis of static word embeddings for Turkish
Expert Systems with Applications
https://doi.org/10.1016/j.eswa.2024.124123