Araştırma Makalesi

Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR

Sayı: 24 21 Eylül 2021
  • Bekir Tahir Tahiroğlu *
PDF İndir
TR EN

Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR

Öz

Madde başı (lemma) bir dildeki sözcüklerin sözlüklerde yer alan standart biçimi olduğu bilinmektedir. Lematizasyon adı verilen süreç ise çekimli sözcüklerin madde başına indirgeme sürecidir. Lematizasyon çeşitli diller için doğal dil işleme (DDİ) araçlarında metinlerin ön işleme aşamasında sözcüklerin farklı yapılarının normal biçimlerine dönüştürülmesinde kullanılmakla birlikte, dilbilimsel açıdan sözcük ailelerinin otomatik oluşturulması ve özellikle sözlüklerin hazırlanmasında büyük kolaylıklar sağlamaktadır. Milyon sözcüklük bir derlemdeki tüm sözcüklerin madde başı biçimlerine otomatik ve doğru biçimde indirgenmesi hem zaman hem de emek yoğun işlemlerin verimli olarak yapılmasını sağlamaktadır. Lematizasyon işlemi, sözcüklerin kullanım sıklığına bağlı çözümlemelerde de çekimli biçimlerin ayrı sayımından kaynaklanan zaman kaybını da gidererek ilgilenilen metnin veya derlemin anahtar kavramlarını çok kısa sürede ortaya çıkarmaktadır. Bu çalışmada, genel olarak lematizasyon üzerinde durulmuş ve Türkçe için bağlam duyarlı olarak hazırlanan ve elemanTR adı verilen bir lematizasyon uygulama modeli tanıtılmıştır. Türkçe 184 adet roman ve hikaye metinlerinden hazırlanan yaklaşık 1 milyon 200 bin cümleyle makine öğrenmesiyle eğitilen modelde elde edilen başarım test verilerinde %99, 01 olarak bulunmuştur. Elde edilen bu başarım oranının eğitim verisine yeni eklenecek verilerle sürdürülebilir bir yapıya kavuşturularak genel bir Türkçe lematizasyon uygulamasının ileri çalışmalar için ön ayak olacağı düşünülmektedir. Otomatik söz türü belirleme, sözdizimsel çözümleme ve yeni sözcüklerin otomatik belirlenmesinde de eğitilen modelin yararlı olacağı ön görülmektedir.

Anahtar Kelimeler

Kaynakça

  1. Alpaydın, E. (2011). Yapay Öğrenme (1. basım). Boğaziçi Üniversitesi.
  2. Arslan, E., ve Orhan, U. (2016). Graph-based lemmatization of turkish words by using morphological similarity. In 2016 ınternational symposium on ınnovations in ıntelligent systems and applications (ınısta). IEEE. https://doi.org/10.1109/inista.2016.7571835
  3. Bergmanis, T., ve Goldwater, S. Context sensitive neural lemmatization with lematus. In M. Walker, H. Ji, & A. Stent (Eds.), Proceedings of the 2018 conference of the north American chapter of (pp. 1391–1400). Association for Computational Linguistics. https://doi.org/10.18653/v1/N18-1126
  4. Mikolov, T., Chen, K., Corrado, G., ve Dean, J. (2013, January 16). Efficient Estimation of Word Representations in Vector Space. https://arxiv.org/pdf/1301.3781
  5. Müller, T., Cotterel, R., Fraser A. ve Schütze, H. (2015). Joint Lemmatization And Morphological Tagging With Lemming. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics.
  6. Öztürkmenoğlu, O., ve Alpkoçak, A. (2012). Comparison of different lemmatization approaches for information retrieval on turkish text collection. In 2012 ınternational symposium on ınnovations in ıntelligent systems and applications. IEEE. https://doi.org/10.1109/inista.2012.6246934
  7. Özkan, Y. (2021). Uygulamalı Derin Öğrenme. Papatya.

Ayrıntılar

Birincil Dil

Türkçe

Konular

Dilbilim

Bölüm

Araştırma Makalesi

Yazarlar

Bekir Tahir Tahiroğlu * Bu kişi benim
0000-0002-7956-3257
Türkiye

Yayımlanma Tarihi

21 Eylül 2021

Gönderilme Tarihi

16 Ağustos 2021

Kabul Tarihi

20 Eylül 2021

Yayımlandığı Sayı

Yıl 2021 Sayı: 24

Kaynak Göster

APA
Tahiroğlu, B. T. (2021). Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR. RumeliDE Dil ve Edebiyat Araştırmaları Dergisi, 24, 475-486. https://doi.org/10.29000/rumelide.995343

Cited By