Language detection, one of the most important elements used in natural language processing, is used extensively in various applications such as machine translation, sentiment analysis, and information retrieval. Thanks to language detection, communication between people in many different countries is possible. In addition, human-animal interaction can also be carried out in this area. In this paper, a novel Bidirectional Long Short-Term Memory model with Multi-Head Attention mechanism is proposed to accurately classify text into 17 languages, namely Arabic, Danish, Dutch, English, French, German, Greek, Hindi, Italian, Kannada, Malayalam, Portuguese, Russian, Spanish, Swedish, Tamil, and Turkish. A publicly available dataset consisting of 10,337 texts written in the above-mentioned languages is utilized to train and evaluate the proposed model. The proposed novel model achieved an extraordinary accuracy, precision, recall, and F1-score of 99.9%, outperforming the state-of-the-art baseline models. In particular, the proposed model demonstrated perfect precision (100%) for 15 languages, namely Arabic, Dutch, English, French, German, Greek, Hindi, Italian, Kannada, Malayalam, Portuguese, Russian, Swedish, Tamil, and Turkish. This research highlights the effectiveness of deep learning techniques in language detection, providing promising avenues for further advances in the field of multilingual text processing.
language detection language classification translation deep learning long short-term memory
Doğal dil işleme alanında kullanılan en önemli unsurlardan biri olan dil tespiti, makine çevirisi, duygu analizi ve bilgi erişimi gibi çeşitli uygulamalarda yaygın olarak kullanılmaktadır. Dil tespiti sayesinde, birçok farklı ülkedeki insanlar arasındaki iletişim mümkün hale gelmektedir. Ayrıca, insan-hayvan etkileşimi de bu alanda gerçekleştirilebilmektedir. Bu çalışmada, metinleri 17 farklı dile, ismen Arapça, Danca, Felemenkçe, İngilizce, Fransızca, Almanca, Yunanca, Hintçe, İtalyanca, Kannada, Malayalamca, Portekizce, Rusça, İspanyolca, İsveççe, Tamilce ve Türkçe, doğru bir şekilde sınıflandırmak için Çok-Başlı Dikkat mekanizmasına sahip özgün bir Çift Yönlü Uzun Kısa-Süreli Hafıza modeli önerilmektedir. Önerilen modelin eğitimi ve değerlendirilmesi için yukarıda belirtilen dillerde yazılmış 10.337 metinden oluşan, halka açık bir veriseti kullanılmıştır. Önerilen özgün model, en gelişkin temel referans modelleri geride bırakarak %99,9 gibi yüksek bir doğruluk, kesinlik, duyarlılık ve F1-skoru elde etmiştir. Özellikle, önerilen model 15 dil, ismen Arapça, Kannada, Tamilce, İsveççe, Rusça, Portekizce, Malayalamca, İtalyanca, Hintçe, Yunanca, Almanca, Fransızca, İngilizce, Felemenkçe ve Türkçe için mükemmel bir kesinlik (100%) elde etmiştir. Bu araştırma, dil tespitinde derin öğrenme tekniklerinin etkinliğini vurgulayarak, çok dilli metin işleme alanında daha fazla ilerleme için umut verici yollar sunmaktadır.
dil tespiti dil sınıflandırma tercüme derin öğrenme uzun kısa-süreli hafıza
| Birincil Dil | Türkçe |
|---|---|
| Konular | Derin Öğrenme, Nöral Ağlar |
| Bölüm | Araştırma Makalesi |
| Yazarlar | |
| Gönderilme Tarihi | 4 Eylül 2024 |
| Kabul Tarihi | 8 Mart 2025 |
| Erken Görünüm Tarihi | 8 Ağustos 2025 |
| Yayımlanma Tarihi | 21 Ağustos 2025 |
| DOI | https://doi.org/10.17341/gazimmfd.1543854 |
| IZ | https://izlik.org/JA27TF65TW |
| Yayımlandığı Sayı | Yıl 2025 Cilt: 40 Sayı: 3 |