Natural language processing (NLP) has made significant progress with the introduction of Transformer-based architectures that have revolutionized tasks such as question-answering (QA). While English is a primary focus of NLP research due to its high resource datasets, low-resource languages such as Turkish present unique challenges such as linguistic complexity and limited data availability. This study evaluates the performance of Transformer-based pre-trained language models on QA tasks and provides insights into their strengths and limitations for future improvements. In the study, using the SQuAD-TR dataset, which is the machine-translated Turkish version of the SQuAD 2.0 dataset, variations of the mBERT, BERTurk, ConvBERTurk, DistilBERTurk, and ELECTRA Turkish pre-trained models were fine-tuned. The performance of these fine-tuned models was tested using the XQuAD-TR dataset. The models were evaluated using Exact Match (EM) Rate and F1 Score metrics. Among the tested models, the ConvBERTurk Base (cased) model performed the best, achieving an EM Rate of 57.81512% and an F1 Score of 71.58769%. In contrast, the DistilBERTurk Base (cased) and ELECTRA TR Small (cased) models performed poorly due to their smaller size and fewer parameters. The results indicate that case-sensitive models generally perform better than case-insensitive models. The ability of case-sensitive models to discriminate proper names and abbreviations more effectively improved their performance. Moreover, models specifically adapted for Turkish performed better on QA tasks compared to the multilingual mBERT model.
Doğal dil işleme (NLP), soru cevaplama (QA) gibi görevlerde devrim yaratan Transformer tabanlı mimarilerin kullanılmaya başlanmasıyla önemli bir ilerleme kaydetmiştir. İngilizce, yüksek kaynaklı veri setleri nedeniyle NLP araştırmalarının odak noktası olsa da, Türkçe gibi düşük kaynaklı diller, dilbilimsel karmaşıklık ve sınırlı veri kullanılabilirliği gibi benzersiz zorluklar sunmaktadır. Bu çalışma, Transformer tabanlı önceden eğitilmiş dil modellerinin QA görevleri üzerindeki performansını değerlendirmekte ve gelecekteki iyileştirmeler için güçlü yönleri ve sınırlamaları hakkında öngörüler sağlamaktadır. Çalışmada, SQuAD 2.0 veri kümesinin makine çevirisi yapılmış Türkçe versiyonu olan SQuAD-TR veri kümesi kullanılarak mBERT, BERTurk, ConvBERTurk, DistilBERTurk ve ELECTRA Türkçe ön eğitimli modellerin varyasyonlarına ince ayar yapılmıştır. Bu ince ayarlı modellerin performansı XQuAD-TR veri kümesi kullanılarak test edilmiştir. Modeller Tam Eşleşme (EM) Oranı ve F1 Puanı metrikleri kullanılarak değerlendirilmiştir. Test edilen modeller arasında ConvBERTurk Base (cased) modeli %57,81512 EM Oranı ve %71,58769 F1 Puanı elde ederek en iyi performansı göstermiştir. Buna karşılık, DistilBERTurk Base (cased) ve ELECTRA TR Small (cased) modelleri, daha küçük boyutları ve daha az parametreleri nedeniyle kötü performans göstermiştir. Sonuçlar, büyük/küçük harfe duyarlı modellerin genellikle büyük/küçük harfe duyarsız modellerden daha iyi performans gösterdiğini ortaya koymaktadır. Büyük/küçük harfe duyarlı modellerin özel isimleri ve kısaltmaları daha etkili bir şekilde ayırt edebilmesi performanslarını artırmıştır. Ayrıca, Türkçe için özel olarak uyarlanmış modeller, çok dilli mBERT modeline kıyasla QA görevlerinde daha iyi performans göstermiştir.
Primary Language | English |
---|---|
Subjects | Information Systems Development Methodologies and Practice |
Journal Section | Research Articles |
Authors | |
Publication Date | |
Submission Date | December 5, 2024 |
Acceptance Date | January 15, 2025 |
Published in Issue | Year 2025 Volume: 8 Issue: 2 |