Natural Language Processing (NLP) has become a cornerstone in various fields, revolutionizing how machines interpret and process human language. Among its diverse applications, next-word prediction emerges as a highly practical and impactful example of generative AI. This research focuses on the use of Long Short-Term Memory (LSTM) models—an innovative class of Recurrent Neural Network (RNN)—for predictive text generation. LSTMs excel in capturing sequential and contextual information, making them ideal for language tasks. While transformer models dominate accuracy benchmarks, this work addresses the critical need for efficient alternatives in resource-constrained deployment scenarios. This study presents a novel LSTM-based framework enhanced with hybrid architecture and advanced regularization techniques, trained on a carefully curated dataset of 15,000 English sentences. The proposed model achieves superior performance with 84.2% training accuracy, 79.6% test accuracy, and a perplexity score of 2.41, significantly outperforming traditional approaches. The methodology addresses overfitting through dropout regularization, batch normalization, and adaptive learning rate strategies while effectively capturing long-term contextual dependencies. This research contributes to the advancement of neural language modeling by providing a robust framework that bridges the gap between computational efficiency and prediction accuracy in real-world NLP applications.
Doğal Dil İşleme (NLP), makinelerin insan dilini yorumlama ve işleme biçimini kökten değiştirerek birçok alanda temel bir unsur haline gelmiştir. NLP'nin çeşitli uygulamaları arasında, bir sonraki kelimeyi tahmin etme işlevi, üretici yapay zekânın son derece pratik ve etkili bir örneği olarak öne çıkmaktadır. Bu araştırma, metin üretimi için öngörücü bir model olarak Uzun Kısa Süreli Bellek (LSTM) modellerinin kullanımına odaklanmaktadır. LSTM'ler, sıralı ve bağlamsal bilgileri yakalama konusundaki üstünlükleriyle, dil görevleri için ideal olan Yenileyici Sinir Ağları (RNN) sınıfının yenilikçi bir türüdür. Transformer modelleri doğruluk kıyaslamalarında öne çıksa da, bu çalışma kaynakların kısıtlı olduğu dağıtım senaryolarında verimli alternatiflere duyulan kritik ihtiyacı ele almaktadır. .Bu çalışmada, 15,000 İngilizce cümle içeren özel olarak hazırlanmış bir veri seti kullanılarak, hibrit mimari ve gelişmiş regülarizasyon teknikleri ile donatılmış LSTM tabanlı bir model geliştirilmiştir. Model, %84.2 eğitim doğruluğu, %79.6 test doğruluğu ve 2.41 perplexity değeri elde ederek, geleneksel yaklaşımlardan önemli ölçüde üstün performans sergilemiştir. Önerilen yöntem, dropout regularization, batch normalization ve adaptif öğrenme oranı stratejileri kullanarak aşırı öğrenme problemini çözmekte ve uzun bağlamsal bağımlılıkları etkili bir şekilde yakalamaktır.
| Primary Language | English |
|---|---|
| Subjects | Data Communications |
| Journal Section | Research Article |
| Authors | |
| Submission Date | March 27, 2025 |
| Acceptance Date | July 4, 2025 |
| Publication Date | January 27, 2026 |
| Published in Issue | Year 2026 Volume: 28 Issue: 82 |
This journal is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0).