Defective expression is a grammatical term that refers to both semantic and morphologic ambiguities in Turkish sentences. In earlier studies, Natural Language Processing (NLP) techniques have been used by constructing rule-based language-specific models. However, despite less demanding annotations requirements and ease of incorporating external knowledge, rule-based systems have some significant obstacles in terms of processing efficiency. Deep learning techniques such as long short-term memory (LSTM) or convolutional neural network (CNN) have made significant advances in recent years, which led to an unprecedented boost in NLP applications in terms of performance. In this study, a hybrid approach of LSTM and CNN (C-LSTM) for detecting defective expressions in addition to traditional machine learning classifiers such as support vector machine (SVM) and random forest (RF) to compare the results in terms of accuracy are proposed. The proposed hybrid approach achieved higher accuracy than the existing deep neural models of CNN and LSTM, in addition to the traditional classifiers of SVM and random forest. This study shows that deep neural approaches come into prominence for text classification compared to traditional classifiers.
Defective Expression Machine Learning NLP Semantic ambiguity Turkish
Anlatım bozukluğu, Türkçe cümlelerde hem anlamsal hem de biçimsel belirsizlikleri ifade eden bir dilbilgisi terimidir. Daha önceki çalışmalarda, kural tabanlı dile özgü modeller oluşturularak Doğal Dil İşleme (DDİ) teknikleri kullanılmıştır. Bununla birlikte, daha az talepkar açıklama gereksinimlerine ve harici bilgiyi birleştirme kolaylığına rağmen, kural tabanlı sistemler, işleme verimliliği açısından bazı büyük engellere sahiptir. Uzun Kısa-Süreli Bellek (UKSB (ing: LSTM)) veya Evrişimsel Sinir Ağları (ESA (ing: CNN)) gibi derin öğrenme teknikleri son yıllarda büyük ilerlemeler kaydetmiş, bu da DDİ uygulamalarında performans açısından benzeri görülmemiş bir artışa yol açmıştır. Bu çalışmada, anlatım bozukluklarını tespit etmek için UKSB ve ESA'nın hibrit modeli olan bir derin öğrenme yaklaşımı (E-UKSB (ing: C-LSTM)) ve buna ek olarak sonuçları doğruluk açısından karşılaştırmak için Destek Vektör Makinesi (DVM (ing: SVM)) ve Rastgele Orman (RO (ing: RF)) gibi geleneksel makine öğrenmesi sınıflandırıcıları önerilmiştir. Önerilen hibrit model, geleneksel DVM ve rastgele orman sınıflandırıcılarına ek olarak, ESA ve UKSB’nin mevcut modellerinden daha yüksek başarım elde etmiştir. Bu durum, metin sınıflandırma için geleneksel sınıflandırıcılara kıyasla derin sinirsel yaklaşımların daha çok ön plana çıktığını göstermektedir.
Anlatım bozukluğu Makine öğrenmesi Doğal dil işleme Anlamsal belirsizlik Türkçe
Birincil Dil | İngilizce |
---|---|
Konular | Mühendislik |
Bölüm | Araştırma Makalesi |
Yazarlar | |
Yayımlanma Tarihi | 19 Eylül 2022 |
Yayımlandığı Sayı | Yıl 2022 |
Dokuz Eylül Üniversitesi, Mühendislik Fakültesi Dekanlığı Tınaztepe Yerleşkesi, Adatepe Mah. Doğuş Cad. No: 207-I / 35390 Buca-İZMİR.