Türkçe Metin Madenciliği için Dikkat Mekanizması Tabanlı Derin Öğrenme Mimarilerinin Değerlendirilmesi

Son yıllarda, hesaplama maliyetlerindeki düşüşler ve veri hacmindeki artışlar ile, büyük veri üzerinde etkin öğrenme modelleri oluşturmaya yönelik derin sinir ağı modelleri alanında önemli başarımlar elde edilmeye başlanmıştır. Derin sinir ağı mimarileri, duygu analizi, metin sınıflandırma, makine çevirisi gibi doğal dil işleme problemlerinin yanı sıra, konuşma tanıma, bilgisayarla görme gibi birçok alanda başarıyla uygulanmaktadır. Metin sınıflandırma problemlerinde, tekrarlayan sinir ağları, uzun kısa süreli bellek mimarisi ve geçitli tekrarlayan birim gibi mimariler etkin bir biçimde kullanılmaktadır. Tekrarlayan sinir ağları (RNN), uzun süreli bağımlılıkları öğrenirken verimli değildir. Bu mimaride, belirteçler sırayla işlenir ve her belirteçten sonra görülen verileri temsil eden bir durum vektörü elde edilir. RNN tabanlı mimariler, kaybolan gradyan sorunu nedeniyle, uzun tümcelerin sonundaki durumun genellikle erken gözlemlenen belirteçlere ilişkin bilgi içermemesi sorununa neden olur. Dikkat mekanizması, bir modelin tümcedeki daha önceki bir noktanın durumuna doğrudan bakmasını ve bundan yararlanabilmesini olanaklı kılar. Böylelikle, tüm durumlara erişilebilir ve mevcut belirteçle öğrenilmiş bazı ilgi ölçütlerine göre, çok uzaktaki ilgili belirteçler hakkında daha net bilgi sağlanarak, daha etkin bir metin modelleme gerçekleştirilebilir. Dikkat mekanizması, makine çevirisi, metin özetleme başta olmak üzere birçok doğal dil işleme görevinde başarıyla uygulanmaktadır. Bu çalışmada, Türkçe duygu analizi için dikkat mekanizması tabanlı derin öğrenme mimarilerinin başarımları karşılaştırmalı olarak incelenmektedir. Deneysel analizlerde, tekrarlayan sinir ağı, uzun kısa süreli bellek mimarisi (LSTM), geçitli tekrarlayan birim mimarisi (GRU), küresel dikkat mekanizması tabanlı LSTM, kendine dikkat mekanizması tabanlı LSTM, hiyerarşik dikkat mekanizması tabanlı LSTM, küresel dikkat mekanizması tabanlı GRU, kendine dikkat mekanizması tabanlı GRU ve hiyerarşik dikkat mekanizması tabanlı GRU değerlendirilmiştir. Dikkat mekanizması tabanlı mimarilerin, duygu analizi için doğru sınıflandırma oranını önemli ölçüde artırdığı gözlenmektedir.

Destekleyen Kurum

İzmir Katip Çelebi Üniversitesi

Bu araştırma, İzmir Kâtip Çelebi Üniversitesi Bilimsel Araştırma Koordinasyon birimi (BAP) tarafından desteklenmiştir (Proje no: 2022-GAP-MÜMF-0030).


Evaluation of Attention Mechanism-Based Deep Learning Architectures for Turkish Text Mining

In recent years, with the decrease in computational costs and the increase in data volume, significant achievements have been done in the field of deep neural network models for constructing effective learning models on big data. Deep neural network architectures have been successfully applied in many fields such as speech recognition, computer vision, as well as natural language processing problems such as sentiment analysis, text classification, and machine translation. In text classification problems, architectures such as recurrent neural networks, long-short-term memory architecture and gated recurrent unit are effectively used. Recurrent neural networks (RNN) are not efficient when learning long-term dependencies. In this architecture, tokens are processed sequentially, resulting in a state vector representing the data seen after each token. RNN-based architectures suffer from the problem that the state at the end of long sentences often does not contain information about early observed markers, due to the vanishing gradient problem. The attention mechanism makes it possible for a model to look directly at the state of an earlier point in the sentence and take advantage of it. Thus, all cases can be accessed and a more effective text modeling can be performed by providing clearer information about very distant related markers, according to some criteria of relevance learned with the current marker. The attention mechanism has been successfully applied in many natural language processing tasks, especially machine translation and text summarization. In this study, the performances of attention mechanism-based deep learning architectures for Turkish sentiment analysis are comparatively examined. In experimental analysis, recurrent neural network, long short-term memory architecture (LSTM), gated recurrent unit architecture (GRU), global attention mechanism-based LSTM, self-attention mechanism-based LSTM, hierarchical attention mechanism-based LSTM, global attention mechanism-based GRU, self-attention mechanism-based GRU and hierarchical attention mechanism-based GRU were evaluated. Attention mechanism-based architectures are observed to significantly increase the rate of correct classification for sentiment analysis.

