Metin sınıflandırma, metin belgelerinin önceden belirlenmiş sınıf etiketlerinden birine atanmasına yönelik bir doğal dil işleme alanıdır. Metin sınıflandırma, aralarında duygu analizi, konu etiketleme, soru yanıtlama ve diyalog eylemi sınıflandırmanın da yer aldığı birçok doğal dil işleme probleminde kullanılmaktadır. Metin sınıflandırma, haber metinlerinin filtrelenmesi ve organizasyonu, istenmeyen e-posta içeriklerinin filtrelenmesi gibi birçok uygulama alanına sahiptir. Son yıllarda, metin sınıflandırma alanında, derin sinir ağı tabanlı mimariler ve sinirsel dil modelleri sıklıkla kullanılmaktadır. Uzun kısa süreli bellek tabanlı mimariler (LSTM), uzun süreli bağımlılıkları öğrenirken, geleneksel tekrarlayan sinir ağlarında gözlemlenen patlayan ve kaybolan gradyanları azaltmak için geçit mekanizmalarını kullanır. Bu nedenle, LSTM ve türevi mimariler, birçok dizi modelleme görevinde yaygın kullanıma sahiptir. LSTM tabanlı mimarilerde, bellek hücresi temel bilgileri içermesine karşın, geçit mekanizmasını doğrudan etkilemesine izin verilmez. Bu çalışmada, Türkçe duygu analizi için, tekrarlayan sinir ağı, uzun kısa süreli bellek, geçitli tekrarlayan birim, gözetleme deliği tabanlı uzun kısa süreli bellek mimarisi ve çalışan bellek bağlantıları tabanlı uzun kısa süreli bellek mimarisinin başarımı karşılaştırmalı olarak değerlendirilmektedir. Derlemin temsilinde, word2vec, fastText ve GloVe kelime gömme yöntemleri değerlendirilmiştir. Deneysel analizler, çalışan bellek bağlantıları tabanlı uzun kısa süreli bellek mimarisinin Türkçe metin belgeleri üzerinde duygu analizi için, gözetleme deliği tabanlı uzun kısa süreli bellek mimarisi, uzun kısa süreli bellek ve geçitli tekrarlayan birim mimarisine kıyasla daha yüksek doğru sınıflandırma oranı elde ettiğini göstermektedir.
Uzun kısa süreli bellek Metin madenciliği Derin öğrenme Makine öğrenmesi Çalışan bellek bağlantıları.
İzmir Katip Çelebi Üniversitesi
2022-GAP-MÜMF-0030
Bu araştırma, İzmir Kâtip Çelebi Üniversitesi Bilimsel Araştırma Koordinasyon birimi (BAP) tarafından desteklenmiştir (Proje no: 2022-GAP-MÜMF-0030).
Text classification is a natural language processing area for assigning text documents to one of the predetermined class labels. Text classification is used in many natural language processing problems, including sentiment analysis, topic tagging, question answering, and dialogue action classification. It has many applications, such as text classification, filtering and organization of news texts, and filtering of spam e-mail contents. In recent years, deep neural network-based architectures and neural language models have been used frequently in the field of text classification. Long-term memory-based architectures (LSTM) use gate mechanisms to reduce the vanishing and exploding gradients observed in the conventional recurrent neural networks when learning long-term dependencies. Therefore, LSTM and LSTM-based architectures have widespread use in many sequence modeling tasks. In LSTM-based architectures, although the memory cell contains the basic information, it is not allowed to directly affect the gate mechanism. In this study, the performance of recurrent neural network, long short-term memory, gated recurrent unit, peephole-based long-short-term memory architecture and working-memory connections-based long-term memory architecture are comparatively evaluated for Turkish sentiment analysis. In the representation of the corpus, word2vec, fastText and GloVe word embedding methods were evaluated. Experimental analyzes show that working memory connections-based long short-term memory architecture achieves higher classification accuracy for sentiment analysis on Turkish text documents compared to peephole-based long short-term memory architecture, long short-term memory and gated recurrent unit architecture.
Long short-term memory Text mining Deep learning Machine learning Working memory connections.
2022-GAP-MÜMF-0030
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Project Number | 2022-GAP-MÜMF-0030 |
Publication Date | March 31, 2022 |
Published in Issue | Year 2022 |