Text mining is the
process to deriving useful information from unstructured text data. During this
process, text mining uses statistical and mathematical methods. Major text
mining tasks include text categorization, text clustering, concept extraction,
document summarization, semantic similarity and author identification. In this study,
semantic similarity issues have been examined. Semantic similarity analysis
aims to determine semantic similarity between texts. Probabilistic latent
semantic analysis and latent Dirichlet allocation are probabilistic methods to
determine semantic similarity between texts. In this study, semantic analysis
using probabilistic latent semantic analysis and latent Dirichlet allocation
methods is examined. Also, an application which is conducted to analyze
semantic similarity and classify Turkish textual data chosen from different
news agencies is discussed. R statistical programming language and Matlab are
used in the application.
Metin madenciliğinde, yapısal olmayan metin verilerinden matematiksel ve
istatistiksel yöntemler ile anlamlı bilgiler çıkartmak amaçlanır. Metin sınıflama, kümeleme, görüş belirleme,
özetleme, anlamsal benzerlik bulma ve yazar tanıma, başlıca metin madenciliği
çalışma alanlarıdır. Bu çalışmanın konusu olan anlamsal benzerlik analizi,
metinler arasındaki anlamsal yakınlığı belirlemeye çalışır. Olasılıksal gizli anlam analizi ve gizli
Dirichlet ataması, metinler arasındaki anlamsal benzerliğin belirlenmesinde
kullanılan olasılıksal yöntemlerdir. Bu
çalışmada olasılıksal gizli anlam analizi ve gizli Dirichlet ataması ile
anlamsal benzerlik konusu incelenmiş ve farklı haber ajanslarından seçilen
Türkçe metinleri anlamsal benzerliklerine göre sınıflamak için yapılan uygulama
tartışılmıştır. Uygulamada R istatistiksel programlama dili ve Matlab kullanılmıştır.
Subjects | Engineering |
---|---|
Journal Section | Research Articles |
Authors | |
Publication Date | December 28, 2018 |
Submission Date | November 10, 2017 |
Published in Issue | Year 2018 Volume: 3 Issue: 2 |
Articles published in Sinopjns are licensed under CC BY-NC 4.0.