In proportion to the increase in data size, the analysis of connections between variables has become more complex. In unstructured datasets, analysis processes would become even more complex with transformation preprocessing to structural form. Due to the nature of natural speaking language, even an ordinary document contains hundreds of different terms. This situation extends the processes of data extraction and transformation. The data used in this study consists of comments written by real persons during and after online shopping, called e-commerce. On e-commerce platforms, which are an alternative shopping method, consumers can simultaneously examine many different options of a product / servic. In this way, consumers can easily express their experiences / thoughts about the product / service they have purchased, and have the opportunity to access other consumers' comments. This situation creates an continously-growing source of text data. The continuous increasing in data size increases the difficulty in data analysis at the same rate. One of the most popular data size reduction methods in text mining (MM) studies, Singular Value Decomposition (SVD) is used to overcome the size problem. In this study, the classification-based polarity method is used in the process of creating a composite variable. The composite variable is formed by mathematically combining all words and phrases in the document. Therefore, the relevant variable also provides a data size reduction function. Data size reduction performances of the SVD and the composite variable are compared. Generalized Linear Model (GLM) is used as the modeling method. The performances of the models are evaluated with 5-fold-cross-validation method. GLM models are created by using TDA scores and composite variables. The results show that the composite variable outperformed the SVD scores on average by about 6% in the all 5-layers. This approach will make a significant contribution in facilitating the data analysis process of MM and increasing its accuracy performance.
Veri boyutunun artmasıyla orantılı olarak değişkenler arası bağlantıların analizi daha karmaşık bir hale gelmiştir. Yapısal olmayan veri kümelerinde, yapısal forma dönüştürme ön işlemleriyle birlikte, analiz süreçleri daha karmaşık hale gelecektir. Konuşma dilinin doğası gereği, sıradan bir doküman dahi yüzlerce farklı terim içermektedir. Bu durum veri çıkarımı ve verinin yapısal forma dönüştürme süreçlerini oldukça uzatmaktadır. Bu çalışmada kullanılan veri, E-ticaret olarak adlandırılan, çevrimiçi alışveriş işlemleri sırasında ve sonrasında, gerçek kişiler tarafından yazılan yorumlardan oluşmaktadır. Alternatif bir alışveriş yöntemi olan e-ticaret platformlarında, tüketiciler istedikleri ürüne/hizmete ait birçok farklı seçeneği eşzamanlı inceleyebilmektedir. Tüketiciler bu sayede almış oldukları ürünle/hizmetle alakalı tecrübelerini/düşüncelerini kolayca ifade edebilirken, diğer tüketicilerin yorumlarına ulaşma fırsatını da bulabilmektedir. Bu durum metin veri açısından, sürekli büyüyen bir kaynak oluşturmaktadır. Veri boyutunun sürekli olarak artması, veri analizindeki zorluğu da aynı oranda arttırmaktadır. Boyut problemini aşmak için metin madenciliği (MM) çalışmalarında oldukça popüler olan veri boyutu indirgeme yöntemlerinden biri, Tekil Değer Ayrışımı (TDA) kullanılmaktadır. Bu çalışmada, sınıflandırmaya dayalı polarite yöntemi, kompozit (bileşik) bir değişken oluşturma sürecinde kullanılmaktadır. Oluşturulan kompozit değişken, veri içinde yer alan tüm kelime ve kelime gruplarının matematiksel olarak bir araya getirilmesiyle oluşmaktadır. Dolayısıyla ilgili değişken bir veri boyutu indirgeme fonksiyonu da sağlamaktadır. TDA ve kompozit değişkenin, veri boyutu indirgeme performansları kıyaslanmaktadır. Modelleme yöntemi olarak, Genelleştirilmiş Lineer Model (GLM) kullanılmaktadır. Modellerin performansları 5-katmanlı-çapraz-doğrulama yöntemiyle değerlendirilmektedir. TDA skorları ve kompozit değişken kullanılarak GLM modelleri oluşturulmaktadır. Sonuçlar, 5-katmanın tamamında kompozit değişkenin TDA skorlarından ortalama %6 civarında daha iyi performans sağladığını göstermektedir. Bu yaklaşım, MM’nin veri analizi sürecini kolaylaştırmada ve doğruluk performansını arttırmada önemli bir katkı sağlayacaktır.
Primary Language | Turkish |
---|---|
Subjects | Artificial Intelligence |
Journal Section | Research Articles |
Authors | |
Publication Date | March 24, 2021 |
Submission Date | September 28, 2020 |
Published in Issue | Year 2021 Volume: 4 Issue: 1 |
Journal
of Intelligent Systems: Theory and Applications