Research Article
BibTex RIS Cite

Text Mining and Data Dimesion Reduction Approach on Consumer Comments

Year 2021, Volume: 4 Issue: 1, 8 - 16, 24.03.2021
https://doi.org/10.38016/jista.801300

Abstract

In proportion to the increase in data size, the analysis of connections between variables has become more complex. In unstructured datasets, analysis processes would become even more complex with transformation preprocessing to structural form. Due to the nature of natural speaking language, even an ordinary document contains hundreds of different terms. This situation extends the processes of data extraction and transformation. The data used in this study consists of comments written by real persons during and after online shopping, called e-commerce. On e-commerce platforms, which are an alternative shopping method, consumers can simultaneously examine many different options of a product / servic. In this way, consumers can easily express their experiences / thoughts about the product / service they have purchased, and have the opportunity to access other consumers' comments. This situation creates an continously-growing source of text data. The continuous increasing in data size increases the difficulty in data analysis at the same rate. One of the most popular data size reduction methods in text mining (MM) studies, Singular Value Decomposition (SVD) is used to overcome the size problem. In this study, the classification-based polarity method is used in the process of creating a composite variable. The composite variable is formed by mathematically combining all words and phrases in the document. Therefore, the relevant variable also provides a data size reduction function. Data size reduction performances of the SVD and the composite variable are compared. Generalized Linear Model (GLM) is used as the modeling method. The performances of the models are evaluated with 5-fold-cross-validation method. GLM models are created by using TDA scores and composite variables. The results show that the composite variable outperformed the SVD scores on average by about 6% in the all 5-layers. This approach will make a significant contribution in facilitating the data analysis process of MM and increasing its accuracy performance.

References

  • Al-Otaibi, S., Alnassar, A., Alshahrani, A., Al-Mubarak, A., Albugami, S., Almutiri, N., Albugami, A., 2018. Customer Satisfaction Measurement Using Sentiment Analysis, International Journal of Advanced ComputerScienceand Applications (IJACSA), Vol.9, No.2.
  • Arunachalam, N., Sneka S. J., Mathi, G. M., 2017. A Survey On Text Classification Techniques For Sentiment Polarity Detection, Innovations in Powerand Advanced Computing Technologies (i-PACT), 1-5. 10.1109/IPACT.2017.8245127.
  • Boling, C., Das K., 2015. Reducing Dimensionality of Text Documents Using Latent Semantic Analysis, International Journal of Computer Applications (0975 – 8887), Vol.112, No.5.
  • Levy, R., 2012. Probabilistic Models in the Study of Language , ch. 6, pp: 107-108.
  • Pajupuu, H., Altrov, R., Pajupuu, J., 2016. Identifying Polarity in Different Text Types, pp 126-138, oi.org/10.7592/FEJF2016.64.polarity.
  • Pipino, L. L., Lee, Y. W., Wang, R. Y., 2002. Data Quality Assessment, Communications Of The ACM, Vol.45.
  • Rajalakshmi, Narayanan, M., Ramkumar, M., 2015. An Exclusive Study on Unstructured Data Mining with Big Data, International Journal of Applied Engineering Research, Vol.10, No.4, pp.3875-3886.
  • Singh, V. K., Piryani, R., Waila, P., Devaraj, M., 2014. Computing Sentiment Polarity of Texts at Document and Aspect Levels, ECTI transactions on computer and information technology, Vol.8, No.1.
  • Tian, Y.,Stewart, C., 2008. History of E-Commerce, DOI:10.4018/978-1-59904-943-4, ch001.
  • Tomar, D. S., Sharma, P., 2016. A Text Polarity Analysis Using Sentiwordnet Based an Algorithm, International Journal of ComputerScienceand Information Technologies (IJCSIT), pp. 190-193, Vol.7.
  • Varghese, N., Verghese, V., Gayathri, P., Jaisankar, N., 2012. A Survey Of Dimensionality Reduction And Classification Methods, International Journal of Computer Science & Engineering Survey (IJCSES) Vol.3, No.3.
  • Yom-Tov, G. B., Ashtar, S., Altman, D., Natapov, M., Barkay, N., Westphal, M., Rafaeli, A., 2018. Customer Sentiment in Web-Based Service Interactions: Automated Analyses and New Insights, International World Wide Web Conference Committee (IW3C2), Creative Commons CC BY 4.0 License.
  • Yucel, A., 2016. Predictive Text Analytics And Text Classification Algorithms, A dissertation submitted to the Graduate Faculty of Auburn University, pp 19.
  • Zhao, S., Xu Z., Liu L., Guo M., Yun, J., 2018. Towards Accurate Deceptive Opinions Detection Based on Word Order-Preserving CNN, Mathematical Problems in Engineering, Article ID 2410206, Vol. 2018.
  • Zhenxiang, W., Lijie, Z., 2011. Case Study of Online Retailing Fast Fashion Industry, International Journal of e-Education, e-Business, e-Management and e-Learning, Vol.1, No.3.
  • Zubrinic, K., Milicevic, M., Sjekavica, T., 2018. Obradovic, I., A Comparison of Machine Learning Algorithms in Opinion Polarity Classification of Customer Reviews, International Journal of Computers, Vol.3.

Tüketici Yorumları Üzerine Bir Metin Madenciliği ve Veri Boyutu İndirgeme Yaklaşımı

Year 2021, Volume: 4 Issue: 1, 8 - 16, 24.03.2021
https://doi.org/10.38016/jista.801300

Abstract

Veri boyutunun artmasıyla orantılı olarak değişkenler arası bağlantıların analizi daha karmaşık bir hale gelmiştir. Yapısal olmayan veri kümelerinde, yapısal forma dönüştürme ön işlemleriyle birlikte, analiz süreçleri daha karmaşık hale gelecektir. Konuşma dilinin doğası gereği, sıradan bir doküman dahi yüzlerce farklı terim içermektedir. Bu durum veri çıkarımı ve verinin yapısal forma dönüştürme süreçlerini oldukça uzatmaktadır. Bu çalışmada kullanılan veri, E-ticaret olarak adlandırılan, çevrimiçi alışveriş işlemleri sırasında ve sonrasında, gerçek kişiler tarafından yazılan yorumlardan oluşmaktadır. Alternatif bir alışveriş yöntemi olan e-ticaret platformlarında, tüketiciler istedikleri ürüne/hizmete ait birçok farklı seçeneği eşzamanlı inceleyebilmektedir. Tüketiciler bu sayede almış oldukları ürünle/hizmetle alakalı tecrübelerini/düşüncelerini kolayca ifade edebilirken, diğer tüketicilerin yorumlarına ulaşma fırsatını da bulabilmektedir. Bu durum metin veri açısından, sürekli büyüyen bir kaynak oluşturmaktadır. Veri boyutunun sürekli olarak artması, veri analizindeki zorluğu da aynı oranda arttırmaktadır. Boyut problemini aşmak için metin madenciliği (MM) çalışmalarında oldukça popüler olan veri boyutu indirgeme yöntemlerinden biri, Tekil Değer Ayrışımı (TDA) kullanılmaktadır. Bu çalışmada, sınıflandırmaya dayalı polarite yöntemi, kompozit (bileşik) bir değişken oluşturma sürecinde kullanılmaktadır. Oluşturulan kompozit değişken, veri içinde yer alan tüm kelime ve kelime gruplarının matematiksel olarak bir araya getirilmesiyle oluşmaktadır. Dolayısıyla ilgili değişken bir veri boyutu indirgeme fonksiyonu da sağlamaktadır. TDA ve kompozit değişkenin, veri boyutu indirgeme performansları kıyaslanmaktadır. Modelleme yöntemi olarak, Genelleştirilmiş Lineer Model (GLM) kullanılmaktadır. Modellerin performansları 5-katmanlı-çapraz-doğrulama yöntemiyle değerlendirilmektedir. TDA skorları ve kompozit değişken kullanılarak GLM modelleri oluşturulmaktadır. Sonuçlar, 5-katmanın tamamında kompozit değişkenin TDA skorlarından ortalama %6 civarında daha iyi performans sağladığını göstermektedir. Bu yaklaşım, MM’nin veri analizi sürecini kolaylaştırmada ve doğruluk performansını arttırmada önemli bir katkı sağlayacaktır.

References

  • Al-Otaibi, S., Alnassar, A., Alshahrani, A., Al-Mubarak, A., Albugami, S., Almutiri, N., Albugami, A., 2018. Customer Satisfaction Measurement Using Sentiment Analysis, International Journal of Advanced ComputerScienceand Applications (IJACSA), Vol.9, No.2.
  • Arunachalam, N., Sneka S. J., Mathi, G. M., 2017. A Survey On Text Classification Techniques For Sentiment Polarity Detection, Innovations in Powerand Advanced Computing Technologies (i-PACT), 1-5. 10.1109/IPACT.2017.8245127.
  • Boling, C., Das K., 2015. Reducing Dimensionality of Text Documents Using Latent Semantic Analysis, International Journal of Computer Applications (0975 – 8887), Vol.112, No.5.
  • Levy, R., 2012. Probabilistic Models in the Study of Language , ch. 6, pp: 107-108.
  • Pajupuu, H., Altrov, R., Pajupuu, J., 2016. Identifying Polarity in Different Text Types, pp 126-138, oi.org/10.7592/FEJF2016.64.polarity.
  • Pipino, L. L., Lee, Y. W., Wang, R. Y., 2002. Data Quality Assessment, Communications Of The ACM, Vol.45.
  • Rajalakshmi, Narayanan, M., Ramkumar, M., 2015. An Exclusive Study on Unstructured Data Mining with Big Data, International Journal of Applied Engineering Research, Vol.10, No.4, pp.3875-3886.
  • Singh, V. K., Piryani, R., Waila, P., Devaraj, M., 2014. Computing Sentiment Polarity of Texts at Document and Aspect Levels, ECTI transactions on computer and information technology, Vol.8, No.1.
  • Tian, Y.,Stewart, C., 2008. History of E-Commerce, DOI:10.4018/978-1-59904-943-4, ch001.
  • Tomar, D. S., Sharma, P., 2016. A Text Polarity Analysis Using Sentiwordnet Based an Algorithm, International Journal of ComputerScienceand Information Technologies (IJCSIT), pp. 190-193, Vol.7.
  • Varghese, N., Verghese, V., Gayathri, P., Jaisankar, N., 2012. A Survey Of Dimensionality Reduction And Classification Methods, International Journal of Computer Science & Engineering Survey (IJCSES) Vol.3, No.3.
  • Yom-Tov, G. B., Ashtar, S., Altman, D., Natapov, M., Barkay, N., Westphal, M., Rafaeli, A., 2018. Customer Sentiment in Web-Based Service Interactions: Automated Analyses and New Insights, International World Wide Web Conference Committee (IW3C2), Creative Commons CC BY 4.0 License.
  • Yucel, A., 2016. Predictive Text Analytics And Text Classification Algorithms, A dissertation submitted to the Graduate Faculty of Auburn University, pp 19.
  • Zhao, S., Xu Z., Liu L., Guo M., Yun, J., 2018. Towards Accurate Deceptive Opinions Detection Based on Word Order-Preserving CNN, Mathematical Problems in Engineering, Article ID 2410206, Vol. 2018.
  • Zhenxiang, W., Lijie, Z., 2011. Case Study of Online Retailing Fast Fashion Industry, International Journal of e-Education, e-Business, e-Management and e-Learning, Vol.1, No.3.
  • Zubrinic, K., Milicevic, M., Sjekavica, T., 2018. Obradovic, I., A Comparison of Machine Learning Algorithms in Opinion Polarity Classification of Customer Reviews, International Journal of Computers, Vol.3.
There are 16 citations in total.

Details

Primary Language Turkish
Subjects Artificial Intelligence
Journal Section Research Articles
Authors

Ahmet Yücel 0000-0002-2364-9449

Publication Date March 24, 2021
Submission Date September 28, 2020
Published in Issue Year 2021 Volume: 4 Issue: 1

Cite

APA Yücel, A. (2021). Tüketici Yorumları Üzerine Bir Metin Madenciliği ve Veri Boyutu İndirgeme Yaklaşımı. Journal of Intelligent Systems: Theory and Applications, 4(1), 8-16. https://doi.org/10.38016/jista.801300
AMA Yücel A. Tüketici Yorumları Üzerine Bir Metin Madenciliği ve Veri Boyutu İndirgeme Yaklaşımı. JISTA. March 2021;4(1):8-16. doi:10.38016/jista.801300
Chicago Yücel, Ahmet. “Tüketici Yorumları Üzerine Bir Metin Madenciliği Ve Veri Boyutu İndirgeme Yaklaşımı”. Journal of Intelligent Systems: Theory and Applications 4, no. 1 (March 2021): 8-16. https://doi.org/10.38016/jista.801300.
EndNote Yücel A (March 1, 2021) Tüketici Yorumları Üzerine Bir Metin Madenciliği ve Veri Boyutu İndirgeme Yaklaşımı. Journal of Intelligent Systems: Theory and Applications 4 1 8–16.
IEEE A. Yücel, “Tüketici Yorumları Üzerine Bir Metin Madenciliği ve Veri Boyutu İndirgeme Yaklaşımı”, JISTA, vol. 4, no. 1, pp. 8–16, 2021, doi: 10.38016/jista.801300.
ISNAD Yücel, Ahmet. “Tüketici Yorumları Üzerine Bir Metin Madenciliği Ve Veri Boyutu İndirgeme Yaklaşımı”. Journal of Intelligent Systems: Theory and Applications 4/1 (March 2021), 8-16. https://doi.org/10.38016/jista.801300.
JAMA Yücel A. Tüketici Yorumları Üzerine Bir Metin Madenciliği ve Veri Boyutu İndirgeme Yaklaşımı. JISTA. 2021;4:8–16.
MLA Yücel, Ahmet. “Tüketici Yorumları Üzerine Bir Metin Madenciliği Ve Veri Boyutu İndirgeme Yaklaşımı”. Journal of Intelligent Systems: Theory and Applications, vol. 4, no. 1, 2021, pp. 8-16, doi:10.38016/jista.801300.
Vancouver Yücel A. Tüketici Yorumları Üzerine Bir Metin Madenciliği ve Veri Boyutu İndirgeme Yaklaşımı. JISTA. 2021;4(1):8-16.

Journal of Intelligent Systems: Theory and Applications