Research Article
BibTex RIS Cite

Latent Semantic Analysis on Social Media Platform

Year 2019, , 863 - 869, 31.08.2019
https://doi.org/10.31590/ejosat.590521

Abstract

There is a dramatic rise in the number of comments in Internet, which is an indispensable tool for our daily lives. Modelling topics and their features have become more important because of this high volume. Social media users’ texts shared in various social media websites are unstructured and not relational data. Clustering this data is one of the most important study area of Natural Language Processing which is a crucial branch of Artificial Intelligence.The purpose of NLP is to get information from unstructured data and react in proper way just like two human being understand each other via a natural language. NLP can do such these jobs faster than natural intelligence. Topic Modelling produces the results of existing topics and their features from large collection of documents. Content providers may distribute the information to the right people fast by using topic modelling tools. In this study, we use Latent Semantic Indexing (LSI) algorithm since it does not need annotated data to train the model. We collect Turkish entries related to “Apple”, “Samsung” and “Microsoft” in EkşiSözlük and find the subtopics of the discussions. Sub topics were found and the topics were compared with the categories and F-Score was measured for accuracy. The obtained F-Score showed 74% accuracy rate for this data set and this algorithm.

References

  • Aggarwal, CC., Zhai, C., “An Introduction to Text Mining” In: Aggarwal CC, Zhai C, editors. Mining text data, New York: Springer, p. 1-10, 2012.
  • Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., and Harshman, R., “Indexing by Latent Semantic Analysis”. Journal of the American Society for Information Science, 41(6):391–407, 1990.
  • Harris, Z., “Distributional Structure”, Word, 23(10), 146–162, 1954.
  • Landauer, T. K., Dumais, S. T., “A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge”, Psychological Review, 104(2), 211–240, 1997.
  • X., Cai, Z., Wiemer-Hastings, P., Graesser, A., McNamara, D., Strengths, “Limitations, and Extensions of LSA”. Handbook of Latent Semantic Analysis, 401–426, 2007.
  • Ekşi Sözlük, 1999. https://eksisozluk.com/
  • Elberrichi, Z. Rahmoun, A. and Bentaallah, M. A., “Using WordNet for Text Categorization”, The International Arab Journal of Information Technology, s. 16- 24, 2008.
  • Liu, H. and Singh, P., “ConceptNet-A Practical Commonsense Reasoning ToolKit”, BT Technology Journal, s. 211-226, 2004.
  • AlSumait, L. Barbará, D. Gentle, J. and Domeniconi, C., Topic Significance Ranking of LDA Generative Models, Machine Learning and Knowledge Discovery in Databases, s. 67-82, 2009.
  • Merchant, K., Pande, Y., 2018. “NLP Based Latent Semantic Analysis for Legal Text Summarization”, International Conference on Advances in Computing, Communications and Informatics (ICACCI), 2018.
  • Altszyler, E., Sigman, M., Ribeiro, S., D. F. Slezak, D. F., “Comparative Study of LSA vs Word2vec Embeddings in Small Corpora: A Case Study in Dreams Database”, arXiv: 1610.01520, 2016.
  • Hatipoğlu, A., Omurca, S., "Türkçe Meti̇n Özetlemede Melez Modelleme". Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi 17: 95-108, 2015.
  • Kherwa, P., Bansal, P., “Latent Semantic Analysis: An Approach to Understand Semantic of Text”, International Conference on Current Trends in Computer, Electrical, Electronics and Communication (ICCTCEEC-2017): 870-874, 2017.
  • Yıldıztepe, E, Uzun, V., “Olasılıksal Yöntemler ile Türkçe Metinlerin Anlamsal Benzerliğinin Belirlenmesi”. Sinop Üniversitesi Fen Bilimleri Dergisi, 3 (2), 66-78, 2018.
  • Ünaldı, İ., Kırıkgöz, Y., “Latent Semantic Analysis: An Analytıcal Tool for Second Language Writing Assessment”. Mustafa Kemal University Journal of Social Sciences Institute, Volume: 8, Issue: 16, s. 487-498, 2011.
  • Gensim, 2009. http://radimrehurek.com/gensim/ models/lsimodel.html
  • WikiPedia, 2001. https://tr.wikipedia.org/wiki/ Ekşi_ Sozlük
  • EkşiSözlük Apple, 1999. https://eksisozluk.com/apple--55201
  • EkşiSözlük Samsung, 1999. https://eksisozluk.com/samsung--90291
  • EkşiSözlük Microsoft, 1999. https://eksisozluk.com/microsoft--31834
  • Python Request, 2001. https://pypi.org/project/requests/

Sosyal Medya Platformu Üzerinde Gizli Anlam Analizi

Year 2019, , 863 - 869, 31.08.2019
https://doi.org/10.31590/ejosat.590521

Abstract









Günlük hayatımızın vazgeçilmez bir parçası haline gelen Internet ve sosyal
medya alanındaki gelişmeler ile birlikte, bilgisayar ve mobil cihaz
kullanıcıların farklı mecralardaki yorumlarında büyük artış yaşanmaktadır. Bu
büyük veri miktarında   artış nedeniyle,
kullanıcı paylaşımlarımda konu başlıklarını ve özelliklerinin doğru ve otomatik
olarak çıkarılması önemli bir problem haline gelmiştir. Çeşitli platformlarda
paylaşılan kullanıcı metinleri, ilişkisel olmayan ve düzensiz verilerdir. Bu
verileri sınıflandırmak, büyük veri işleme ve yapay zekâ çalışma alanlarından
biri olan doğal dil işleme için önemli bir konudur. Doğal dil işlemenin
kullanım amaçları arasında, ilişkisel olmayan düzensiz metinlerden, anlamlı
veriler elde etmek önemli bir çalışma konusudur. Buradan hareketle; iki insanın
karşılıklı anlaştığı doğal bir dili anlayıp, cevap verme, özet çıkarma, gibi
doğal bir insan zekasının yapabildiğini çok daha hızlı yapabilmek büyük bir
önem taşımaktadır. Doğal dil işlemenin alt çalışma alanlarından biri olan konu
modelleme, birçok belgenin hangi konuları içerdiğini ve bu konuların önemli
özelliklerini ortaya koyar. Günümüzde birçok içerik sağlayıcılar,
takipçilerine, anlık içeriklerin önerilmesi işleminde, konu modelleme
yapılarını kullanarak, veri akışını doğru kişilere, çok hızlı bir şekilde yönlendirebilirler.
Daha önceden etiketlenmiş eğitim setine gerek duymayan Gizli Anlam Analizi
(Latent Semantic Indexing - LSI) algoritması bu çalışmada kullanılmıştır. Bu
çalışmada, Türkçe kullanıcı girdilerinin yer aldığı Ekşisözlük platformunda,
“Apple”, “Samsung” ve “Microsoft” başlıklı tartışmalar elde edilerek ve bu
tartışmaların alt konu başlıkları “Gizli Anlam Analizi” yöntemi ile
modellenmiştir. Toplanan verilerden alt konu başlıkları bulunarak, elde edilen
konu başlıkları ile kategoriler karşılaştırılmış, karşılaştırma sonucunda
F-Score ile doğruluk oranı ölçülmüştür. Elde edilen F-Score değeri, %74
doğruluk oranı ile bu veri seti ve bu algoritma için sınıflandırma yapıldığını
göstermiştir.

References

  • Aggarwal, CC., Zhai, C., “An Introduction to Text Mining” In: Aggarwal CC, Zhai C, editors. Mining text data, New York: Springer, p. 1-10, 2012.
  • Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., and Harshman, R., “Indexing by Latent Semantic Analysis”. Journal of the American Society for Information Science, 41(6):391–407, 1990.
  • Harris, Z., “Distributional Structure”, Word, 23(10), 146–162, 1954.
  • Landauer, T. K., Dumais, S. T., “A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge”, Psychological Review, 104(2), 211–240, 1997.
  • X., Cai, Z., Wiemer-Hastings, P., Graesser, A., McNamara, D., Strengths, “Limitations, and Extensions of LSA”. Handbook of Latent Semantic Analysis, 401–426, 2007.
  • Ekşi Sözlük, 1999. https://eksisozluk.com/
  • Elberrichi, Z. Rahmoun, A. and Bentaallah, M. A., “Using WordNet for Text Categorization”, The International Arab Journal of Information Technology, s. 16- 24, 2008.
  • Liu, H. and Singh, P., “ConceptNet-A Practical Commonsense Reasoning ToolKit”, BT Technology Journal, s. 211-226, 2004.
  • AlSumait, L. Barbará, D. Gentle, J. and Domeniconi, C., Topic Significance Ranking of LDA Generative Models, Machine Learning and Knowledge Discovery in Databases, s. 67-82, 2009.
  • Merchant, K., Pande, Y., 2018. “NLP Based Latent Semantic Analysis for Legal Text Summarization”, International Conference on Advances in Computing, Communications and Informatics (ICACCI), 2018.
  • Altszyler, E., Sigman, M., Ribeiro, S., D. F. Slezak, D. F., “Comparative Study of LSA vs Word2vec Embeddings in Small Corpora: A Case Study in Dreams Database”, arXiv: 1610.01520, 2016.
  • Hatipoğlu, A., Omurca, S., "Türkçe Meti̇n Özetlemede Melez Modelleme". Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi 17: 95-108, 2015.
  • Kherwa, P., Bansal, P., “Latent Semantic Analysis: An Approach to Understand Semantic of Text”, International Conference on Current Trends in Computer, Electrical, Electronics and Communication (ICCTCEEC-2017): 870-874, 2017.
  • Yıldıztepe, E, Uzun, V., “Olasılıksal Yöntemler ile Türkçe Metinlerin Anlamsal Benzerliğinin Belirlenmesi”. Sinop Üniversitesi Fen Bilimleri Dergisi, 3 (2), 66-78, 2018.
  • Ünaldı, İ., Kırıkgöz, Y., “Latent Semantic Analysis: An Analytıcal Tool for Second Language Writing Assessment”. Mustafa Kemal University Journal of Social Sciences Institute, Volume: 8, Issue: 16, s. 487-498, 2011.
  • Gensim, 2009. http://radimrehurek.com/gensim/ models/lsimodel.html
  • WikiPedia, 2001. https://tr.wikipedia.org/wiki/ Ekşi_ Sozlük
  • EkşiSözlük Apple, 1999. https://eksisozluk.com/apple--55201
  • EkşiSözlük Samsung, 1999. https://eksisozluk.com/samsung--90291
  • EkşiSözlük Microsoft, 1999. https://eksisozluk.com/microsoft--31834
  • Python Request, 2001. https://pypi.org/project/requests/
There are 21 citations in total.

Details

Primary Language Turkish
Subjects Engineering
Journal Section Articles
Authors

Volkan Altıntaş 0000-0002-1560-9017

Kamil Topal This is me 0000-0002-0266-7365

Mehmet Albayrak This is me 0000-0002-7089-122X

Publication Date August 31, 2019
Published in Issue Year 2019

Cite

APA Altıntaş, V., Topal, K., & Albayrak, M. (2019). Sosyal Medya Platformu Üzerinde Gizli Anlam Analizi. Avrupa Bilim Ve Teknoloji Dergisi(16), 863-869. https://doi.org/10.31590/ejosat.590521