Review
BibTex RIS Cite

TEXT MINING: POSSIBILITIES, METHODS AND LIMITATIONS

Year 2020, Issue: 31, 220 - 239, 29.05.2020
https://doi.org/10.20875/makusobed.476524

Abstract

It is estimated that on average 2.5 billion GB of data is generated every day in the world. More than 80% of this data is in textual form. This will continue to exist because of the tendency of people toward keeping information in the natural language due to its flexibility. It is not possible for people to read and interpret the huge amount of text written in almost every field. In order to manage this information flux and derive results from it, a research field called text mining has emerged. By text mining, processes such as summarization, classification, clustering, labeling and similarity detection can be done with the help of machines. Due to the fact that text mining is a young research field, there are few studies on text mining in Turkish literature. The purpose of this study is to fill the gap and help researchers to assess text mining and research opportunities.

References

  • Atan, S. (2016a). Veri, Büyük Veri ve İşletmecilik. Balıkesir Üniversitesi Sosyal Bilimler Dergisi, 19(35), 137-153.
  • Atan, S. (2016b). Metin Madenciliği ile Sentiment Analizi ve Borsa İstanbul Uygulaması. (Yayımlanmış doktora tezi). Ankara Üniversitesi, Ankara.
  • Atan, S. ve Emekci, H. (2018). İktisat ve İşletme Uygulamaları İçin R ile Veri Analizi, İstatistik, Modelleme ve Uygulama (1. bs.). Ankara: Seçkin Yayıncılık.
  • Babu, B. V., Nagar, A., Deep, K., Pant, M., Bansal, J. C., Ray, K. ve Gupta, U. (2014). Proceedings of the Second International Conference on Soft Computing for Problem Solving (SocProS 2012), December 28-30, 2012. Springer.
  • Baker, B. S. (1995). On finding duplication and near-duplication in large software systems (ss. 86-95). IEEE Comput. Soc. Press. doi:10.1109/WCRE.1995.514697
  • Bolasco, S., Canzonetti, A., Capo, F. M., Ratta-Rinaldi, F. della ve Singh, B. K. (2005). Understanding Text Mining: A Pragmatic Approach. Knowledge Mining içinde , Studies in Fuzziness and Soft Computing (ss. 31-50). Springer, Berlin, Heidelberg. doi:10.1007/3-540-32394-5_4
  • Cady, F. (2017). The Data Science Handbook. John Wiley & Sons.
  • Chen, H. (2011). Dark Web: Exploring and Data Mining the Dark Side of the Web. Springer Science & Business Media.
  • Çalış, K., Gazdağı, O. ve Yıldız, O. (2013). Reklam İçerikli Epostaların Metin Madenciliği Yöntemleri ile Otomatik Tespiti. International Journal Of Informatics Technologies, 6(1), 1–7.
  • Davenport, T. (2014). Big Data at Work: Dispelling the Myths, Uncovering the Opportunities. Harvard Business Review Press.
  • Derick, J. (2010). Three Real-World Applications of Text Mining to Solve Specific Business Problems by Derick Jose - BeyeNETWORK. 25 Mayıs 2018 tarihinde http://www.b-eye-network.com/view/12783 adresinden erişildi.
  • Dolgun, M. Ö., Özdemir, T. G. ve Oğuz, D. (2009). Veri madenciliğiâ nde yapısal olmayan verinin analizi: Metin ve web madenciliği. İstatistikçiler Dergisi: İstatistik ve Aktüerya, 2(2).
  • Feldman, R. ve Sanger, J. (2006). The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press.
  • Fontama, V., Barga, R. ve Tok, W. H. (2015). Predictive Analytics with Microsoft Azure Machine Learning 2nd Edition. Apress.
  • Gupta, V. ve Lehal, G. S. (2009). A Survey of Text Mining Techniques and Applications. Journal of Emerging Technologies in Web Intelligence, 1(1). doi:10.4304/jetwi.1.1.60-76
  • Hansen, C. D. ve Johnson, C. R. (2011). Visualization Handbook. Elsevier.
  • Hardeniya, N., Perkins, J., Chopra, D., Joshi, N. ve Mathur, I. (2016). Natural Language Processing: Python and NLTK. Packt Publishing Ltd.
  • İlhan, S., Duru, N., Karagöz, Ş. ve Sağır, M. (2008). Metin Madenciliği ile Soru Cevaplama Sistemi. Elektronik ve Bilgisayar Mühendisliği Sempozyumu (ELECO), Bursa, 26–30.
  • Karadağ, A. ve Takçı, H. (2010). Metin madenciliği ile benzer haber tespiti. Akademik Bilişim.
  • Kaşıkçı, T. ve Gökçen, H. (2013). Metin Madenciliği İle E-Ticaret Sitelerinin Belirlenmesi. Bilişim Teknolojileri Dergisi, 7(1).
  • Kaushik, M. L. (2013). Text Mining - Scope and Applications. Text Mining, 55(2).
  • Kılınç, D., Borandağ, E., YÜCALAR, F., TUNALI, V., ŞİMŞEK, M. ve ÖZÇİFT, A. (2016). KNN algoritması ve r dili ile metin madenciliği kullanılarak bilimsel makale tasnifi.
  • Miner, G., IV, J. E. ve Hill, T. (2012). Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications. Academic Press.
  • Mucherino, A., Papajorgji, P. J. ve Pardalos, P. M. (2009). Data Mining in Agriculture. Springer Science & Business Media.
  • O’Keeffe, A. ve McCarthy, M. (2010). The Routledge Handbook of Corpus Linguistics. Routledge.
  • Pattnaik, P. K., Rautaray, S. S., Das, H. ve Nayak, J. (2018). Progress in Computing, Analytics and Networking: Proceedings of ICCAN 2017. Springer.
  • Scott, J. ve Carrington, P. J. (2011). The SAGE Handbook of Social Network Analysis. SAGE.
  • Shaalan, K., Hassanien, A. E. ve Tolba, F. (2017). Intelligent Natural Language Processing: Trends and Applications. Springer.
  • Silge, J. ve Robinson, D. (2017). Text Mining with R: A Tidy Approach. O’Reilly Media, Inc.
  • Talib, R., Kashif, M., Ayesha, S. ve Fatima, F. (2016). Text Mining: Techniques, Applications and Issues. International Journal of Advanced Computer Science and Applications, 7(11). doi:10.14569/IJACSA.2016.071153

METİN MADENCİLİĞİ: İMKÂNLAR, YÖNTEMLER VE KISITLAR

Year 2020, Issue: 31, 220 - 239, 29.05.2020
https://doi.org/10.20875/makusobed.476524

Abstract

Dünyada ortalama olarak her gün 2,5 milyar GB verinin üretildiği hesaplanmaktadır. Bu miktarın yaklaşık olarak %80’inin ise metin formunda olduğu tahmin edilmektedir. İnsanların bilgiyi tablolar halinde değil düz yazı formunda, doğal dille kaydetmeleri ve doğal dilin esnekliği nedeniyle bu durum var olmaya devam edecektir. Devasa miktardaki bu metinlerin insanlar tarafından okunarak değerlendirilmesi mümkün değildir. Bu verilerden anlamlı sonuçlar üretmek metin madenciliğinin konusudur. Metin madenciliği sayesinde, metinlerin programlanan algoritmalar yardımıyla özetlenmesi, sınıflandırılması, etiketlenmesi ve seçilmesi mümkündür. Metin Madenciliği bu özellikleri ile tüm organizasyonlar için çok çeşitli fırsatlar sunmaktadır. Türkçe literatürde metin madenciliği alanının uygulamalarından ziyade metin madenciliğinin arka planını ve olanaklarını inceleyen çalışmalara ihtiyaç bulunmaktadır. Bu çalışma da bu boşluğu doldurmayı ve araştırmacıların metin madenciliği olanaklarını incelemelerine yardımcı olmayı hedeflemektedir.

References

  • Atan, S. (2016a). Veri, Büyük Veri ve İşletmecilik. Balıkesir Üniversitesi Sosyal Bilimler Dergisi, 19(35), 137-153.
  • Atan, S. (2016b). Metin Madenciliği ile Sentiment Analizi ve Borsa İstanbul Uygulaması. (Yayımlanmış doktora tezi). Ankara Üniversitesi, Ankara.
  • Atan, S. ve Emekci, H. (2018). İktisat ve İşletme Uygulamaları İçin R ile Veri Analizi, İstatistik, Modelleme ve Uygulama (1. bs.). Ankara: Seçkin Yayıncılık.
  • Babu, B. V., Nagar, A., Deep, K., Pant, M., Bansal, J. C., Ray, K. ve Gupta, U. (2014). Proceedings of the Second International Conference on Soft Computing for Problem Solving (SocProS 2012), December 28-30, 2012. Springer.
  • Baker, B. S. (1995). On finding duplication and near-duplication in large software systems (ss. 86-95). IEEE Comput. Soc. Press. doi:10.1109/WCRE.1995.514697
  • Bolasco, S., Canzonetti, A., Capo, F. M., Ratta-Rinaldi, F. della ve Singh, B. K. (2005). Understanding Text Mining: A Pragmatic Approach. Knowledge Mining içinde , Studies in Fuzziness and Soft Computing (ss. 31-50). Springer, Berlin, Heidelberg. doi:10.1007/3-540-32394-5_4
  • Cady, F. (2017). The Data Science Handbook. John Wiley & Sons.
  • Chen, H. (2011). Dark Web: Exploring and Data Mining the Dark Side of the Web. Springer Science & Business Media.
  • Çalış, K., Gazdağı, O. ve Yıldız, O. (2013). Reklam İçerikli Epostaların Metin Madenciliği Yöntemleri ile Otomatik Tespiti. International Journal Of Informatics Technologies, 6(1), 1–7.
  • Davenport, T. (2014). Big Data at Work: Dispelling the Myths, Uncovering the Opportunities. Harvard Business Review Press.
  • Derick, J. (2010). Three Real-World Applications of Text Mining to Solve Specific Business Problems by Derick Jose - BeyeNETWORK. 25 Mayıs 2018 tarihinde http://www.b-eye-network.com/view/12783 adresinden erişildi.
  • Dolgun, M. Ö., Özdemir, T. G. ve Oğuz, D. (2009). Veri madenciliğiâ nde yapısal olmayan verinin analizi: Metin ve web madenciliği. İstatistikçiler Dergisi: İstatistik ve Aktüerya, 2(2).
  • Feldman, R. ve Sanger, J. (2006). The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press.
  • Fontama, V., Barga, R. ve Tok, W. H. (2015). Predictive Analytics with Microsoft Azure Machine Learning 2nd Edition. Apress.
  • Gupta, V. ve Lehal, G. S. (2009). A Survey of Text Mining Techniques and Applications. Journal of Emerging Technologies in Web Intelligence, 1(1). doi:10.4304/jetwi.1.1.60-76
  • Hansen, C. D. ve Johnson, C. R. (2011). Visualization Handbook. Elsevier.
  • Hardeniya, N., Perkins, J., Chopra, D., Joshi, N. ve Mathur, I. (2016). Natural Language Processing: Python and NLTK. Packt Publishing Ltd.
  • İlhan, S., Duru, N., Karagöz, Ş. ve Sağır, M. (2008). Metin Madenciliği ile Soru Cevaplama Sistemi. Elektronik ve Bilgisayar Mühendisliği Sempozyumu (ELECO), Bursa, 26–30.
  • Karadağ, A. ve Takçı, H. (2010). Metin madenciliği ile benzer haber tespiti. Akademik Bilişim.
  • Kaşıkçı, T. ve Gökçen, H. (2013). Metin Madenciliği İle E-Ticaret Sitelerinin Belirlenmesi. Bilişim Teknolojileri Dergisi, 7(1).
  • Kaushik, M. L. (2013). Text Mining - Scope and Applications. Text Mining, 55(2).
  • Kılınç, D., Borandağ, E., YÜCALAR, F., TUNALI, V., ŞİMŞEK, M. ve ÖZÇİFT, A. (2016). KNN algoritması ve r dili ile metin madenciliği kullanılarak bilimsel makale tasnifi.
  • Miner, G., IV, J. E. ve Hill, T. (2012). Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications. Academic Press.
  • Mucherino, A., Papajorgji, P. J. ve Pardalos, P. M. (2009). Data Mining in Agriculture. Springer Science & Business Media.
  • O’Keeffe, A. ve McCarthy, M. (2010). The Routledge Handbook of Corpus Linguistics. Routledge.
  • Pattnaik, P. K., Rautaray, S. S., Das, H. ve Nayak, J. (2018). Progress in Computing, Analytics and Networking: Proceedings of ICCAN 2017. Springer.
  • Scott, J. ve Carrington, P. J. (2011). The SAGE Handbook of Social Network Analysis. SAGE.
  • Shaalan, K., Hassanien, A. E. ve Tolba, F. (2017). Intelligent Natural Language Processing: Trends and Applications. Springer.
  • Silge, J. ve Robinson, D. (2017). Text Mining with R: A Tidy Approach. O’Reilly Media, Inc.
  • Talib, R., Kashif, M., Ayesha, S. ve Fatima, F. (2016). Text Mining: Techniques, Applications and Issues. International Journal of Advanced Computer Science and Applications, 7(11). doi:10.14569/IJACSA.2016.071153
There are 30 citations in total.

Details

Primary Language Turkish
Journal Section Review Articles
Authors

Suat Atan 0000-0003-3170-0969

Publication Date May 29, 2020
Submission Date October 30, 2018
Acceptance Date March 10, 2020
Published in Issue Year 2020 Issue: 31

Cite

APA Atan, S. (2020). METİN MADENCİLİĞİ: İMKÂNLAR, YÖNTEMLER VE KISITLAR. Mehmet Akif Ersoy Üniversitesi Sosyal Bilimler Enstitüsü Dergisi(31), 220-239. https://doi.org/10.20875/makusobed.476524