It is estimated that on average 2.5 billion GB of data is generated every day in the world. More than 80% of this data is in textual form. This will continue to exist because of the tendency of people toward keeping information in the natural language due to its flexibility. It is not possible for people to read and interpret the huge amount of text written in almost every field. In order to manage this information flux and derive results from it, a research field called text mining has emerged. By text mining, processes such as summarization, classification, clustering, labeling and similarity detection can be done with the help of machines. Due to the fact that text mining is a young research field, there are few studies on text mining in Turkish literature. The purpose of this study is to fill the gap and help researchers to assess text mining and research opportunities.
Dünyada ortalama olarak her gün 2,5 milyar GB verinin üretildiği hesaplanmaktadır. Bu miktarın yaklaşık olarak %80’inin ise metin formunda olduğu tahmin edilmektedir. İnsanların bilgiyi tablolar halinde değil düz yazı formunda, doğal dille kaydetmeleri ve doğal dilin esnekliği nedeniyle bu durum var olmaya devam edecektir. Devasa miktardaki bu metinlerin insanlar tarafından okunarak değerlendirilmesi mümkün değildir. Bu verilerden anlamlı sonuçlar üretmek metin madenciliğinin konusudur. Metin madenciliği sayesinde, metinlerin programlanan algoritmalar yardımıyla özetlenmesi, sınıflandırılması, etiketlenmesi ve seçilmesi mümkündür. Metin Madenciliği bu özellikleri ile tüm organizasyonlar için çok çeşitli fırsatlar sunmaktadır. Türkçe literatürde metin madenciliği alanının uygulamalarından ziyade metin madenciliğinin arka planını ve olanaklarını inceleyen çalışmalara ihtiyaç bulunmaktadır. Bu çalışma da bu boşluğu doldurmayı ve araştırmacıların metin madenciliği olanaklarını incelemelerine yardımcı olmayı hedeflemektedir.
Primary Language | Turkish |
---|---|
Journal Section | Review Articles |
Authors | |
Publication Date | May 29, 2020 |
Submission Date | October 30, 2018 |
Acceptance Date | March 10, 2020 |
Published in Issue | Year 2020 |