Yaşanan teknolojik gelişmeler ile beraber bilgisayar ortamında saklanan veri miktarı çok hızlı bir şekilde artmaktadır. Bu verilerin doğru bir şekilde değerlendirilmesi ve faydalı bilgiye dönüştürülmesi için de veri analizi önemli bir araştırma konusu olmuştur. Veri analizinde elbette veriler önemli bir rol oynar. Ancak başarım, verinin özelliklerine büyük ölçüde bağımlıdır. Bu sebeple herhangi bir veri analizi süreci başlamadan önce bir ön işlemden geçirmek elzemdir. Veri ön işleme hatalı, eksik ya da istenmeyen diğer sorunların üstesinden gelerek doğru ve kullanışlı veri kümelerini oluşturur. Bu makalede veri ön işleme konusunda son 5 yılda hazırlanmış makale ve bildiriler sistematik olarak araştırılmış ve yaygın olarak kullanılan ön işleme yöntemlerinin üç ana dal altında; veri temizleme, veri dönüştürme ve veri azaltma olarak sınıflandığı görülmüştür. Bu yöntemler ve çeşitli algoritmaları incelenmiş, kullanım sıklıkları sunulmuş ve başarım performansları açısından karşılaştırmaları yapılmıştır. Çalışmanın sonucunun da gösterdiği üzere ham veriler üzerine veri ön işleme yöntemleri kullanılmadığında ya da yanlış veri ön işleme yöntemi kullanıldığında tek başına veri analizi yöntemleri yeterli başarımlara ulaşamamaktadır.
Veri analizi Veri madenciliği Veri ön işleme Veri azaltma Veri dönüştürme Veri temizleme Gürültü filtreleme
With the technological developments, the amount of data stored in the computer environment is increasing very rapidly. Data analysis has become an important research subject for the correct evaluation of these data and to transform them into useful information. Of course, data play an important role in data analysis. However, model performance is highly dependent on the characteristics of the data. For this reason, it is essential to preprocess them before starting any data analysis process. Data preprocessing creates accurate and useful datasets by overcoming erroneous, incomplete, or other unwanted problems. In this study, papers on data preprocessing in the last 5 years have been researched systematically and it has been observed that widely used preprocessing methods are classified under three main branches: data cleaning, data transformation and data reduction. These methods and various algorithms of them are examined, the frequency of use is presented, and comparisons are made in terms of accuracy performance. As the result of the study shows, when data preprocessing methods are not used on raw data or when wrong data preprocessing methods are applied, data analysis methods alone cannot achieve sufficient performance.
Data analysis Data mining Data preprocessing Data reduction Data transformation Data cleaning Noise filtering
Birincil Dil | İngilizce |
---|---|
Konular | Mühendislik |
Bölüm | Elektrik Elektornik Müh. / Bilgisayar Müh. |
Yazarlar | |
Yayımlanma Tarihi | 30 Nisan 2022 |
Yayımlandığı Sayı | Yıl 2022 Cilt: 28 Sayı: 2 |