Günümüz veritabanları hızlı bir şekilde büyümektedir. Örneğin Youtube’a her dakikada ortalama 300 saatlik video yüklenmektedir. Veri boyutuyla orantılı bir şekilde, işleme, depolama ve transfer maliyetleri artmaktadır. Buna karşılık, özellikle video ve imge gibi yüksek boyutlu veri içeriklerinin büyük oranda benzer olduğu bilinmektedir. Bu tür yüksek boyutlu ham verilerin, düşük boyutlara indirgenmesi, imge sınıflandırma, algılama ve anlamlı bilgi çıkarım prosesleri için hayati öneme sahiptir.
Veri boyutunu indirgeyen çok sayıda teknik mevcuttur. Klasik yapay öğrenme tekniklerinden; PCA (Temel Bileşenler Analizi) ve LDA (Doğrusal Ayıraç Analizi), probleme matematiksel bir çözüm zemini kazandırdıkları için ön plana çıkarken, doğrusal olmayan tekniklerden, derin öğrenme yaklaşımlarından olan Oto-Kodlayıcı (Auto-Encoding), büyük verilerin indirgenmesine izin vermesi bakımından araştırmacıların ilgisini çekmektedir.
Bu çalışmada, gerçek ve sentetik veriler (doğrusal ve doğrusal olmayan) kullanılarak PCA, LDA ve Auto-Encoding (AE) yöntemlerinin boyut indirgeme performansları incelenmiştir. Belirli kıstaslarda (harcanan zaman, yeniden inşa etme doğruluğu vb.) alınan sonuçlar karşılaştırmalı bir şekilde sunulmuştur.
Today's databases are growing rapidly. For example, Youtube uploads an average of 300 hours of video every minute. In proportion to the size of the data, processing, storage and transfer costs are increasing. On the other hand, it is known that high-dimensional data contents such as video and image are largely similar. Such high-dimensional raw data has a vital proposition for the reduction of images to low dimensions, image classification, detection and meaningful information extraction processes.
There are many techniques available to reduce data size. From classical artificial learning; PCA (Principal Components Analysis) and LDA (Linear Discriminant Analysis), while probing is at the forefront of gaining a mathematical solution, Autoencoder, which is one of the non-linear techniques and deep learning approaches, attracts researchers to allow the reduction of large data.
In this study, dimensional reduction performances of PCA, LDA and Auto-Encoding (AE) methods using real and synthetic data (linear and nonlinear) were investigated. The results obtained on certain criteria (time spent, correctness of reconstruction, etc.) are presented comparatively.
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | June 18, 2020 |
Published in Issue | Year 2020 Volume: 9 Issue: 1 |
This work is licensed under the Creative Commons Attribution-Non-Commercial-Non-Derivable 4.0 International License.