In recent years, great advances have been made on the concept of data, which has become the new power source of our age. Thanks to new methods and techniques at both coding and mechanical level, tremendous speeds have been achieved in the transfering, storing, and processing of data. Thanks to those digital developments, storing even the smallest information on digital platforms has become a natural part of daily life. From family photos to health history, from commercial records to academic publications, from a comment shared on Twitter to a video shared on Youtube, data in almost every field is stored instantly in different sizes. Interesting patterns and information in stored data waiting to be revealed are the main goals of data mining. In data mining studies, the size of data is one of the biggest problems encountered. Some of the problems encountered in large-scale data are the length of the processes of structuring such data and the jams that may occur during the execution of a model to be created afterward. Many dimension reduction algorithms have been developed to overcome the problems arising from large data sizes. In this study, a new dimension reduction approach has been developed on multivariate data. This approach generally consists of pattern recognition steps based on Principal Component Analysis (PCA). The created models were applied on disjoint and balanced sub-datasets and all produced significant results at the 0.05 confidence level. Explanatory performances of the models; They are in the range of [0.819, 0.888] on the multiple R-Square scale and in the range of [0.804, 0.878] on the R-Square scale.
Çağımızın yeni güç kaynağı haline gelen veri kavramı üzerine, son yıllarda büyük gelişmeler elde edilmiştir. Hem kodlama hem de mekanik düzeyde ulaşılan yeni yöntem ve teknikler sayesinde, verinin aktarımı, depolanması ve işlenmesi konusunda muazzam hızlara ulaşılmıştır. Veri aktarımı ve depolama hızlarındaki gelişmeler, dijital platformlardaki en küçük bilgiyi dahi veri olarak depolamayı günlük hayatın doğal bir parçası haline getirmiştir. Aile fotoğraflarından sağlık verilerine, ticari kayıtlardan akademik yayınlara, Twitter'da paylaşılan bir yorumdan Youtube'da paylaşılan bir videoya kadar, hemen her alanda değişik boyutlarda veri anlık olarak depolanmaktadır. Depolanmış verinin içinde bulunan ilginç örüntüler ve açığa çıkarılmayı bekleyen bilgi, veri madenciliğinin temel hedeflerindendir. Veri madenciliği çalışmalarında, veri boyutunun büyüklüğü, karşılaşılan en yüyük sorunlardan biridir. Bu tarz verilerin yapısal hale getirilme süreçlerinin uzunluğu ve sonrasında oluşturulacak bir modelin çalıştırılması sırasında yaşanabilecek sıkışmalar, büyük boyutlu verilerde karşılaşılan sorunlardan bazılarındır. Büyük veri boyutundan kaynaklanan problemlerin üstesinden gelebilmek için birçok boyut indirgeme algoritması geliştirilmiştir. Bu çalışmada, çok değişkenli bir veri üzerine, yeni bir boyut indirgeme yaklaşımı geliştirilmiştir. Bu yaklaşım genel olarak Temel Bileşen Analizine (TBA) dayalı örüntü tanıma adımlarından oluşur. Oluşturulan modeller, birbirlerinden ayrık ve dengeli alt veri kümelerine uygulanmış ve tümü 0.05 anlamlılık düzeyinde anlamlı sonuçlar göstermiştir. Modellerin açıklayıcı performansları; Çoklu R-Kare ölçeğinde [0.819, 0.888]aralığında, ve R-Kare ölçeğinde [0.804, 0.878] aralığında gerçekleşmiştir.
Primary Language | English |
---|---|
Subjects | Computer Software |
Journal Section | Articles |
Authors | |
Publication Date | June 30, 2021 |
Published in Issue | Year 2021 Volume: 5 Issue: 1 |
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.