Büyük
Veri, İngilizce dilindeki karşılığı ile Big Data, çağımızın en güncel
teknolojilerinden biri olarak karşımıza çıkmaktadır. Sosyal medya, sensör
verileri, Nesnelerin İnternet’i gibi seri halde veri üreten teknolojilerin
sayesinde veri hacmi gün geçtikçe artmaktadır. Dünyada veri miktarındaki büyük
artış, büyük verinin depolanması, işlenmesi ve analiz edilmesi için farklı
yaklaşımlar gerektirmektedir. Bir nicel veriseti birçok özelliğe sahiptir ve
betimleyici istatistikler veri setindeki bu özellikleri her bir değeri
listelemek zorunda kalmadan anlamlı ve yönetilebilir bir biçimde
tanımlayabilir. Bununla birlikte, standart istatistiksel teknikler, verinin
büyüklüğü, karmaşıklığı ve hızı nedeniyle büyük verilere uygun olmayabilir.
Nicel verileri analiz etmek için kullanıma hazır çok sayıda istatistiksel araç
olmasına rağmen, her zaman büyük veri dosya sistemleri ile çalışmak için uyumlu
değildir. Bu yazıda, betimleyici istatistik algoritmalarının büyük veri setleri
üzerindeki uygulamaları sergilenmektedir ve deneylerin 196 yivli küçük bir
Hadoop kümesinde ölçeklenebilirliğini gösterilmektedir. Bu çalışma, büyük veri
kümeleri için tanımlayıcı istatistiklerin bir Hadoop kümesinin dağıtılmış
hesaplama özelliklerinden yararlanabileceğini göstermektedir. Çalışma TÜBİTAK TEYDEB
desteği ile tamamlanmıştır.
Big Data is one of the most trendy technologies of our
time. The volume of data is increasing day by day, thanks to serial data
generation technologies such as social media, sensor data, Internet of Things. The
massive increase in the amount of data accumulated around the world requires
different approaches to store, process and analyze the big data. A set of
quantitative data has many features and the descriptive statistics can describe
these features in a meaningful and manageable form without having to list every
value in the dataset. However, the standard statistical techniques cannot suit
big data due to the size, complexity and velocity of the data. Though there are
many off-the-shelf statistical tools available to analyze quantitative data
they are not always compatible with the big data file systems. In this paper,
we describe our implementations of the descriptive statistics algorithms over
big data and show the scalability of our experiments on a small Hadoop cluster
with 196 threads. This study presents that descriptive statistics for large
datasets can benefit from distributed computation features of a Hadoop cluster.
Primary Language | English |
---|---|
Journal Section | Articles |
Authors | |
Publication Date | June 30, 2019 |
Published in Issue | Year 2019 Volume: 1 Issue: 1 |