Hadoop framework employs MapReduce programming paradigm to process big data by distributing data across a cluster and aggregating. MapReduce is one of the methods used to process big data hosted on large clusters. In this method, jobs are processed by dividing into small pieces and distributing over nodes. The number of nodes in the cluster affect the execution time of jobs. Main idea of this paper is to determine how number of nodes affect the performance of Hadoop framework on a cloud environment with using benchmarking tools. For this purpose, various tests are carried out on a Hadoop cluster with 10 nodes hosted on a cloud environment by running Terabyte Sort benchmarking tools on it. According to test results, increasing number of nodes improves job execution performance of Hadoop framework and reduces job execution time.
Hadoop çatısı, büyük veriyi işlemede, işlenecek verinin düğüm öbekleri üzerinde dağıtılması, işlenmesi ve tekrar birleştirilerek anlamlı hale getirilmesi için MapReduce programlama paradigmasını kullanır. MapReduce, geniş bilgisayar öbekleri üzerinde barındırılan büyük verinin işlenmesinde kullanılan tekniklerden biridir. Bu yöntemde işler daha küçük parçalara ayrılır ve düğümlere dağıtılarak işlenir. Öbekteki düğüm sayısı işlerin tamamlanma süresine etki etmektedir. Bu çalışmanın amacı bulut ortamında gerçeklenen bir Hadoop öbeği üzerinde Hadoop çatısının başarımının öbekteki düğüm sayısından nasıl etkilendiğini çeşitli kıyaslama araçları yardımıyla tespit etmektir. Bu amaçla 10 düğümlü bir öbek üzerinde Hadoop çatısı kurularak TeraByte Sort kıyaslama araçları yardımıyla farklı düğüm sayıları kullanılarak deneyler gerçekleştirilmiştir. Deney sonuçlarına göre düğüm sayısının artırılmasının Hadoop çatısının iş bitirme başarımını artırdığı ve iş için harcanan zamanı azalttığı görülmüştür
Other ID | JA98CE83ZY |
---|---|
Journal Section | Research Article |
Authors | |
Publication Date | May 1, 2015 |
Published in Issue | Year 2015 Volume: 3 Issue: 1 |
Manas Journal of Engineering