Dünyadaki veri hacmi ve veri çeşitliliği, insanlık tarihinde daha önce hiç görülmediği hızda artmaktadır. İnternet teknolojilerinin ve sosyal medyanın hayatımızın her evresine ve hatta cep telefonlarımıza girmesiyle, insanlar günlük faaliyetlerinde bile veri üretir duruma gelmiştir. Dünün manuel olarak çalışan araç gereçleri, bugün akıllı cihazlar olarak anılmakta ve hemen hepsi sensörleri vasıtasıyla veri üretmektedir. Bu kadar yoğun ve farklı verinin farklı kaynaklardan giderek artan bir şekilde üretilmesi, yeni bir kavramı ortaya çıkarmıştır: “Büyük Veri”. Büyük veri yüksek hacim, hız ve çeşitlilikte üretilen yapısal, yarı yapısal ve yapısal olmayan veri bütünüdür. Birçok endüstriyel alan, yeni veri üreterek veya mevcut veriyi sayısallaştırarak büyük veriye kaynak oluşturmaktadır. Organizasyonların rekabet avantajı kazanmasında, bilgi önemli bir üretim faktörüdür. Bu noktada büyük verinin bilginin ham maddesi olması ve dolayısıyla karar verme süreçlerini etkilemesi, büyük veri analitiğinin önemini artırmaktadır. Büyük veriden ekonomik değer elde edilebilmesi için, doğruluğu sağlanmış verinin ileri analitik yöntemlerle işlenmesi gerekmektedir. Bugün, ekonomik ve ticari faaliyetlerden kamu yönetimine, ulusal güvenlikten bilimsel araştırmalara kadar birçok alanda, büyük veri ve analitiğinden yararlanılmaktadır. Hergün 2,5 eksabayt (1 eksabayt=1.073.741.824 gigabayt) hacminde verinin üretildiği günümüzde, dünün ilişkisel veritabanı ve yapısal sorgulama dilleri ile büyük veri analitiğinin gerçekleştirilmesi mümkün gözükmemektedir. Büyük veriyi işlemek adına başta Hadoop, Eşle-İndirge (Map-Reduce) olmak üzere, Hive, Hcatalog, Hbase, MPP (Massively Parallel Processing), PIG, Mahout, NoSQL ve Cassandra gibi dağıtık dosya sistemleri üzerinde çalışan ileri analitik yöntemlerden yararlanılmaktadır. Büyük veri analitiği, sunmuş olduğu faydaların yanı sıra kişisel bilgilerin mahremiyetini tehlikeye atabilecek güvenlik zafiyetlerini de oluşturabilmektedir. Bu çalışmada; büyük veri olgusu, bileşenleri ve kaynakları boyutunda ele alınmış, büyük verinin uygulama alanlarında sağladığı avantajlar üzerinde durulmuş, büyük veri analitiği süreçleri ve ileri analitik yöntemlerden, dağıtık dosya sistemi üzerinde Eşle-İndirge modelini çalıştıran Hadoop yazılım mimarisinin işleyişi incelenmiştir. Bununla birlikte büyük verinin sunduğu avantajların yanı sıra oluşturduğu güvenlik sorunları da irdelenmiş ve bu kapsamda alınması gereken güvenlik önlemleri değerlendirilmiştir.
Büyük veri büyük veri analitiği Hadoop Eşle-İndirge büyük veri güvenliği
Volume and variety of data have been increasing globally in an unprecedented
rate throughout human history. People begin to create data even in their daily
activities thanks to the advent of internet technologies and social media on every
stage of our lives and especially our mobile phones. While operated manually
in old days, many devices today are referred as intelligent, and almost all of
them produce sensor data. Producing such an intense and different data from
various sources reveals a new concept: “Big Data”. Big data is a collection of
structured, semi-structured and unstructured data generated in high volume,
velocity and variety. Numerous industrial areas are sources of big data by means
of generating new data or digitizing the existing data. Information is an essential production factor of the organizations to gain competitive advantage. In this
respect, the fact that big data is an input for information, and therefore affecting
decision-making processes, increases the importance of big data analytics.
Deriving economic value from big data requires processing validated data by
advanced analytical methods. At present, big data and analytics are used in
many areas from economic and commercial activities to public administration,
from national security to scientific research. In today’s world where 2.5
exabytes (1 exabyte = 1,073,741,824 gigabytes) of data is produced in a day, it
deems impossible to perform big data analytics with obsolete relational
database and structured query languages. In order to process big data, advanced
analytic methods operating on distributed file systems such as Hadoop and
Map-Reduce are foremostly used in addition to Hive, Hcatalog, Hbase, MPP
(Massively Parallel Processing), PIG, Mahout, NoSQL and Cassandra. Despite
it’s benefits, big data analytics can be a reason of some security vulnerabilities
jeopardizing the privacy of personal information. In this study; big data
phenomenon along with its components and sources has been explained,
advantages of big data in some application areas have been focused, big data
analytics processes and the operation of Hadoop software architecture, which
runs the Map-Reduce model on the distributed file system, have been examined.
Furthermore, besides the advantages offered by big data, the security problems
it creates have also been examined, and in this context some security measures
to be taken have been evaluated.
Big data big data analytics Hadoop Map-Reduce big data security
Birincil Dil | Türkçe |
---|---|
Konular | Kütüphane ve Bilgi Çalışmaları |
Bölüm | Hakemli Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 22 Haziran 2018 |
Gönderilme Tarihi | 7 Mart 2018 |
Yayımlandığı Sayı | Yıl 2018 |