Big Data Based Archiving Management System
Öz
The size of data in institutions such as banks is increasing rapidly due to the fact that the number of new products is put into service, the number of customers is increasing rapidly, the number of new applications is put into use due to regulations, and the data that must be kept compulsory such as audit trail records are excessive. When these data remain in existing systems for years, systems and applications become heavy, and the costs of operational processes such as backup and system maintenance increase. For all these problems, the data should be classified and categorized according to the frequency of access, those that do not need instant access to the categorized data should be archived by moving them to secondary and less costly systems and deleted from the source system. The large data-based archiving management system will be developed as a software product, providing more effective access to structural or unstructured data to be archived in the Hadoop ecosystem and bringing cheaper storage costs.
Anahtar Kelimeler
Büyük Veri Tabanlı Arşivleme Yönetim Sistemi
Öz
Yeni ürünlerin hizmete sunulması, müşteri sayısının hızla artması, denetim iz kayıtları gibi zorunlu olarak tutulması gereken verilerin boyutlarının fazla olması nedeniyle banka gibi kurumlarda veri büyüklüğü hızlı bir şekilde artmaktadır. Bu veriler mevcut sistemlerde yıllarca kaldığı zaman sistemleri ve uygulamaları ağırlaştırmakta, yedekleme ve sistem bakımı gibi operasyonel işlemlerin maliyetlerini arttırmaktadır. Bütün bu sorunlar için verilerin sınıflandırılarak erişim sıklığına göre kategorize edilmesi, sınıflandırılan verilerin anlık erişim gereksinimi olmayanlarının ikincil ve daha az maliyetli sistemlere taşınarak arşivlenmesi ve arşivlendikten sonra kaynak sistemden silinmesi gerekmektedir. Bu gereksinimleri karşılamak için yazılan büyük veri tabanlı arşivleme yönetim sistemi, bir yazılım ürünü olarak geliştirilmiştir. Yapısal ve yapısal olmayan verilerin Hadoop ekosisteminde arşivlenmesi verilere daha etkin erişim sağlayacak ve daha ucuz saklama maliyetleri getirecektir. Bu bağlamda yapılan çalışmada veri erişim katmanı, hizmet ve uygulama katmanından oluşan verileri, HDFS (Hadoop Distributed File System) dosya sistemi yapısında dağıtık olarak üç kopya halinde tutan ve fiziksel sunucular üzerinde sanallaştırma teknolojileri kullanılarak kurulan bir büyük veri tabanlı arşivleme yönetim sistemi geliştirilmiştir. Sonrasında ise ilişkisel veri tabanlarındaki yapısal tabloların erişimi ve aktarımı için Sqoop, yapısal olmayan kaynaklardan yapılan aktarımların gerçekleştirilmesi ve zamanlanması için Nifi araçları kullanılmıştır.
İlişkisel veri tabanlarından büyük veri arşivleme sistemine aktarılan ve HDFS dosya yapısında tutulan verilerde hacimsel büyüklükte çok büyük oranda azalma gerçekleşmiştir. Veri erişim katmanı üzerinden yapılan veri sorgulama işlemlerinde ise özellikle sayısal olmayan verilerin erişiminde yüksek performans artışları gözlemlenmiştir.
Bu çalışmada, büyük veri arşivleme ve veri analitiği kavramları incelenmiş ve bu kavramlar üzerine yapılan çalışmalar araştırılmıştır. Bu kapsamda gerçekleştirilen kaynak
taramasından çıkarılan bilgiler neticesinde; veri büyüklüğünün ve veriye erişim hızı gereksinimin hızla arttığı kurumlarda kullanılabilecek olan, yüksek hız, yüksek verimlilik, daha az maliyet ve daha fazla çeşitlilik gereksinimlerini karşılayan bir arşivleme yönetim sistemi büyük veri platformu üzerinde gerçekleştirilmiştir.
Anahtar Kelimeler