Büyük Veri Tabanlı Arşivleme Yönetim Sistemi

Ayşegül Şenol Çalım; Gökay Tuna

doi:10.54525/tbbmd.1008300

EN TR

Büyük Veri Tabanlı Arşivleme Yönetim Sistemi

Öz

Yeni ürünlerin hizmete sunulması, müşteri sayısının hızla artması, denetim iz kayıtları gibi zorunlu olarak tutulması gereken verilerin boyutlarının fazla olması nedeniyle banka gibi kurumlarda veri büyüklüğü hızlı bir şekilde artmaktadır. Bu veriler mevcut sistemlerde yıllarca kaldığı zaman sistemleri ve uygulamaları ağırlaştırmakta, yedekleme ve sistem bakımı gibi operasyonel işlemlerin maliyetlerini arttırmaktadır. Bütün bu sorunlar için verilerin sınıflandırılarak erişim sıklığına göre kategorize edilmesi, sınıflandırılan verilerin anlık erişim gereksinimi olmayanlarının ikincil ve daha az maliyetli sistemlere taşınarak arşivlenmesi ve arşivlendikten sonra kaynak sistemden silinmesi gerekmektedir. Bu gereksinimleri karşılamak için yazılan büyük veri tabanlı arşivleme yönetim sistemi, bir yazılım ürünü olarak geliştirilmiştir. Yapısal ve yapısal olmayan verilerin Hadoop ekosisteminde arşivlenmesi verilere daha etkin erişim sağlayacak ve daha ucuz saklama maliyetleri getirecektir. Bu bağlamda yapılan çalışmada veri erişim katmanı, hizmet ve uygulama katmanından oluşan verileri, HDFS (Hadoop Distributed File System) dosya sistemi yapısında dağıtık olarak üç kopya halinde tutan ve fiziksel sunucular üzerinde sanallaştırma teknolojileri kullanılarak kurulan bir büyük veri tabanlı arşivleme yönetim sistemi geliştirilmiştir. Sonrasında ise ilişkisel veri tabanlarındaki yapısal tabloların erişimi ve aktarımı için Sqoop, yapısal olmayan kaynaklardan yapılan aktarımların gerçekleştirilmesi ve zamanlanması için Nifi araçları kullanılmıştır. İlişkisel veri tabanlarından büyük veri arşivleme sistemine aktarılan ve HDFS dosya yapısında tutulan verilerde hacimsel büyüklükte çok büyük oranda azalma gerçekleşmiştir. Veri erişim katmanı üzerinden yapılan veri sorgulama işlemlerinde ise özellikle sayısal olmayan verilerin erişiminde yüksek performans artışları gözlemlenmiştir. Bu çalışmada, büyük veri arşivleme ve veri analitiği kavramları incelenmiş ve bu kavramlar üzerine yapılan çalışmalar araştırılmıştır. Bu kapsamda gerçekleştirilen kaynak taramasından çıkarılan bilgiler neticesinde; veri büyüklüğünün ve veriye erişim hızı gereksinimin hızla arttığı kurumlarda kullanılabilecek olan, yüksek hız, yüksek verimlilik, daha az maliyet ve daha fazla çeşitlilik gereksinimlerini karşılayan bir arşivleme yönetim sistemi büyük veri platformu üzerinde gerçekleştirilmiştir.

Anahtar Kelimeler

Destekleyen Kurum

Türkiye Finans Katılım Bankası

Proje Numarası

3171033

Kaynakça

RODADB long term digital preservation, https://www.keep.pt/en/produts/roda-long-term-digital-preservation-repository-solution/
Heuscher, S., Jaermann, S., Keller-Marxer, P., Moehle, F., Providing authentic long-term archive access to complex relational data, 2004, DL/0408054, https://arxiv.org/abs/cs/0408054.
Brandl, S., Keller-Marxer, P., Long-term archiving of relational databases with chronos. First International Workshop on Database Preservation, March 2007, https://www.researchgate.net/publication/ 304374749_Long-term_Archiving_of_Relational_Databases_with_Chronos.
ZISMAN, A. An overview of XML. Computing & Control Engineering Journal, 2000, 11.4: 165-167.
CSV, https://en.wikipedia.org/wiki/Comma-separated_values.
Swiss Federal Archives, https://www.bar.admin.ch/bar/en/home.html.
XSD XML Schema Definition, https://www.ibm.com/docs/en/iis/11.5?topic=SSZJPZ_11.5.0/ com.ibm.swg.im.iis.metadata.common.doc/topics/c_xml_schema_definition_assets.html.
ZIP64 compression format, https://www.artpol-software.com/ZipArchive/KB/0610051629.aspx.

SIARD file format, https://www.loc.gov/preservation/digital/formats/fdd/fdd000426.shtml.
Fitzgerald, N., Using data archiving tools to preserve archival records in business systems - a case study, International Conference on Preservation of Digital Objects, 10, Lisboa, 2013, https://purl.pt/24107/1/ iPres2013_PDF/Using data archiving tools to preserve archival records in business systems – a case study.pdf.
SIARD SUITE, https://www.bar.admin.ch/bar/en/home/archiving/tools/siard-suite.html.
SIARD SUITE user experiences, https://coptr.digipres.org/index.php/SIARD_Suite.
Preserving databases using SIARD, https://dilcis.eu/images/2020review /9_Draft_SIARD_Case_Study_1.pdf - P.10.
M. Farwell, Y. Fain on Angular, 13 November 2017, https://ieeexplore.ieee.org/document/8106872.
.netCore Entity Framework, https://docs.microsoft.com/tr-tr/ef/core/.
The Apache Hadoop Project, https://hadoop.apache.org/.
Dwivedi, K., Dubey S. K.. Analytical review on Hadoop Distributed file System, 2014, https://ieeexplore.ieee.org/abstract/document/6949336.
Windows Communication Foundation (WCF) Architecture, https://docs.microsoft.com/tr-tr/dotnet/framework/wcf/architecture.
The Apache Nifi, https://nifi.apache.org/.
Aravinth S. S., Begam A. H., Shanmugapriyaa S., Sowmya S.. An efficient HADOOP frameworks SQOOP and ambari for big data processing, International Journal for Innovative Research in Science and Technology 1.10, 2015, http://www.ijirst.org/articles/IJIRSTV1I10027.pdf.
Master Node, https://www.geeksforgeeks.org/hadoop-cluster-properties-and-its-types/.
Worker Node, https://databricks.com/glossary/hadoop-cluster.
Hadoop cluster, https://www.simplilearn.com/what-is-a-hadoop-cluster-article.
Loganathan A., Sinha A., Muthuramakrishnan V. S. Natarajan. A Systematic Approach to Big Data Exploration of the Hadoop Framework, International Journal of Information & Computation Technology, 2014, ISSN 0974-2239 Volume 4, Number 9, http://ripublication.com/irph/ijict_spl/ijictv4n9spl_01.pdf.
Hortonworks Data Platform, https://www.cloudera.com/products/hdp.html.
Dean J., Ghemawat S.. MapReduce: a flexible data processing tool, Communications of the ACM, January 2010, https://doi.org/10.1145/1629175.1629198.
The Apache Hive, https://hive.apache.org/
Shaw S., Vermeulen A.F., Gupta A., Kjerrumgaard D.. Hive Security. In: Practical Hive. Apress, Berkeley, CA. , 2016, https://doi.org/10.1007/978-1-4842-0271-5_10.
Haloi S., Apache ZooKeeper Essentials, Packt Publishing Ltd, 2015
Lindley A. Database Preservation Evaluation Report SIARD vs. CHRONOS, International Conference on Preservation of Digital Objects, 10, Lisboa, 2013, https://www.researchgate.net/publication/ 267652385_Database_Preservation_Evaluation_Report_-SIARD_vs_CHRONOS_Preserving_complex_ structures_as_databases_through_a_record_centric_approach.
The Apache Hadoop YARN, https://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html.
The Apache Spark, http://spark.apache.org/
The Apache Tez, https://tez.apache.org/
The Apache Solr, https://solr.apache.org
The Apache Orc, https://orc.apache.org/
The Apache Parquet, https://parquet.apache.org/

Ayrıntılar

Birincil Dil

Türkçe

Konular

Mühendislik

Bölüm

Araştırma Makalesi

Yazarlar

Ayşegül Şenol Çalım ^*
0000-0003-0062-3032
Türkiye

Gökay Tuna
0000-0003-4305-9451
Türkiye

Yayımlanma Tarihi

15 Aralık 2022

Gönderilme Tarihi

11 Ekim 2021

Kabul Tarihi

19 Ekim 2022

Yayımlandığı Sayı

Yıl 2022 Cilt: 15 Sayı: 2

DOI

https://doi.org/10.54525/tbbmd.1008300

IZ

https://izlik.org/JA45WG24KS

Kaynak Göster

RIS / Bibtex

APA

Şenol Çalım, A., & Tuna, G. (2022). Büyük Veri Tabanlı Arşivleme Yönetim Sistemi. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 15(2), 161-170. https://doi.org/10.54525/tbbmd.1008300

AMA

1.Şenol Çalım A, Tuna G. Büyük Veri Tabanlı Arşivleme Yönetim Sistemi. TBV-BBMD. 2022;15(2):161-170. doi:10.54525/tbbmd.1008300

Chicago

Şenol Çalım, Ayşegül, ve Gökay Tuna. 2022. “Büyük Veri Tabanlı Arşivleme Yönetim Sistemi”. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi 15 (2): 161-70. https://doi.org/10.54525/tbbmd.1008300.

EndNote

Şenol Çalım A, Tuna G (01 Aralık 2022) Büyük Veri Tabanlı Arşivleme Yönetim Sistemi. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi 15 2 161–170.

IEEE

[1]A. Şenol Çalım ve G. Tuna, “Büyük Veri Tabanlı Arşivleme Yönetim Sistemi”, TBV-BBMD, c. 15, sy 2, ss. 161–170, Ara. 2022, doi: 10.54525/tbbmd.1008300.

ISNAD

Şenol Çalım, Ayşegül - Tuna, Gökay. “Büyük Veri Tabanlı Arşivleme Yönetim Sistemi”. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi 15/2 (01 Aralık 2022): 161-170. https://doi.org/10.54525/tbbmd.1008300.

JAMA

1.Şenol Çalım A, Tuna G. Büyük Veri Tabanlı Arşivleme Yönetim Sistemi. TBV-BBMD. 2022;15:161–170.

MLA

Şenol Çalım, Ayşegül, ve Gökay Tuna. “Büyük Veri Tabanlı Arşivleme Yönetim Sistemi”. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, c. 15, sy 2, Aralık 2022, ss. 161-70, doi:10.54525/tbbmd.1008300.

Vancouver

1.Ayşegül Şenol Çalım, Gökay Tuna. Büyük Veri Tabanlı Arşivleme Yönetim Sistemi. TBV-BBMD. 01 Aralık 2022;15(2):161-70. doi:10.54525/tbbmd.1008300

Büyük Veri Tabanlı Arşivleme Yönetim Sistemi

Big Data Based Archiving Management System

Öz

Anahtar Kelimeler

Büyük Veri Tabanlı Arşivleme Yönetim Sistemi

Öz

Anahtar Kelimeler

Destekleyen Kurum

Proje Numarası

Kaynakça

Ayrıntılar

Birincil Dil

Konular

Bölüm

Yazarlar

Yayımlanma Tarihi

Gönderilme Tarihi

Kabul Tarihi

Yayımlandığı Sayı

DOI

IZ

Kaynak Göster

https://i.creativecommons.org/l/by-nc/4.0Makale Kabulü