Araştırma Makalesi
BibTex RIS Kaynak Göster

Büyük Veri Tabanlı Arşivleme Yönetim Sistemi

Yıl 2022, Cilt: 15 Sayı: 2, 161 - 170, 15.12.2022
https://doi.org/10.54525/tbbmd.1008300

Öz

Yeni ürünlerin hizmete sunulması, müşteri sayısının hızla artması, denetim iz kayıtları gibi zorunlu olarak tutulması gereken verilerin boyutlarının fazla olması nedeniyle banka gibi kurumlarda veri büyüklüğü hızlı bir şekilde artmaktadır. Bu veriler mevcut sistemlerde yıllarca kaldığı zaman sistemleri ve uygulamaları ağırlaştırmakta, yedekleme ve sistem bakımı gibi operasyonel işlemlerin maliyetlerini arttırmaktadır. Bütün bu sorunlar için verilerin sınıflandırılarak erişim sıklığına göre kategorize edilmesi, sınıflandırılan verilerin anlık erişim gereksinimi olmayanlarının ikincil ve daha az maliyetli sistemlere taşınarak arşivlenmesi ve arşivlendikten sonra kaynak sistemden silinmesi gerekmektedir. Bu gereksinimleri karşılamak için yazılan büyük veri tabanlı arşivleme yönetim sistemi, bir yazılım ürünü olarak geliştirilmiştir. Yapısal ve yapısal olmayan verilerin Hadoop ekosisteminde arşivlenmesi verilere daha etkin erişim sağlayacak ve daha ucuz saklama maliyetleri getirecektir. Bu bağlamda yapılan çalışmada veri erişim katmanı, hizmet ve uygulama katmanından oluşan verileri, HDFS (Hadoop Distributed File System) dosya sistemi yapısında dağıtık olarak üç kopya halinde tutan ve fiziksel sunucular üzerinde sanallaştırma teknolojileri kullanılarak kurulan bir büyük veri tabanlı arşivleme yönetim sistemi geliştirilmiştir. Sonrasında ise ilişkisel veri tabanlarındaki yapısal tabloların erişimi ve aktarımı için Sqoop, yapısal olmayan kaynaklardan yapılan aktarımların gerçekleştirilmesi ve zamanlanması için Nifi araçları kullanılmıştır.
İlişkisel veri tabanlarından büyük veri arşivleme sistemine aktarılan ve HDFS dosya yapısında tutulan verilerde hacimsel büyüklükte çok büyük oranda azalma gerçekleşmiştir. Veri erişim katmanı üzerinden yapılan veri sorgulama işlemlerinde ise özellikle sayısal olmayan verilerin erişiminde yüksek performans artışları gözlemlenmiştir.
Bu çalışmada, büyük veri arşivleme ve veri analitiği kavramları incelenmiş ve bu kavramlar üzerine yapılan çalışmalar araştırılmıştır. Bu kapsamda gerçekleştirilen kaynak
taramasından çıkarılan bilgiler neticesinde; veri büyüklüğünün ve veriye erişim hızı gereksinimin hızla arttığı kurumlarda kullanılabilecek olan, yüksek hız, yüksek verimlilik, daha az maliyet ve daha fazla çeşitlilik gereksinimlerini karşılayan bir arşivleme yönetim sistemi büyük veri platformu üzerinde gerçekleştirilmiştir.

Destekleyen Kurum

Türkiye Finans Katılım Bankası

Proje Numarası

3171033

Kaynakça

  • RODADB long term digital preservation, https://www.keep.pt/en/produts/roda-long-term-digital-preservation-repository-solution/
  • Heuscher, S., Jaermann, S., Keller-Marxer, P., Moehle, F., Providing authentic long-term archive access to complex relational data, 2004, DL/0408054, https://arxiv.org/abs/cs/0408054.
  • Brandl, S., Keller-Marxer, P., Long-term archiving of relational databases with chronos. First International Workshop on Database Preservation, March 2007, https://www.researchgate.net/publication/ 304374749_Long-term_Archiving_of_Relational_Databases_with_Chronos.
  • ZISMAN, A. An overview of XML. Computing & Control Engineering Journal, 2000, 11.4: 165-167.
  • CSV, https://en.wikipedia.org/wiki/Comma-separated_values.
  • Swiss Federal Archives, https://www.bar.admin.ch/bar/en/home.html.
  • XSD XML Schema Definition, https://www.ibm.com/docs/en/iis/11.5?topic=SSZJPZ_11.5.0/ com.ibm.swg.im.iis.metadata.common.doc/topics/c_xml_schema_definition_assets.html.
  • ZIP64 compression format, https://www.artpol-software.com/ZipArchive/KB/0610051629.aspx.
  • SIARD file format, https://www.loc.gov/preservation/digital/formats/fdd/fdd000426.shtml.
  • Fitzgerald, N., Using data archiving tools to preserve archival records in business systems - a case study, International Conference on Preservation of Digital Objects, 10, Lisboa, 2013, https://purl.pt/24107/1/ iPres2013_PDF/Using data archiving tools to preserve archival records in business systems – a case study.pdf.
  • SIARD SUITE, https://www.bar.admin.ch/bar/en/home/archiving/tools/siard-suite.html.
  • SIARD SUITE user experiences, https://coptr.digipres.org/index.php/SIARD_Suite.
  • Preserving databases using SIARD, https://dilcis.eu/images/2020review /9_Draft_SIARD_Case_Study_1.pdf - P.10.
  • M. Farwell, Y. Fain on Angular, 13 November 2017, https://ieeexplore.ieee.org/document/8106872.
  • .netCore Entity Framework, https://docs.microsoft.com/tr-tr/ef/core/.
  • The Apache Hadoop Project, https://hadoop.apache.org/.
  • Dwivedi, K., Dubey S. K.. Analytical review on Hadoop Distributed file System, 2014, https://ieeexplore.ieee.org/abstract/document/6949336.
  • Windows Communication Foundation (WCF) Architecture, https://docs.microsoft.com/tr-tr/dotnet/framework/wcf/architecture.
  • The Apache Nifi, https://nifi.apache.org/.
  • Aravinth S. S., Begam A. H., Shanmugapriyaa S., Sowmya S.. An efficient HADOOP frameworks SQOOP and ambari for big data processing, International Journal for Innovative Research in Science and Technology 1.10, 2015, http://www.ijirst.org/articles/IJIRSTV1I10027.pdf.
  • Master Node, https://www.geeksforgeeks.org/hadoop-cluster-properties-and-its-types/.
  • Worker Node, https://databricks.com/glossary/hadoop-cluster.
  • Hadoop cluster, https://www.simplilearn.com/what-is-a-hadoop-cluster-article.
  • Loganathan A., Sinha A., Muthuramakrishnan V. S. Natarajan. A Systematic Approach to Big Data Exploration of the Hadoop Framework, International Journal of Information & Computation Technology, 2014, ISSN 0974-2239 Volume 4, Number 9, http://ripublication.com/irph/ijict_spl/ijictv4n9spl_01.pdf.
  • Hortonworks Data Platform, https://www.cloudera.com/products/hdp.html.
  • Dean J., Ghemawat S.. MapReduce: a flexible data processing tool, Communications of the ACM, January 2010, https://doi.org/10.1145/1629175.1629198.
  • The Apache Hive, https://hive.apache.org/
  • Shaw S., Vermeulen A.F., Gupta A., Kjerrumgaard D.. Hive Security. In: Practical Hive. Apress, Berkeley, CA. , 2016, https://doi.org/10.1007/978-1-4842-0271-5_10.
  • Haloi S., Apache ZooKeeper Essentials, Packt Publishing Ltd, 2015
  • Lindley A. Database Preservation Evaluation Report SIARD vs. CHRONOS, International Conference on Preservation of Digital Objects, 10, Lisboa, 2013, https://www.researchgate.net/publication/ 267652385_Database_Preservation_Evaluation_Report_-SIARD_vs_CHRONOS_Preserving_complex_ structures_as_databases_through_a_record_centric_approach.
  • The Apache Hadoop YARN, https://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html.
  • The Apache Spark, http://spark.apache.org/
  • The Apache Tez, https://tez.apache.org/
  • The Apache Solr, https://solr.apache.org
  • The Apache Orc, https://orc.apache.org/
  • The Apache Parquet, https://parquet.apache.org/

Big Data Based Archiving Management System

Yıl 2022, Cilt: 15 Sayı: 2, 161 - 170, 15.12.2022
https://doi.org/10.54525/tbbmd.1008300

Öz

The size of data in institutions such as banks is increasing rapidly due to the fact that the number of new products is put into service, the number of customers is increasing rapidly, the number of new applications is put into use due to regulations, and the data that must be kept compulsory such as audit trail records are excessive. When these data remain in existing systems for years, systems and applications become heavy, and the costs of operational processes such as backup and system maintenance increase. For all these problems, the data should be classified and categorized according to the frequency of access, those that do not need instant access to the categorized data should be archived by moving them to secondary and less costly systems and deleted from the source system. The large data-based archiving management system will be developed as a software product, providing more effective access to structural or unstructured data to be archived in the Hadoop ecosystem and bringing cheaper storage costs.

Proje Numarası

3171033

Kaynakça

  • RODADB long term digital preservation, https://www.keep.pt/en/produts/roda-long-term-digital-preservation-repository-solution/
  • Heuscher, S., Jaermann, S., Keller-Marxer, P., Moehle, F., Providing authentic long-term archive access to complex relational data, 2004, DL/0408054, https://arxiv.org/abs/cs/0408054.
  • Brandl, S., Keller-Marxer, P., Long-term archiving of relational databases with chronos. First International Workshop on Database Preservation, March 2007, https://www.researchgate.net/publication/ 304374749_Long-term_Archiving_of_Relational_Databases_with_Chronos.
  • ZISMAN, A. An overview of XML. Computing & Control Engineering Journal, 2000, 11.4: 165-167.
  • CSV, https://en.wikipedia.org/wiki/Comma-separated_values.
  • Swiss Federal Archives, https://www.bar.admin.ch/bar/en/home.html.
  • XSD XML Schema Definition, https://www.ibm.com/docs/en/iis/11.5?topic=SSZJPZ_11.5.0/ com.ibm.swg.im.iis.metadata.common.doc/topics/c_xml_schema_definition_assets.html.
  • ZIP64 compression format, https://www.artpol-software.com/ZipArchive/KB/0610051629.aspx.
  • SIARD file format, https://www.loc.gov/preservation/digital/formats/fdd/fdd000426.shtml.
  • Fitzgerald, N., Using data archiving tools to preserve archival records in business systems - a case study, International Conference on Preservation of Digital Objects, 10, Lisboa, 2013, https://purl.pt/24107/1/ iPres2013_PDF/Using data archiving tools to preserve archival records in business systems – a case study.pdf.
  • SIARD SUITE, https://www.bar.admin.ch/bar/en/home/archiving/tools/siard-suite.html.
  • SIARD SUITE user experiences, https://coptr.digipres.org/index.php/SIARD_Suite.
  • Preserving databases using SIARD, https://dilcis.eu/images/2020review /9_Draft_SIARD_Case_Study_1.pdf - P.10.
  • M. Farwell, Y. Fain on Angular, 13 November 2017, https://ieeexplore.ieee.org/document/8106872.
  • .netCore Entity Framework, https://docs.microsoft.com/tr-tr/ef/core/.
  • The Apache Hadoop Project, https://hadoop.apache.org/.
  • Dwivedi, K., Dubey S. K.. Analytical review on Hadoop Distributed file System, 2014, https://ieeexplore.ieee.org/abstract/document/6949336.
  • Windows Communication Foundation (WCF) Architecture, https://docs.microsoft.com/tr-tr/dotnet/framework/wcf/architecture.
  • The Apache Nifi, https://nifi.apache.org/.
  • Aravinth S. S., Begam A. H., Shanmugapriyaa S., Sowmya S.. An efficient HADOOP frameworks SQOOP and ambari for big data processing, International Journal for Innovative Research in Science and Technology 1.10, 2015, http://www.ijirst.org/articles/IJIRSTV1I10027.pdf.
  • Master Node, https://www.geeksforgeeks.org/hadoop-cluster-properties-and-its-types/.
  • Worker Node, https://databricks.com/glossary/hadoop-cluster.
  • Hadoop cluster, https://www.simplilearn.com/what-is-a-hadoop-cluster-article.
  • Loganathan A., Sinha A., Muthuramakrishnan V. S. Natarajan. A Systematic Approach to Big Data Exploration of the Hadoop Framework, International Journal of Information & Computation Technology, 2014, ISSN 0974-2239 Volume 4, Number 9, http://ripublication.com/irph/ijict_spl/ijictv4n9spl_01.pdf.
  • Hortonworks Data Platform, https://www.cloudera.com/products/hdp.html.
  • Dean J., Ghemawat S.. MapReduce: a flexible data processing tool, Communications of the ACM, January 2010, https://doi.org/10.1145/1629175.1629198.
  • The Apache Hive, https://hive.apache.org/
  • Shaw S., Vermeulen A.F., Gupta A., Kjerrumgaard D.. Hive Security. In: Practical Hive. Apress, Berkeley, CA. , 2016, https://doi.org/10.1007/978-1-4842-0271-5_10.
  • Haloi S., Apache ZooKeeper Essentials, Packt Publishing Ltd, 2015
  • Lindley A. Database Preservation Evaluation Report SIARD vs. CHRONOS, International Conference on Preservation of Digital Objects, 10, Lisboa, 2013, https://www.researchgate.net/publication/ 267652385_Database_Preservation_Evaluation_Report_-SIARD_vs_CHRONOS_Preserving_complex_ structures_as_databases_through_a_record_centric_approach.
  • The Apache Hadoop YARN, https://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html.
  • The Apache Spark, http://spark.apache.org/
  • The Apache Tez, https://tez.apache.org/
  • The Apache Solr, https://solr.apache.org
  • The Apache Orc, https://orc.apache.org/
  • The Apache Parquet, https://parquet.apache.org/
Toplam 36 adet kaynakça vardır.

Ayrıntılar

Birincil Dil Türkçe
Konular Mühendislik
Bölüm Makaleler(Araştırma)
Yazarlar

Ayşegül Şenol Çalım 0000-0003-0062-3032

Gökay Tuna 0000-0003-4305-9451

Proje Numarası 3171033
Erken Görünüm Tarihi 3 Aralık 2022
Yayımlanma Tarihi 15 Aralık 2022
Yayımlandığı Sayı Yıl 2022 Cilt: 15 Sayı: 2

Kaynak Göster

APA Şenol Çalım, A., & Tuna, G. (2022). Büyük Veri Tabanlı Arşivleme Yönetim Sistemi. Türkiye Bilişim Vakfı Bilgisayar Bilimleri Ve Mühendisliği Dergisi, 15(2), 161-170. https://doi.org/10.54525/tbbmd.1008300
AMA Şenol Çalım A, Tuna G. Büyük Veri Tabanlı Arşivleme Yönetim Sistemi. TBV-BBMD. Aralık 2022;15(2):161-170. doi:10.54525/tbbmd.1008300
Chicago Şenol Çalım, Ayşegül, ve Gökay Tuna. “Büyük Veri Tabanlı Arşivleme Yönetim Sistemi”. Türkiye Bilişim Vakfı Bilgisayar Bilimleri Ve Mühendisliği Dergisi 15, sy. 2 (Aralık 2022): 161-70. https://doi.org/10.54525/tbbmd.1008300.
EndNote Şenol Çalım A, Tuna G (01 Aralık 2022) Büyük Veri Tabanlı Arşivleme Yönetim Sistemi. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi 15 2 161–170.
IEEE A. Şenol Çalım ve G. Tuna, “Büyük Veri Tabanlı Arşivleme Yönetim Sistemi”, TBV-BBMD, c. 15, sy. 2, ss. 161–170, 2022, doi: 10.54525/tbbmd.1008300.
ISNAD Şenol Çalım, Ayşegül - Tuna, Gökay. “Büyük Veri Tabanlı Arşivleme Yönetim Sistemi”. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi 15/2 (Aralık 2022), 161-170. https://doi.org/10.54525/tbbmd.1008300.
JAMA Şenol Çalım A, Tuna G. Büyük Veri Tabanlı Arşivleme Yönetim Sistemi. TBV-BBMD. 2022;15:161–170.
MLA Şenol Çalım, Ayşegül ve Gökay Tuna. “Büyük Veri Tabanlı Arşivleme Yönetim Sistemi”. Türkiye Bilişim Vakfı Bilgisayar Bilimleri Ve Mühendisliği Dergisi, c. 15, sy. 2, 2022, ss. 161-70, doi:10.54525/tbbmd.1008300.
Vancouver Şenol Çalım A, Tuna G. Büyük Veri Tabanlı Arşivleme Yönetim Sistemi. TBV-BBMD. 2022;15(2):161-70.

https://i.creativecommons.org/l/by-nc/4.0Makale Kabulü

 

Çevrimiçi makale yüklemesi yapmak için kullanıcı kayıt/girişini kullanınız.

Dergiye gönderilen makalelerin kabul süreci şu aşamalardan oluşmaktadır:

1.       Gönderilen her makale ilk aşamada en az iki hakeme gönderilmektedir.

2.       Hakem ataması, dergi editörleri tarafından yapılmaktadır. Derginin hakem havuzunda yaklaşık 200 hakem bulunmaktadır ve bu hakemler ilgi alanlarına göre sınıflandırılmıştır. Her hakeme ilgilendiği konuda makale gönderilmektedir. Hakem seçimi menfaat çatışmasına neden olmayacak biçimde yapılmaktadır.

3.       Hakemlere gönderilen makalelerde yazar adları kapatılmaktadır.

4.       Hakemlere bir makalenin nasıl değerlendirileceği açıklanmaktadır ve aşağıda görülen değerlendirme formunu doldurmaları istenmektedir.

5.       İki hakemin olumlu görüş bildirdiği makaleler editörler tarafından benzerlik incelemesinden geçirilir. Makalelerdeki benzerliğin %25’ten küçük olması beklenir.

6.       Tüm aşamaları geçmiş olan bir bildiri dil ve sunuş açısından editör tarafından incelenir ve gerekli düzeltme ve iyileştirmeler yapılır. Gerekirse yazarlara durum bildirilir.

 88x31.png   Bu eser Creative Commons Atıf-GayriTicari 4.0 Uluslararası Lisansı ile lisanslanmıştır.