Research Article
BibTex RIS Cite

Data Management System Based on Machine Learning Methods

Year 2024, , 20 - 27, 30.06.2024
https://doi.org/10.55117/bufbd.1418551

Abstract

Data is the fundamental structure we rely on to acquire information. The evolution of technology has significantly increased the importance of databases in various sectors, especially in education and the business world. Particularly with sensors becoming integral to our daily lives, everything from the steps we take to our preferred shopping habits has transformed into data. To make data meaningful, preprocessing mechanisms come into play, ensuring that the available data is processed into a comprehensible format. One of the major challenges encountered when preprocessing a database is the existence of missing data. Traditional statistical methods used to address this issue struggle to cope with the voluminous datasets of the present day, making way for the integration of artificial intelligence. This article delves into a Python-based desktop application developed with the aim of effectively predicting numerical missing data within datasets. The application combines the random forest regressor algorithm and the iterative imputer module, presenting a robust and innovative approach to missing data prediction. The application has been tested on four different datasets, achieving prediction accuracies ranging from 57% to 79%. This significant tool endeavors to optimize the prediction of missing data by providing a user-friendly interface, making it accessible even to users not specialized in data mining and preprocessing. The application aims to address the effective prediction of numerical missing data in datasets by combining the random forest regressor algorithm and the iterative imputer module. Tested on four distinct datasets, the application demonstrates prediction accuracies ranging from 57% to 79%. This noteworthy tool not only provides a powerful and innovative approach to missing data prediction but also ensures accessibility for users lacking expertise in data mining and preprocessing.

References

  • H. T. Moges, K. Dejaeger, W. Lemahieu, and B. Baesens, “A multidimensional analysis of data quality for credit risk management: New insights and challenges,” Information and Management, vol. 50, no. 1, pp. 43–58, 2013, doi: 10.1016/j.im.2012.10.001.
  • H.-T. Moges, K. Dejaeger, W. Lemahieu, and B. Baesens, “A multidimensional analysis of data quality for credit risk management: New insights and challenges,” Information & Management, vol. 50, no. 1, pp. 43–58, Jan. 2013, doi: 10.1016/j.im.2012.10.001.
  • K. Veriler et al., “The Effects of Different Methods Used for Value Imputation Instead of Missing Values on Model Data Fit Statistics,” 2015.
  • Y. Celik, “Comparison of Data Used For Loss Of Data Mining Methods,” 2013. [Online]. Available: https://www.researchgate.net/publication/348787393
  • F. Arslan et al., “Yapay Zekâ Tabanlı Büyük Veri Yönetim Aracı.”
  • M. Abdella and T. Marwala, “The Use Of Genetic Algorithms and Neural Networks to Approximate Missing Data in Database,” 2005.
  • D. R. RJA Little, Statistical analysis with missing data. 2019.
  • G. Hoffmann, A. Bietenbeck, R. Lichtinghagen, and F. Klawonn, “Using machine learning techniques to generate laboratory diagnostic pathways—a case study,” J Lab Precis Med, vol. 3, pp. 58–58, Jun. 2018, doi: 10.21037/jlpm.2018.06.01.
  • Kaggle, “Gold Price Prediction Dataset,” 2019. [Online]. Available: https://www.kaggle.com/datasets/sid321axn/gold-price-prediction-dataset. [Accessed: 10-Dec-2023]
  • Kaggle, “Bucharest House Price Dataset,” 2022. [Online]. Available: https://www.kaggle.com/datasets/denisadutca/bucharest-house-price-dataset. [Accesed: 20-Dec-2023]
  • S. Aydin, O. Ustun, A. Ghosigharehaghaji, T. Tavaci, A. Yilmaz, and M. Yilmaz, “Hydrothermal Synthesis of Nitrogen-Doped and Excitation-Dependent Carbon Quantum Dots for Selective Detection of Fe3+ in Blood Plasma,” Coatings, vol. 12, no. 9, Sep. 2022, doi: 10.3390/coatings12091311.

Makine Öğrenmesi Yöntemlerine Dayalı Veri Yönetim Sistemi

Year 2024, , 20 - 27, 30.06.2024
https://doi.org/10.55117/bufbd.1418551

Abstract

Veri, bilgiyi edinebilmek için ihtiyaç duyduğumuz temel yapıdır. Geçmişten günümüze teknoloji ile gelişen veri tabanları eğitim ve iş dünyası başta olmak üzere her alanda önemini arttırmakta ve özellikle sensörlerin hayatımızın her adımında yer almaya başlamasıyla attığımız adımlardan yapmayı tercih ettiğimiz alışverişlere kadar hayatımızdaki her şey birer veriye dönüşmektedir. Veriyi anlamlı hale getirebilmek için ise veri ön işleme mekanizmaları devreye sokularak elimizdeki verilerin kullanabileceğimiz şekilde anlamlı olması sağlanmaktadır. Bir veri tabanını ön işleme tabi tuttuğumuzda karşılaştığımız en büyük sorunlardan biri eksik verilerin varlığıdır. Bu sorunun çözümü için kullanılan geleneksel istatistiksel yöntemler günümüz veri yığınlarıyla başa çıkamamakta, gelişen teknolojiyle yerini yapay zekaya bırakmaktadır. Bu makale, veri setlerindeki nümerik eksik verilerin etkili bir şekilde tahmin edilmesi amacıyla geliştirilmiş olan Python tabanlı bir masaüstü uygulamasını ele almaktadır. Uygulama, rastgele orman regresyonu algoritması ve yinelemeli tamamlayıcı modülünü birleştirerek, eksik veri tahmininde güçlü ve yenilikçi bir yaklaşım sunmaktadır. Uygulama dört farklı veri seti üzerinde test edilmiş ve %57 ile %79 arasında bir doğrulukla tahmin yapılmıştır. Bu önemli araç, veri madenciliği ve veri ön işleme konularında uzman olmayan kullanıcılar için dahi kullanımı kolay bir arayüz sunarak, eksik verilerin tahminini optimize etmeyi amaçlamaktadır.

Supporting Institution

Atatürk Üniversitesi Bilimsel Araştırma Proje Koordinasyon Birimi (BAP)

Thanks

Bu çalışmanın konusunun belirlenmesinde ve hazırlanma sürecinin her aşamasında değerli bilgilerini ve zamanını benden esirgemeyerek her fırsatta çalışmamla yakından ilgilenen, eleştirileriyle yol gösteren danışman hocam Doç. Dr. Gökay AKKAYA’ ya teşekkür ve minnetimi özellikle belirtmek istiyorum. Ayrıca Atatürk Üniversitesi Bilimsel Araştırma Projeleri (BAP) koordinasyon birimi tarafından desteklenen ve FYL-2023-11813 nolu proje kapsamında ihtiyaç duyulan bütçe tahsisini sağladıkları ve değerli katkılarından dolayı BAP koordinasyon birimine teşekkür ederim.

References

  • H. T. Moges, K. Dejaeger, W. Lemahieu, and B. Baesens, “A multidimensional analysis of data quality for credit risk management: New insights and challenges,” Information and Management, vol. 50, no. 1, pp. 43–58, 2013, doi: 10.1016/j.im.2012.10.001.
  • H.-T. Moges, K. Dejaeger, W. Lemahieu, and B. Baesens, “A multidimensional analysis of data quality for credit risk management: New insights and challenges,” Information & Management, vol. 50, no. 1, pp. 43–58, Jan. 2013, doi: 10.1016/j.im.2012.10.001.
  • K. Veriler et al., “The Effects of Different Methods Used for Value Imputation Instead of Missing Values on Model Data Fit Statistics,” 2015.
  • Y. Celik, “Comparison of Data Used For Loss Of Data Mining Methods,” 2013. [Online]. Available: https://www.researchgate.net/publication/348787393
  • F. Arslan et al., “Yapay Zekâ Tabanlı Büyük Veri Yönetim Aracı.”
  • M. Abdella and T. Marwala, “The Use Of Genetic Algorithms and Neural Networks to Approximate Missing Data in Database,” 2005.
  • D. R. RJA Little, Statistical analysis with missing data. 2019.
  • G. Hoffmann, A. Bietenbeck, R. Lichtinghagen, and F. Klawonn, “Using machine learning techniques to generate laboratory diagnostic pathways—a case study,” J Lab Precis Med, vol. 3, pp. 58–58, Jun. 2018, doi: 10.21037/jlpm.2018.06.01.
  • Kaggle, “Gold Price Prediction Dataset,” 2019. [Online]. Available: https://www.kaggle.com/datasets/sid321axn/gold-price-prediction-dataset. [Accessed: 10-Dec-2023]
  • Kaggle, “Bucharest House Price Dataset,” 2022. [Online]. Available: https://www.kaggle.com/datasets/denisadutca/bucharest-house-price-dataset. [Accesed: 20-Dec-2023]
  • S. Aydin, O. Ustun, A. Ghosigharehaghaji, T. Tavaci, A. Yilmaz, and M. Yilmaz, “Hydrothermal Synthesis of Nitrogen-Doped and Excitation-Dependent Carbon Quantum Dots for Selective Detection of Fe3+ in Blood Plasma,” Coatings, vol. 12, no. 9, Sep. 2022, doi: 10.3390/coatings12091311.
There are 11 citations in total.

Details

Primary Language Turkish
Subjects Industrial Engineering
Journal Section Research Articles
Authors

Ülgen Aydın 0000-0002-0421-0094

Gökay Akkaya 0000-0001-5161-7228

Early Pub Date June 28, 2024
Publication Date June 30, 2024
Submission Date January 16, 2024
Acceptance Date January 30, 2024
Published in Issue Year 2024

Cite

APA Aydın, Ü., & Akkaya, G. (2024). Makine Öğrenmesi Yöntemlerine Dayalı Veri Yönetim Sistemi. Bayburt Üniversitesi Fen Bilimleri Dergisi, 7(1), 20-27. https://doi.org/10.55117/bufbd.1418551
AMA Aydın Ü, Akkaya G. Makine Öğrenmesi Yöntemlerine Dayalı Veri Yönetim Sistemi. Bayburt Üniversitesi Fen Bilimleri Dergisi. June 2024;7(1):20-27. doi:10.55117/bufbd.1418551
Chicago Aydın, Ülgen, and Gökay Akkaya. “Makine Öğrenmesi Yöntemlerine Dayalı Veri Yönetim Sistemi”. Bayburt Üniversitesi Fen Bilimleri Dergisi 7, no. 1 (June 2024): 20-27. https://doi.org/10.55117/bufbd.1418551.
EndNote Aydın Ü, Akkaya G (June 1, 2024) Makine Öğrenmesi Yöntemlerine Dayalı Veri Yönetim Sistemi. Bayburt Üniversitesi Fen Bilimleri Dergisi 7 1 20–27.
IEEE Ü. Aydın and G. Akkaya, “Makine Öğrenmesi Yöntemlerine Dayalı Veri Yönetim Sistemi”, Bayburt Üniversitesi Fen Bilimleri Dergisi, vol. 7, no. 1, pp. 20–27, 2024, doi: 10.55117/bufbd.1418551.
ISNAD Aydın, Ülgen - Akkaya, Gökay. “Makine Öğrenmesi Yöntemlerine Dayalı Veri Yönetim Sistemi”. Bayburt Üniversitesi Fen Bilimleri Dergisi 7/1 (June 2024), 20-27. https://doi.org/10.55117/bufbd.1418551.
JAMA Aydın Ü, Akkaya G. Makine Öğrenmesi Yöntemlerine Dayalı Veri Yönetim Sistemi. Bayburt Üniversitesi Fen Bilimleri Dergisi. 2024;7:20–27.
MLA Aydın, Ülgen and Gökay Akkaya. “Makine Öğrenmesi Yöntemlerine Dayalı Veri Yönetim Sistemi”. Bayburt Üniversitesi Fen Bilimleri Dergisi, vol. 7, no. 1, 2024, pp. 20-27, doi:10.55117/bufbd.1418551.
Vancouver Aydın Ü, Akkaya G. Makine Öğrenmesi Yöntemlerine Dayalı Veri Yönetim Sistemi. Bayburt Üniversitesi Fen Bilimleri Dergisi. 2024;7(1):20-7.

Taranılan Dizinler