Data is the fundamental structure we rely on to acquire information. The evolution of technology has significantly increased the importance of databases in various sectors, especially in education and the business world. Particularly with sensors becoming integral to our daily lives, everything from the steps we take to our preferred shopping habits has transformed into data. To make data meaningful, preprocessing mechanisms come into play, ensuring that the available data is processed into a comprehensible format. One of the major challenges encountered when preprocessing a database is the existence of missing data. Traditional statistical methods used to address this issue struggle to cope with the voluminous datasets of the present day, making way for the integration of artificial intelligence. This article delves into a Python-based desktop application developed with the aim of effectively predicting numerical missing data within datasets. The application combines the random forest regressor algorithm and the iterative imputer module, presenting a robust and innovative approach to missing data prediction. The application has been tested on four different datasets, achieving prediction accuracies ranging from 57% to 79%. This significant tool endeavors to optimize the prediction of missing data by providing a user-friendly interface, making it accessible even to users not specialized in data mining and preprocessing. The application aims to address the effective prediction of numerical missing data in datasets by combining the random forest regressor algorithm and the iterative imputer module. Tested on four distinct datasets, the application demonstrates prediction accuracies ranging from 57% to 79%. This noteworthy tool not only provides a powerful and innovative approach to missing data prediction but also ensures accessibility for users lacking expertise in data mining and preprocessing.
Veri, bilgiyi edinebilmek için ihtiyaç duyduğumuz temel yapıdır. Geçmişten günümüze teknoloji ile gelişen veri tabanları eğitim ve iş dünyası başta olmak üzere her alanda önemini arttırmakta ve özellikle sensörlerin hayatımızın her adımında yer almaya başlamasıyla attığımız adımlardan yapmayı tercih ettiğimiz alışverişlere kadar hayatımızdaki her şey birer veriye dönüşmektedir. Veriyi anlamlı hale getirebilmek için ise veri ön işleme mekanizmaları devreye sokularak elimizdeki verilerin kullanabileceğimiz şekilde anlamlı olması sağlanmaktadır. Bir veri tabanını ön işleme tabi tuttuğumuzda karşılaştığımız en büyük sorunlardan biri eksik verilerin varlığıdır. Bu sorunun çözümü için kullanılan geleneksel istatistiksel yöntemler günümüz veri yığınlarıyla başa çıkamamakta, gelişen teknolojiyle yerini yapay zekaya bırakmaktadır. Bu makale, veri setlerindeki nümerik eksik verilerin etkili bir şekilde tahmin edilmesi amacıyla geliştirilmiş olan Python tabanlı bir masaüstü uygulamasını ele almaktadır. Uygulama, rastgele orman regresyonu algoritması ve yinelemeli tamamlayıcı modülünü birleştirerek, eksik veri tahmininde güçlü ve yenilikçi bir yaklaşım sunmaktadır. Uygulama dört farklı veri seti üzerinde test edilmiş ve %57 ile %79 arasında bir doğrulukla tahmin yapılmıştır. Bu önemli araç, veri madenciliği ve veri ön işleme konularında uzman olmayan kullanıcılar için dahi kullanımı kolay bir arayüz sunarak, eksik verilerin tahminini optimize etmeyi amaçlamaktadır.
Atatürk Üniversitesi Bilimsel Araştırma Proje Koordinasyon Birimi (BAP)
Bu çalışmanın konusunun belirlenmesinde ve hazırlanma sürecinin her aşamasında değerli bilgilerini ve zamanını benden esirgemeyerek her fırsatta çalışmamla yakından ilgilenen, eleştirileriyle yol gösteren danışman hocam Doç. Dr. Gökay AKKAYA’ ya teşekkür ve minnetimi özellikle belirtmek istiyorum. Ayrıca Atatürk Üniversitesi Bilimsel Araştırma Projeleri (BAP) koordinasyon birimi tarafından desteklenen ve FYL-2023-11813 nolu proje kapsamında ihtiyaç duyulan bütçe tahsisini sağladıkları ve değerli katkılarından dolayı BAP koordinasyon birimine teşekkür ederim.
Primary Language | Turkish |
---|---|
Subjects | Industrial Engineering |
Journal Section | Research Articles |
Authors | |
Early Pub Date | June 28, 2024 |
Publication Date | June 30, 2024 |
Submission Date | January 16, 2024 |
Acceptance Date | January 30, 2024 |
Published in Issue | Year 2024 |