Araştırma Makalesi
BibTex RIS Kaynak Göster

INVESTIGATION OF THE EFFECT OF DATA PRE-PROCESSING TECHNIQUES ON THE CLASSIFICATION SUCCESS OF HEALTH DATA

Yıl 2024, Cilt: 11 Sayı: 24, 475 - 488, 31.12.2024
https://doi.org/10.54365/adyumbd.1466631

Öz

Data preprocessing techniques, one of the most fundamental steps in the data mining process, are frequently referenced in the literature. In this study, the effectiveness of commonly used data preprocessing techniques in the health field was examined on a dataset related to Hepatitis disease. The processes of handling missing data, managing imbalanced datasets, outlier detection, normalization, and feature selection were applied in sequence. For each new version of the dataset obtained at every step, classification was performed using five machine learning methods commonly used in the literature (KNN, LR, RF, SVM, ANN). The results obtained support the positive contribution of correctly selecting the appropriate data preprocessing techniques to model success. The model performances achieved in all steps are above 85%, showing consistent results across all performance evaluation metrics. Each data preprocessing step contributed gradually to model performance, with the highest contribution provided by the feature selection applied in the final stage. Feature selection significantly enhanced the model's performance, making a substantial contribution to classification success.

Kaynakça

  • Erdoğan F. İkili gri kurt optimizasyon algoritmasinin ikili optimizasyon problemlerine uygulanmasi. Yüksek lisans tezi. Konya: Necmettin Erbakan Üniversitesi; 2023.
  • Li J, Cheng K, Wang S, Morstatter F, Trevino RP, Tang J, Liu H. Feature selection: A data perspective. ACM Computing Surveys (CSUR) 2017; 50(6): 1-45.
  • Dogan A, Birant D. Machine learning and data mining in manufacturing. Expert Systems with Applications 2021; 166: 1-22.
  • Oğuzlar A. Veri ön işleme. Erciyes Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi 2003; 21: 67-76.
  • Nart A. Kalp hastaliklarini tahmin etmede veri madenciliği teknikleriyle etkili algoritmanin tespit edilmesi. Yüksek lisans tezi. Ankara: Gazi Üniversitesi; 2023.
  • García S, Luengo J, Herrera F. Data preprocessing in data mining. 72 Cham, Switzerland:Springer; 2015.
  • García S, Ramírez-Gallego S, Luengo J, Benítez JM, Herrera F. Big data preprocessing: methods and prospects. Big Data Analytics 2016; 1: 1-22.
  • Zelaya CVG. Towards explaining the effects of data preprocessing on machine learning. In: IEEE 35th International Conference on Data Engineering (ICDE), Macau SAR, China; 2019.
  • Özoğur HN, Orman Z. Sağlik verilerinin analizinde veri ön işleme adimlarinin makine öğrenmesi yöntemlerinin performansina etkisi. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi 2023; 16(1): 23-33.
  • Saygın E, Baykara M. Karaciğer yetmezliği teşhisinde özellik seçimi kullanarak makine öğrenmesi yöntemlerinin başarılarının ölçülmesi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 2021; 33(2): 367-377.
  • Nahzat S, Yağanoğlu M. Diabetes prediction using machine learning classification algorithms. Avrupa Bilim ve Teknoloji Dergisi 2021; 24: 53-59.
  • Mitra M, Samanta RK. A study on UCI hepatitis disease dataset using soft computing. Model. Meas. Control C 2017; 78(4): 467-477.
  • Orooji A, Kermani F. Machine learning based methods for handling imbalanced data in hepatitis diagnosis. Frontiers in Health Informatics 2021; 10: 1-6.
  • Bache K, Lichman M. UCI machine learning repository. University of California, Irvine, School of Information and Computer Sciences 2013.
  • UCI Machine Learning Repository. https://doi.org/10.24432/C5Q59J (Erişim tarihi: 21.12.2024).
  • Rosly R, Makhtar M, Awang MK, Awang MI, Rahman MNA. Analyzing performance of classifiers for medical datasets. International Journal of Engineering & Technology 2018; 7: 136-138.
  • Boukerche A, Zheng L, Alfandi O. Outlier detection: Methods, models, and classification. ACM Computing Surveys (CSUR) 2020; 53(3): 1-37.
  • Alimohammadi H, Chen SN. Performance evaluation of outlier detection techniques in production timeseries: A systematic review and meta-analysis. Expert Systems with Applications 2022; 191: 1-10.
  • Xu H, Zhang L, Li P, Zhu F. Outlier detection algorithm based on k-nearest neighbors-local outlier factor. Journal of Algorithms & Computational Technology 2022; 16: 1-12.
  • Dash CSK, Behera AK, Dehuri S, Ghosh A. An outliers detection and elimination framework in classification task of data mining. Decision Analytics Journal 2023; 6: 1-8.
  • Fredianto F, Putri DAP. Comparison of the interquartile range algorithm and local outlier factor on Australian weather data sets. In: Proceeding of International Summit on Education, Technology, and Humanity 2021, Surakarta, Indonesia; 2021.
  • Bölükbaşı İB. Dengesiz bir diyabet veri setinde makine öğrenmesi yöntemlerini kullanarak diyabet hastalığının teşhisi. Yüksek lisans tezi. Bursa: Uludag Üniversitesi; 2023.
  • Dablain D, Krawczyk B, Chawla NV. DeepSMOTE: Fusing deep learning and SMOTE for imbalanced data. IEEE Transactions on Neural Networks and Learning Systems 2022; 34(9): 6390-6404.
  • Pradipta GA, Wardoyo R, Musdholifah A, Sanjaya INH, Ismail M. SMOTE for handling imbalanced data problem: A review. In: Sixth international conference on informatics and computing (ICIC) Jakarta, Indonesia; 2021.
  • Henderi H, Wahyuningsih T, Rahwanto E. Comparison of Min-Max normalization and Z-Score Normalization in the K-nearest neighbor (kNN) Algorithm to Test the Accuracy of Types of Breast Cancer. International Journal of Informatics and Information Systems 2021; 4(1): 13-20.
  • Yavuz S, Deveci M. İstatiksel normalizasyon tekniklerinin yapay sinir ağin performansina etkisi. Erciyes Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi 2012; (40): 167-187.
  • Dash M, Liu H. Feature selection for classification. Intelligent data analysis 1997; 1(1-4): 131-156.
  • Kumar V, Minz S. Feature selection: A literature review. Smart Computing Review 2014; 4: 211–229.
  • Al-Wajih R, Abdulkadir SJ, Aziz N, Al-Tashi Q, Talpur N. Hybrid binary grey wolf with Harris hawks optimizer for feature selection. IEEE Access 2021; 9: 31662-31677.
  • Agrawal P, Ganesh T, Mohamed AW. Chaotic gaining sharing knowledge-based optimization algorithm: An improved metaheuristic algorithm for feature selection. Soft Computing 2021; 25(14): 9505-9528.
  • Alnowami MR, Abolaban FA, Taha E. A wrapper-based feature selection approach to investigate potential biomarkers for early detection of breast cancer. Journal of Radiation Research and Applied Sciences 2022; 15(1): 104-110.
  • Yao G, Hu X, Wang G. A novel ensemble feature selection method by integrating multiple ranking information combined with an SVM ensemble model for enterprise credit risk prediction in the supply chain. Expert Systems with Applications 2022; 200: 1-23.
  • Cengil E, Çınar A. Göğüs verileri metrikleri üzerinden kanser sınıflandırılması. Dicle Üniversitesi Mühendislik Fakültesi Mühendislik Dergisi 2020; 11(2): 513-519.

VERİ ÖN İŞLEME TEKNİKLERİNİN SAĞLIK VERİLERİNİN SINIFLANDIRMA BAŞARISINA ETKİSİNİN İNCELENMESİ

Yıl 2024, Cilt: 11 Sayı: 24, 475 - 488, 31.12.2024
https://doi.org/10.54365/adyumbd.1466631

Öz

Veri madenciliği sürecinin en temel adımlarından biri olan veri ön işleme teknikleri, literatürde sıklıkla başvurulan bir süreçtir. Bu çalışmada Hepatit hastalığına ait veri kümesi üzerinde sağlık alanında sık kullanılan veri ön işleme tekniklerinin etkinliği incelenmiştir. Sırasıyla eksik veri, dengesiz veri kümesi, aykırı veri, normalizasyon ve özellik seçimi işlemleri uygulanmıştır. Veri kümesinin her adımda elde edilen yeni versiyonu için literatürde sıklıkla kullanılan beş makine öğrenmesi yöntemi (KNN, LR, RF, SVM, ANN) ile sınıflandırma yapılmıştır. Elde edilen sonuçlar, doğru ve gerekli veri ön işleme tekniklerinin seçimi ile model başarısına olumlu katkısını desteklemektedir. Tüm aşama sonunda elde edilen model performansları %85 ve üzerinde olup, tüm performans belirleme ölçütleri bazında tutarlı sonuçlar göstermektedir. Her bir veri ön işleme model performansına kademeli olarak katkıda bulunmuş, en yüksek katkı ise son aşamada uygulanan özellik seçimi ile sağlanmıştır. Özellik seçimi, modelin performansını belirgin şekilde iyileştirerek sınıflandırma başarısına önemli ölçüde katkı sağlamıştır.

Kaynakça

  • Erdoğan F. İkili gri kurt optimizasyon algoritmasinin ikili optimizasyon problemlerine uygulanmasi. Yüksek lisans tezi. Konya: Necmettin Erbakan Üniversitesi; 2023.
  • Li J, Cheng K, Wang S, Morstatter F, Trevino RP, Tang J, Liu H. Feature selection: A data perspective. ACM Computing Surveys (CSUR) 2017; 50(6): 1-45.
  • Dogan A, Birant D. Machine learning and data mining in manufacturing. Expert Systems with Applications 2021; 166: 1-22.
  • Oğuzlar A. Veri ön işleme. Erciyes Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi 2003; 21: 67-76.
  • Nart A. Kalp hastaliklarini tahmin etmede veri madenciliği teknikleriyle etkili algoritmanin tespit edilmesi. Yüksek lisans tezi. Ankara: Gazi Üniversitesi; 2023.
  • García S, Luengo J, Herrera F. Data preprocessing in data mining. 72 Cham, Switzerland:Springer; 2015.
  • García S, Ramírez-Gallego S, Luengo J, Benítez JM, Herrera F. Big data preprocessing: methods and prospects. Big Data Analytics 2016; 1: 1-22.
  • Zelaya CVG. Towards explaining the effects of data preprocessing on machine learning. In: IEEE 35th International Conference on Data Engineering (ICDE), Macau SAR, China; 2019.
  • Özoğur HN, Orman Z. Sağlik verilerinin analizinde veri ön işleme adimlarinin makine öğrenmesi yöntemlerinin performansina etkisi. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi 2023; 16(1): 23-33.
  • Saygın E, Baykara M. Karaciğer yetmezliği teşhisinde özellik seçimi kullanarak makine öğrenmesi yöntemlerinin başarılarının ölçülmesi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 2021; 33(2): 367-377.
  • Nahzat S, Yağanoğlu M. Diabetes prediction using machine learning classification algorithms. Avrupa Bilim ve Teknoloji Dergisi 2021; 24: 53-59.
  • Mitra M, Samanta RK. A study on UCI hepatitis disease dataset using soft computing. Model. Meas. Control C 2017; 78(4): 467-477.
  • Orooji A, Kermani F. Machine learning based methods for handling imbalanced data in hepatitis diagnosis. Frontiers in Health Informatics 2021; 10: 1-6.
  • Bache K, Lichman M. UCI machine learning repository. University of California, Irvine, School of Information and Computer Sciences 2013.
  • UCI Machine Learning Repository. https://doi.org/10.24432/C5Q59J (Erişim tarihi: 21.12.2024).
  • Rosly R, Makhtar M, Awang MK, Awang MI, Rahman MNA. Analyzing performance of classifiers for medical datasets. International Journal of Engineering & Technology 2018; 7: 136-138.
  • Boukerche A, Zheng L, Alfandi O. Outlier detection: Methods, models, and classification. ACM Computing Surveys (CSUR) 2020; 53(3): 1-37.
  • Alimohammadi H, Chen SN. Performance evaluation of outlier detection techniques in production timeseries: A systematic review and meta-analysis. Expert Systems with Applications 2022; 191: 1-10.
  • Xu H, Zhang L, Li P, Zhu F. Outlier detection algorithm based on k-nearest neighbors-local outlier factor. Journal of Algorithms & Computational Technology 2022; 16: 1-12.
  • Dash CSK, Behera AK, Dehuri S, Ghosh A. An outliers detection and elimination framework in classification task of data mining. Decision Analytics Journal 2023; 6: 1-8.
  • Fredianto F, Putri DAP. Comparison of the interquartile range algorithm and local outlier factor on Australian weather data sets. In: Proceeding of International Summit on Education, Technology, and Humanity 2021, Surakarta, Indonesia; 2021.
  • Bölükbaşı İB. Dengesiz bir diyabet veri setinde makine öğrenmesi yöntemlerini kullanarak diyabet hastalığının teşhisi. Yüksek lisans tezi. Bursa: Uludag Üniversitesi; 2023.
  • Dablain D, Krawczyk B, Chawla NV. DeepSMOTE: Fusing deep learning and SMOTE for imbalanced data. IEEE Transactions on Neural Networks and Learning Systems 2022; 34(9): 6390-6404.
  • Pradipta GA, Wardoyo R, Musdholifah A, Sanjaya INH, Ismail M. SMOTE for handling imbalanced data problem: A review. In: Sixth international conference on informatics and computing (ICIC) Jakarta, Indonesia; 2021.
  • Henderi H, Wahyuningsih T, Rahwanto E. Comparison of Min-Max normalization and Z-Score Normalization in the K-nearest neighbor (kNN) Algorithm to Test the Accuracy of Types of Breast Cancer. International Journal of Informatics and Information Systems 2021; 4(1): 13-20.
  • Yavuz S, Deveci M. İstatiksel normalizasyon tekniklerinin yapay sinir ağin performansina etkisi. Erciyes Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi 2012; (40): 167-187.
  • Dash M, Liu H. Feature selection for classification. Intelligent data analysis 1997; 1(1-4): 131-156.
  • Kumar V, Minz S. Feature selection: A literature review. Smart Computing Review 2014; 4: 211–229.
  • Al-Wajih R, Abdulkadir SJ, Aziz N, Al-Tashi Q, Talpur N. Hybrid binary grey wolf with Harris hawks optimizer for feature selection. IEEE Access 2021; 9: 31662-31677.
  • Agrawal P, Ganesh T, Mohamed AW. Chaotic gaining sharing knowledge-based optimization algorithm: An improved metaheuristic algorithm for feature selection. Soft Computing 2021; 25(14): 9505-9528.
  • Alnowami MR, Abolaban FA, Taha E. A wrapper-based feature selection approach to investigate potential biomarkers for early detection of breast cancer. Journal of Radiation Research and Applied Sciences 2022; 15(1): 104-110.
  • Yao G, Hu X, Wang G. A novel ensemble feature selection method by integrating multiple ranking information combined with an SVM ensemble model for enterprise credit risk prediction in the supply chain. Expert Systems with Applications 2022; 200: 1-23.
  • Cengil E, Çınar A. Göğüs verileri metrikleri üzerinden kanser sınıflandırılması. Dicle Üniversitesi Mühendislik Fakültesi Mühendislik Dergisi 2020; 11(2): 513-519.
Toplam 33 adet kaynakça vardır.

Ayrıntılar

Birincil Dil Türkçe
Konular Makine Öğrenme (Diğer)
Bölüm Makaleler
Yazarlar

Feyza Erdoğan 0000-0002-9750-0495

Vahit Tongur 0000-0001-5419-7839

Betül Uzbaş 0000-0002-0255-5988

Erken Görünüm Tarihi 29 Aralık 2024
Yayımlanma Tarihi 31 Aralık 2024
Gönderilme Tarihi 8 Nisan 2024
Kabul Tarihi 22 Kasım 2024
Yayımlandığı Sayı Yıl 2024 Cilt: 11 Sayı: 24

Kaynak Göster

APA Erdoğan, F., Tongur, V., & Uzbaş, B. (2024). VERİ ÖN İŞLEME TEKNİKLERİNİN SAĞLIK VERİLERİNİN SINIFLANDIRMA BAŞARISINA ETKİSİNİN İNCELENMESİ. Adıyaman Üniversitesi Mühendislik Bilimleri Dergisi, 11(24), 475-488. https://doi.org/10.54365/adyumbd.1466631
AMA Erdoğan F, Tongur V, Uzbaş B. VERİ ÖN İŞLEME TEKNİKLERİNİN SAĞLIK VERİLERİNİN SINIFLANDIRMA BAŞARISINA ETKİSİNİN İNCELENMESİ. Adıyaman Üniversitesi Mühendislik Bilimleri Dergisi. Aralık 2024;11(24):475-488. doi:10.54365/adyumbd.1466631
Chicago Erdoğan, Feyza, Vahit Tongur, ve Betül Uzbaş. “VERİ ÖN İŞLEME TEKNİKLERİNİN SAĞLIK VERİLERİNİN SINIFLANDIRMA BAŞARISINA ETKİSİNİN İNCELENMESİ”. Adıyaman Üniversitesi Mühendislik Bilimleri Dergisi 11, sy. 24 (Aralık 2024): 475-88. https://doi.org/10.54365/adyumbd.1466631.
EndNote Erdoğan F, Tongur V, Uzbaş B (01 Aralık 2024) VERİ ÖN İŞLEME TEKNİKLERİNİN SAĞLIK VERİLERİNİN SINIFLANDIRMA BAŞARISINA ETKİSİNİN İNCELENMESİ. Adıyaman Üniversitesi Mühendislik Bilimleri Dergisi 11 24 475–488.
IEEE F. Erdoğan, V. Tongur, ve B. Uzbaş, “VERİ ÖN İŞLEME TEKNİKLERİNİN SAĞLIK VERİLERİNİN SINIFLANDIRMA BAŞARISINA ETKİSİNİN İNCELENMESİ”, Adıyaman Üniversitesi Mühendislik Bilimleri Dergisi, c. 11, sy. 24, ss. 475–488, 2024, doi: 10.54365/adyumbd.1466631.
ISNAD Erdoğan, Feyza vd. “VERİ ÖN İŞLEME TEKNİKLERİNİN SAĞLIK VERİLERİNİN SINIFLANDIRMA BAŞARISINA ETKİSİNİN İNCELENMESİ”. Adıyaman Üniversitesi Mühendislik Bilimleri Dergisi 11/24 (Aralık 2024), 475-488. https://doi.org/10.54365/adyumbd.1466631.
JAMA Erdoğan F, Tongur V, Uzbaş B. VERİ ÖN İŞLEME TEKNİKLERİNİN SAĞLIK VERİLERİNİN SINIFLANDIRMA BAŞARISINA ETKİSİNİN İNCELENMESİ. Adıyaman Üniversitesi Mühendislik Bilimleri Dergisi. 2024;11:475–488.
MLA Erdoğan, Feyza vd. “VERİ ÖN İŞLEME TEKNİKLERİNİN SAĞLIK VERİLERİNİN SINIFLANDIRMA BAŞARISINA ETKİSİNİN İNCELENMESİ”. Adıyaman Üniversitesi Mühendislik Bilimleri Dergisi, c. 11, sy. 24, 2024, ss. 475-88, doi:10.54365/adyumbd.1466631.
Vancouver Erdoğan F, Tongur V, Uzbaş B. VERİ ÖN İŞLEME TEKNİKLERİNİN SAĞLIK VERİLERİNİN SINIFLANDIRMA BAŞARISINA ETKİSİNİN İNCELENMESİ. Adıyaman Üniversitesi Mühendislik Bilimleri Dergisi. 2024;11(24):475-88.