With the innovations in technology and informatics, the size and diversity of the data obtained has increased and it has become easier to record and share this data. Computers and especially machine learning algorithms play a major role in the analysis of this data, which is very difficult to analyze by human hands. In this analysis process, the data preprocessing stage plays a key role in studies on data. In the data preprocessing stage, the missing data is completed and the data scaling process is carried out. In the literature, there are studies that show the effects of missing data completion and data scaling methods on algorithms separately. However, these two important stages need to be evaluated together. In this study, the completion of missing data on the Hepatocellular Carcinoma (HCC) disease data set and the effect of data scaling approaches on the classification success of Artificial Neural Networks, Support Vector Machines and Random Forest Algorithms were investigated. As a result of the research, it was determined that the best classification was achieved by using the mean approach to complete the missing data and min-max data scaling. In addition, it has been determined that the random forest algorithm is more successful than other algorithms in terms of classification
Missing data Hepatocellular Carcinoma Data Scaling Machine learning
Teknoloji ve bilişim alanındaki yenilikler ile elde edilen verinin büyüklüğü ve çeşitliliği artarak bu verilerin kaydedilmesi ve paylaşılması da kolaylaşmıştır. İnsan eli ile analiz edilmesi oldukça zor olan bu verilerin analizinde bilgisayarlar ve özellikle makine öğrenmesi algoritmaları büyük rol oynamaktadır. Bu analiz sürecinde veri ön işleme aşaması veri üzerinde yapılan çalışmalarda kilit rol oynamaktadır. Veri ön işleme aşamasında eksik verilerin tamamlanması ve veri ölçekleme işlemi gerçekleştirilmektedir. Literatürde eksik veri tamamlaması ile veri ölçekleme yöntemlerinin algoritmalar üzerindeki etkisini ayrı ayrı gösteren çalışmalar bulunmaktadır. Fakat bu iki önemli aşamanın bir arada değerlendirilmesi de gerekmektedir. Bu çalışmada Hepatoselüler Karsinoma (HCC) hastalığı veri seti üzerinde eksik verilerin tamamlanması ve veri ölçekleme yaklaşımlarının Yapay Sinir Ağları, Destek Vektör Makinaları ve Rassal Orman Algoritmalarının sınıflandırma başarılarına etkisi araştırılmıştır. Araştırma sonucunda en iyi sınıflandırmanın eksik verilerin tamamlanmasında ortalama yaklaşımı kullanılması ve min-max veri ölçeklemesi ile gerçekleştiği tespit edilmiştir. Ayrıca sınıflandırma açısından Rassal Orman algoritmasının diğer algoritmalara göre daha başarılı olduğu tespit edilmiştir
Eksik veri Hepatoselüler Karsinoma Veri Ölçekleme Makine öğrenmesi Missing data Hepatocellular Carcinoma Data Scaling Machine learning
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 31 Ocak 2023 |
Yayımlandığı Sayı | Yıl 2023 |