Bu çalışmada ele alınan bir verinde yer alan çok sayıdaki değişken arasından özellik seçim yöntemleri yardımı ile daha az sayıda ve anlamlı değişkenlerin belirlenmesi amaçlanmıştır. Özellik seçim yöntemleri son yıllarda istatistik bilimi içerisinde büyük önem arz eden etkili ve araştırmacılara büyük kolaylıklar sağlayan yöntemlerdir. Yöntem içerisinde kullanılan tekniğe bağlı olarak farklı sayıda değişkenlerin modele alınmasına sebep olmakla beraber doğru sınıflandırma oranları değişebilmektedir. Bu bağlamda ilgilenilen çok dayıda değişkene sahip bir veri seti içerisindeki değişkenlerin yüksek bir sınıflama yüzdesi ile daha az sayıda yeni değişkenle ifade edilebilmesi zaman, maliyet gibi konularda olumlu katkılar sunmaktadır. Bu çalışmada ele alınan veri setinde yer alan değişkenler öncelikle farklı özellik seçim yöntemleri ile analiz edilerek yeni veri setleri oluşturulmuştur. Daha sonra oluşturulan bu yeni ve farklı sayıda değişken içeren ver setleri, farklı makine öğrenme teknikleri ile analiz edilerek en iyi makine öğrenme tekniği belirlenmiştir. Bu çalışma kronik böbrek hastalığı verileri ele alınarak farklı özellik seçimleri yöntemleri ile veri setinde yer alan değişkenler sınıflandırılmıştır. Çalışma sonuçları incelendiğinde en yüksek sınıflandırma oranı %99.75 ile rassal orman ve çok katmanlı algılayıcı tekniğini içeren korelasyon tabanlı özellik seçimi yönteminden ve yine aynı oran ile k en yakın komşu tekniğini içeren filtre yönteminden elde edilmiştir. Çalışma sonuçları daha önceden aynı veri seti kullanılarak yapılan diğer araştırmalarla karşılaştırıldığında, bu çalışmadan elde edilen doğru sınıflama yüzdesinin diğer çalışmalardan daha yüksek olduğunu göstermektedir.
In this study, it is aimed to determine fewer and significant variables with the help of feature selection methods among a large number of variables in the data discussed. Feature selection methods are effective methods that have great importance in statistics in recent years and provide great convenience to researchers. Depending on the technique used in the method, different numbers of variables are included in the model, but the correct classification rates may vary. In this context, being able to express the variables in a data set with a large number of variables of interest with a high classification percentage and fewer new variables makes positive contributions to issues such as time and cost. The variables in the data set discussed in this study were firstly analyzed with different feature selection methods and new data sets were created. Afterwards, these new data sets containing different numbers of variables were analyzed with different machine learning techniques and the best machine learning technique was determined. In this study, chronic kidney disease data were handled and the variables in the data set were classified with different feature selection methods. When the results of the study are examined, the highest classification rate with 99.75% was obtained from the correlation-based feature selection method, which includes the random forest and multilayer perceptron technique, and the filter method, which includes the k-nearest neighbor technique, with the same rate. The results of the study show that the percentage of correct classification obtained from this study is higher than that of other studies, when compared with other studies using the same dataset.
Primary Language | English |
---|---|
Journal Section | Articles |
Authors | |
Early Pub Date | December 15, 2022 |
Publication Date | December 28, 2022 |
Submission Date | August 3, 2022 |
Published in Issue | Year 2022 Volume: 22 Issue: 6 |
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.