Makine öğrenme çalışmalarındaki ana amaçlarından biri, belirli bir araştırma problemindeki en önemli değişkenleri belirlemektir. Bu amaca ulaşmak için çeşitli algoritmalar geliştirilmiştir. Random forest, Cubist ve MARS algoritmaları bu algoritmalar arasında en yaygın olanlardır. Klasik istatistiksel algoritmalar bir çıktı üzerinde etkili olan değişkenlerin önem seviyelerini elde etmede belirli bir dereceye kadar faydalı olmasına rağmen, makine öğrenme algoritmaları daha açık ve kesin sonuçlar sağlayabilir. Bu çalışmada, Random forest, Cubist ve MARS algoritmalarının tahmin sonuçları, hata kareler ortalaması, belirleyicilik katsayısı ve ortalama mutlak hata gibi bazı performans kriterleri açısından gerçek bir veri seti kullanılarak karşılaştırmalı olarak sunulmuştur. Sonuçlar, Random forest ve Cubist performanslarının birbirine benzer ama Mars'tan daha iyi olduğunu göstermektedir. Ek olarak, en önemli değişkenlerin sırası algoritma türüne göre değişmektedir. Algoritmalar arasında ki uyum istatistiksel bir bakışla incelenmiş ve tatmin edici bulunmuştur. Sonuç olarak, Random forest, Cubist ve MARS hem tahmin performansı hem de değişken önemi hesabında etkili ve kullanışlı algoritmalar olarak göz önüne alınabilir.
One of the main goals in machine learning studies is to determine the most significant variables on a specific research problem. Various algorithms have been developed to achieve this goal. Random forest, Cubist, and MARS algorithms are the most common ones among these algorithms. Although classical statistical algorithms have been useful to obtain the importance level of the effective variables on the output in a certain amount, the machine learning algorithms may provide clearer and more precise results. In this study, the estimation results of Random Forest, Cubist, and MARS algorithms have been presented comparatively in terms of some performance criteria like mean squares error, the coefficient of determination, and mean absolute error by using a real data set. The results show that the performances of Random Forest and Cubist are similar amongst themselves but better than MARS. Additionally, the rank of the most important variables varies according to the type of algorithm. The concordance between algorithms is investigated from a statistical perspective and found satisfactory. Consequently, Random Forest, Cubist, and MARS can be considered effective and reasonable algorithms for both estimation performance and variable importance evaluation.
Primary Language | English |
---|---|
Subjects | Artificial Intelligence, Statistics |
Journal Section | Research Articles |
Authors | |
Publication Date | December 21, 2021 |
Submission Date | August 30, 2021 |
Acceptance Date | October 6, 2021 |
Published in Issue | Year 2021 Volume: 2 Issue: 2 |