Makine öğrenmesi tahmin modelleri, şirketlerin finansal sıkıntıya girmeden tespit edilebilmesi açısından çok önemlidir ve son zamanlarda ampirik finansın en önemli araştırma konularından birisi haline gelmiştir. Bu alanda modeller geliştirilirken veriyi analize hazır hale getirmek için veri ön işleme adımları uygulanmaktadır. Bu adımlardan birisi veri setinde girdi olarak kullanılan finansal oranların boyutunun küçültülmesi olarak tanımlanabilen özellik seçimi yöntemidir. Bu aşama araştırmada kullanılacak özelliklerin en iyi alt kümesini seçme veya başka bir deyişle veriyi temsil edebilecek en önemli özelliklerin seçimi sürecidir. Bu çalışmada Temel Bileşenler Analizi (Principal Component Analysis (PCA)) ve Rastgele Orman- Özyinelemeli Özellik Seçimi (Random Forest - Recursive Feature Elimination (RF-RFE)) olmak üzere iki farklı özellik seçim yöntemi karşılaştırılmıştır. Deneylerde Türkiye'de faaliyet gösteren ticari firmalar kullanılmıştır. Seçilen özelliklerin doğru tahmin başarısı AdaBoost ve Stokastik Gradient Descent modeli ile test edilmiştir. Deneysel sonuçlarımız, PCA ile karşılaştırıldığında, RF-RFE'nin daha etkili bir özellik seçim yöntemi olduğunu göstermektedir.
Özellik Seçimi Temel Bileşenler Analizi Rastgele Orman- Özyinelemeli Özellik seçimi AdaBoost Stochastic Gradient Descent
Machine learning prediction models are very important in detecting companies without going into financial distress and have recently become one of the most important research topics in empirical finance. While developing models in this area, data preprocessing steps are applied to make the data ready for analysis. One of these steps is the feature selection method, which can be defined as reducing the size of the financial ratios used as input in the data set. This stage is the process of choosing the best subset of features to be used in the research, or in other words, the selection of the most important features that can represent the data. In this paper, two different feature selection methods, Principal Component Analysis (PCA) and Random Forest - Recursive Feature Elimination (RF-RFE)) are compared. Commercial companies operating in Turkey were used in the experiments. The correct prediction success of the selected features was tested with AdaBoost and Stochastic Gradient Descent model. Our experimental results show that RF-RFE is a more efficient feature selection method compared to PCA.
Feature Selection Principal Component Analysis Random Forest-Recursive Feature Elimination AdaBoost Stochastic Gradient Descent
Birincil Dil | İngilizce |
---|---|
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 17 Ekim 2022 |
Gönderilme Tarihi | 24 Şubat 2022 |
Yayımlandığı Sayı | Yıl 2022 Cilt: 13 Sayı: 3 |