Yüksek boyutlu veri setlerinde, makine öğrenmesi ile çalışmak iş yükünde artışa sebep olmaktadır. Bu nedenle tahminleme işlemleri yapılmadan önce, tüm veri seti içerisindeki en anlamlı veri noktalarının belirlenmesi gerekmektedir. Özellikle makine öğrenmesi alanında model performansını artırmak için kritik öneme sahiptir. Bu nedenle daha önce topraktaki kum, silt ve kil oranlarını belirlemek amacıyla önerilen bir sistemle elde edilen 14400 özellikli veri seti üzerinde, literatürde sıklıkla kullanılan Karşılıklı Bilgi, Temel Bileşen Analizi, Ki-kare, Bilgi Kazancı ve Varyans Eşiği Belirleme özellik seçme metotları denenmiştir. Bu 5 metodun başarı sonuçları R-kare (R2) ve Ortalama Mutlak Hata (OMH) cinsinden karşılaştırmalı olarak sunulmuştur. En iyi sonuçlar kum için Bilgi Kazancı metodu ile (R2 = 0.44), silt için Ki-kare ile (R2 = 0.17), kil için Varyans Eşiği Belirleme ile (R2 = 0.61) elde edilmiştir.
Makine öğrenmesi Özellik çıkarma Zaman serisi Boyut indirgeme
Working with high-dimensional datasets increases the workload on machine learning models. Therefore, before making predictions, the most meaningful data points in the entire data set must be determined. It is highly important to improve model performance, especially in the field of machine learning. For this reason, five feature selection methods—Mutual Information, Principal Component Analysis, Chi-square, Information Gain, and Variance Thresholding—commonly used in the literature, were tested on the 14400 feature data set obtained with a system previously proposed to determine the sand, silt and clay ratios in the soil. The success of these five methods is presented comparatively using R-square (R²) and Mean Absolute Error (MAE) metrics. The best results were obtained with the Information Gain method for sand (R2 = 0.44), with Chi-square for silt (R2 = 0.17), and with Variance Thresholding for clay (R2 = 0.61).
Machine learning Feature extraction Time series Dimension reduction
Birincil Dil | İngilizce |
---|---|
Konular | Yapay Yaşam ve Karmaşık Uyarlanabilir Sistemler |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 25 Aralık 2024 |
Gönderilme Tarihi | 19 Ağustos 2024 |
Kabul Tarihi | 23 Aralık 2024 |
Yayımlandığı Sayı | Yıl 2024 |