Feature selection is a crucial step in optimizing machine learning models, particularly in biomedical applications such as Parkinson’s disease classification based on speech data. This study employs multiple feature importance techniques to identify the most significant predictors and remove redundant variables, thereby improving model interpretability and efficiency. Four distinct methods—Permutation Importance, Mutual Information (MI), ANOVA F-score, and Random Forest Importance—are applied to assess the contribution of each feature to classification performance. Additionally, a correlation analysis is conducted to detect highly correlated features that may introduce multicollinearity. Many studies in existing literature on Parkinson’s disease classification overlook the impact of multicollinearity and redundant features, which can affect model stability and interpretability. Our study addresses this gap by systematically comparing four feature selection methods and incorporating correlation analysis to refine the feature set for improved accuracy and efficiency. By systematically refining the feature set, this approach ensures a balance between model complexity and predictive power, ultimately enhancing the reliability of automated Parkinson’s disease diagnosis from speech recordings.
Parkinson’s Disease (PD) feature engineering ensemble learning random forest ANOVA Mutual Information
Özellik seçimi, makine öğrenimi modellerini optimize etmede kritik bir adımdır ve özellikle konuşma verilerine dayalı Parkinson hastalığı sınıflandırması gibi biyomedikal uygulamalarda büyük önem taşır. Bu çalışma, en önemli öngörücü değişkenleri belirlemek ve gereksiz değişkenleri ortadan kaldırarak modelin yorumlanabilirliğini ve verimliliğini artırmak amacıyla birden fazla özellik önem derecelendirme tekniği kullanmaktadır.
Sınıflandırma performansına her özelliğin katkısını değerlendirmek için Dizinleme Önem (Permutation Importance), Karşılıklı Bilgi (Mutual Information - MI), ANOVA F-skoru ve Rastgele Orman Önemi (Random Forest Importance) olmak üzere dört farklı yöntem uygulanmaktadır. Ayrıca, yüksek derecede ilişkili özellikleri tespit ederek çoklu bağlantı (multicollinearity) sorununu önlemek için bir korelasyon analizi gerçekleştirilmiştir.
Mevcut literatürde Parkinson hastalığı sınıflandırmasına yönelik birçok çalışma, çoklu bağlantı ve gereksiz özelliklerin model kararlılığı ve yorumlanabilirliği üzerindeki etkisini göz ardı etmektedir. Bu çalışma, dört farklı özellik seçme yöntemini sistematik olarak karşılaştırarak ve korelasyon analizini entegre ederek bu boşluğu gidermeyi amaçlamaktadır. Özellik kümesini titizlikle rafine eden bu yaklaşım, model karmaşıklığı ile tahmin gücü arasında bir denge sağlayarak konuşma kayıtlarından otomatik Parkinson hastalığı teşhisinin güvenilirliğini artırmaktadır.
Parkinson’s Disease (PD) feature engineering ensemble learning random forest ANOVA Mutual Information
| Birincil Dil | İngilizce |
|---|---|
| Konular | Bilgi Modelleme, Yönetim ve Ontolojiler, Bilgi Sistemleri Geliştirme Metodolojileri ve Uygulamaları, Bilgi Sistemleri (Diğer) |
| Bölüm | Araştırma Makalesi |
| Yazarlar | |
| Gönderilme Tarihi | 15 Şubat 2025 |
| Kabul Tarihi | 17 Temmuz 2025 |
| Yayımlanma Tarihi | 30 Mart 2026 |
| IZ | https://izlik.org/JA72SP23KA |
| Yayımlandığı Sayı | Yıl 2026 Cilt: 19 Sayı: 1 |