Bu çalışma, İstanbul’daki hava kirliliği seviyelerinin (PM10, SO2, NO2, NOX ve NO) makine öğrenmesi ve hibrit yöntemlerle tahmin edilmesini amaçlamaktadır. Çalışmada, T.C. Çevre Bakanlığı’na ait Sürekli İzleme Merkezi’nden 2013-2025 tarihleri arasında toplanan 4500 veri noktası kullanılmıştır. Veri ön işleme aşamasında eksik değerler medyan ile tamamlanmış, kirleticiler arası ilişkiler korelasyon analizi ve görselleştirme teknikleriyle incelenmiştir. Modellemede Lineer Regresyon, Random Forest, SVR, XGBoost, hibrit (Voting ve Stacking) ve derin öğrenme modelleri test edilmiştir. Performans metrikleri (MSE, MAE, MAPE, R²) kapsamında en başarılı sonuçlar XGBoost ve Random Forest’tan elde edilmiştir. NO tahmininde Random Forest R²=0.967 ile en iyi performansı gösterirken, SO2 tahmininde tüm modeller düşük başarı sergilemiştir. Hibrit modeller, PM10 gibi karmaşık değişkenlerde dengeli tahminler sunarken, derin öğrenme bazı durumlarda aşırı öğrenme nedeniyle sınırlı kalmıştır. Sonuçlar, doğrusal olmayan ilişkilerin ağaç tabanlı modellerle daha iyi yakalandığını, ancak SO2 gibi yüksek varyanslı değişkenlerde ek özellik mühendisliği gerektiğini vurgulamaktadır. Çalışma, hava kalitesi yönetimi için hibrit modellerin etkinliğini ortaya koymakta ve gelecek araştırmalara meteorolojik veri entegrasyonu, hiperparametre optimizasyonu ve zaman serisi modellerinin kullanımını önermektedir
This study aims to predict air pollution levels (PM10, SO₂, NO₂, NOₓ, and NO) in Istanbul using machine learning and hybrid methods. A total of 4,500 data points collected between 2013 and 2025 from the Continuous Monitoring Center of the Ministry of Environment of the Republic of Turkey were used. During the data preprocessing phase, missing values were imputed using the median, and the interrelationships among pollutants were examined through correlation analysis and visualization techniques. The modeling phase involved testing various approaches including Linear Regression, Random Forest, Support Vector Regression (SVR), XGBoost, hybrid models (Voting and Stacking), and deep learning models. According to performance metrics (MSE, MAE, MAPE, and R²), XGBoost and Random Forest yielded the most accurate results. For NO prediction, Random Forest achieved the best performance with R² = 0.967, whereas all models showed limited success in predicting SO₂ levels. While hybrid models provided balanced predictions for complex variables such as PM10, deep learning models were occasionally constrained due to overfitting. The findings indicate that tree-based models are more effective in capturing non-linear relationships; however, additional feature engineering is required for high-variance variables like SO₂. Overall, the study demonstrates the effectiveness of hybrid models in air quality management and suggests the integration of meteorological data, hyperparameter optimization, and the adoption of time series models for future research.
| Birincil Dil | Türkçe |
|---|---|
| Konular | İstatistik (Diğer) |
| Bölüm | Makaleler |
| Yazarlar | |
| Yayımlanma Tarihi | 23 Ekim 2025 |
| Gönderilme Tarihi | 20 Haziran 2025 |
| Kabul Tarihi | 18 Temmuz 2025 |
| Yayımlandığı Sayı | Yıl 2025 Cilt: 6 Sayı: 2 |