TY - JOUR T1 - Makine Öğrenmesi Algoritmaları Kullanılarak Türkiye’de Bölgesel Salgın Risk Analizi ve Haritalandırılması TT - Regional Epidemic Risk Analysis and Mapping in Turkey Using Machine Learning Algorithms AU - Karcıoğlu, Abdullah Ammar AU - Okudan, Beyzanur PY - 2025 DA - November Y2 - 2025 DO - 10.21597/jist.1683256 JF - Journal of the Institute of Science and Technology JO - J. Inst. Sci. and Tech. PB - Iğdır Üniversitesi WT - DergiPark SN - 2536-4618 SP - 1178 EP - 1192 VL - 15 IS - 4 LA - tr AB - Bölgesel salgın risklerinin belirlenmesi, halk sağlığını koruma, sağlık hizmetlerini planlama ve kaynak tahsisinin etkin yönetimi açısından büyük önem taşımaktadır. Salgın hastalıklar, hızlı yayılma potansiyelleri nedeniyle özellikle nüfus yoğunluğu yüksek bölgelerde ciddi sağlık ve ekonomik riskler oluşturmaktadır. Bu çalışmada, Türkiye’nin il bazlı salgın risk analizini gerçekleştirmek ve risk seviyelerini haritalandırmak amacıyla makine öğrenimi teknikleri kullanılmıştır. Çalışmada kullanılan veri seti, Türkiye İstatistik Kurumu (TÜİK), Google Cloud Console ve Wikipedia’dan elde edilen demografik, coğrafi, sağlık altyapısı ve ulaşım verilerinin entegrasyonu ile oluşturulmuştur. Veri hazırlık sürecinde eksik veri tamamlama, ölçeklendirme ve kategorik değişkenlerin sayısal hale getirilmesi işlemleri uygulanmıştır. Öznitelik önem sıralaması, Rastgele Orman algoritması kullanılarak belirlenmiş ve en etkili değişkenler seçilerek analiz süreci optimize edilmiştir. Salgın risk tahmini için Lojistik Regresyon (LR), Rastgele Orman (RO), Destek Vektör Makineleri (DVM), Naive Bayes (NB) ve XGBoost (XGB) algoritmaları kullanılmıştır. Algoritmaların performansı doğruluk oranı, ROC eğrisi, AUC skoru ve karışıklık matrisi analiz edilerek karşılaştırılmıştır. Elde edilen sonuçlara göre, XGB algoritması %98 doğruluk oranı ile en iyi performansı sergilemiştir. RO ve DVM %96 doğruluk oranı ile başarılı sonuçlar elde etmiştir. NB algoritması %92 doğruluk oranına sahip olup hızlı tahminleme avantajı sağlamıştır. En düşük doğruluk oranına sahip algoritmalar ise %88 doğruluk ile LR olmuştur. Risk seviyelerinin coğrafi dağılımı görselleştirilmiştir ve Türkiye'nin il bazında salgın risk haritası oluşturulmuştur. Ayrıca, salgın yayılımı simülasyonlarla modellenmiştir. Bu çalışma, sağlık risk seviyelerinin tahmini ve haritalandırılması açısından karar alıcılara veri odaklı bir yaklaşım sunmayı amaçlamaktadır. Gelecekte, gerçek zamanlı veri entegrasyonu, ileri seviye simülasyon modelleri ve derin öğrenme teknikleri üzerine yoğunlaşılabilir. KW - Salgın risk analizi KW - Nüfus yoğunluğu KW - Simülasyon KW - Makine öğrenimi N2 - Identifying regional epidemic risks is of great importance for protecting public health, planning healthcare services, and effectively managing resource allocation. Due to their potential for rapid spread, epidemic diseases pose serious health and economic risks, especially in regions with high population density. In this study, machine learning techniques were used to conduct a province-based epidemic risk analysis of Turkey and to map the risk levels. The dataset used in the study was created by integrating demographic, geographic, healthcare infrastructure, and transportation data obtained from Turkish Statistical Institute (TUIK), Google Cloud Console, and Wikipedia. During the data preparation process, missing data imputation, scaling, and numerical conversion of categorical variables were applied. Feature importance ranking was determined using the Random Forest algorithm, and the analysis process was optimized by selecting the most influential variables. Logistic Regression (LR), Random Forest (RF), Support Vector Machines (SVM), Naive Bayes (NB), and XGBoost (XGB) algorithms were used for epidemic risk prediction. The performance of the algorithms was compared by analyzing accuracy, ROC curve, AUC score, and confusion matrix. According to the results obtained, the XGB algorithm showed the best performance with 98% accuracy. RF and SVM achieved successful results with 96% accuracy. The NB algorithm provided the advantage of fast prediction with an accuracy of 92%. The algorithm with the lowest accuracy was LR, with 88%. The geographical distribution of risk levels was visualized, and a province-based epidemic risk map of Turkey was created. In addition, the spread of the epidemic was modeled through simulations. This study aims to provide a data-driven approach to decision-makers for the prediction and mapping of health risk levels. In the future, the focus may shift toward real-time data integration, advanced simulation models, and deep learning techniques. CR - Chen, T., ve Guestrin, C. (2016, August). Xgboost: A scalable tree boosting system. In Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining (pp. 785-794). https://doi.org/10.1145/2939672.2939785 CR - Chicco, D., ve Jurman, G. (2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC genomics, 21, 1-13. https://doi.org/10.1186/s12864-019-6413-7 C humachenko, D., Meniailov, I., Bazilevych, K., Chumachenko, T., ve Yakovlev, S. (2022). Investigation of statistical machine learning models for COVID-19 epidemic process simulation: Random forest, K-nearest neighbors, gradient boosting. Computation, 10(6), 86. https://doi.org/10.3390/computation10060086 CR - Çakmak, M. A., Kurt, M. E., ve Çakmak, C. (2022). Makine Öğrenmesi Algoritmaları ile Covid-19 Hastalarının Mortalite Risklerinin Hesaplanması. Süleyman Demirel Üniversitesi Vizyoner Dergisi, 13(35), 994-1011. https://doi.org/10.21076/vizyoner.1074212 CR - Dabbagh, R., ve Yousefi, S. (2019). A hybrid decision-making approach based on FCM and MOORA for occupational health and safety risk analysis. Journal of safety research, 71, 111-123. https://doi.org/10.1016/j.jsr.2019.09.021 CR - Edward, J., ve Biddle, D. J. (2017). Using geographic information systems (GIS) to examine barriers to healthcare access for Hispanic and Latino immigrants in the US south. Journal of racial and ethnic health disparities, 4, 297-307. https://doi.org/10.1007/s40615-016-0229-9 CR - Goodfellow, I. J., Shlens, J., ve Szegedy, C. (2014). Explaining and harnessing adversarial examples. arXiv preprint arXiv:1412.6572. https://doi.org/10.48550/arXiv.1412.6572 CR - Guido, R., Ferrisi, S., Lofaro, D., ve Conforti, D. (2024). An overview on the advancements of support vector machine models in healthcare applications: a review. Information, 15(4), 235. https://doi.org/10.3390/info15040235 CR - Gündüz, M. Ş., ve Işık, G. (2023a). A new YOLO-based method for real-time crowd detection from video and performance analysis of YOLO models. Journal of Real-Time Image Processing, 20(5). https://doi.org/10.1007/s11554-023-01276-w CR - Gündüz, M. Ş., ve Işık, G. (2023b). A new YOLO-based method for social distancing from real-time videos. Neural Computing and Applications, 35, 15261–15271. https://doi.org/10.1007/s00521-023-08556-3 CR - Karcıoğlu, A. A., Tanışman, S., ve Bulut, H. (2021). Türkiye'de COVID-19 Bulaşısının ARIMA Modeli ve LSTM Ağı Kullanılarak Zaman Serisi Tahmini. Avrupa Bilim ve Teknoloji Dergisi, (32), 288-297. https://doi.org/10.31590/ejosat.1039394 CR - Khalid, J., Chuanmin, M., Altaf, F., Shafqat, M. M., Khan, S. K., ve Ashraf, M. U. (2024). AI-Driven Risk Management and Sustainable Decision-Making: Role of Perceived Environmental Responsibility. Sustainability, 16(16), 6799. https://doi.org/10.3390/su16166799 CR - Lever, J., Krzywinski, M., ve Altman, N. (2016). Points of significance: classification evaluation. Nature methods, 13(8), 603-604. https://doi.org/10.1038/nmeth.3945 CR - Madry, A., Makelov, A., Schmidt, L., Tsipras, D., ve Vladu, A. (2017). Towards deep learning models resistant to adversarial attacks. arXiv preprint arXiv:1706.06083. https://doi.org/10.48550/arXiv.1706.06083 CR - Miyazaki, Y., Kawakami, M., Kondo, K., Hirabe, A., Kamimoto, T., Akimoto, T., ... ve Tsuji, T. (2024). Logistic regression analysis and machine learning for predicting post-stroke gait independence: a retrospective study. Scientific reports, 14(1), 21273. https://doi.org/10.1038/s41598-024-72206-4 CR - Naim, A. (2023). Application of machine learning techniques to identify the business financial risks. Academy of Marketing Studies Journal, 27(S5), 1-11. Nazia, N., Butt, Z. A., Bedard, M. L., Tang, W. C., Sehar, H., ve Law, J. (2022). Methods used in the spatial and spatiotemporal analysis of COVID-19 epidemiology: a systematic review. International journal of environmental research and public health, 19(14), 8267. https://doi.org/10.3390/ijerph19148267 CR - Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., ... ve Duchesnay, É. (2011). Scikit-learn: Machine learning in Python. The Journal of machine Learning research, 12, 2825-2830. CR - Powers, David ve Ailab., (2011). Evaluation: From precision, recall and F-measure to ROC, informedness, markedness ve correlation. J. Mach. Learn. Technol. 2. 2229-3981. https://doi.org/10.9735/2229-3981 CR - Shastri, S., Singh, K., Kumar, S., Kour, P., ve Mansotra, V. (2020). Time series forecasting of Covid-19 using deep learning models: India-USA comparative case study. Chaos, Solitons ve Fractals, 140, 110227. https://doi.org/10.1016/j.chaos.2020.110227 CR - Sun, Z., Wang, G., Li, P., Wang, H., Zhang, M., ve Liang, X. (2024). An improved random forest based on the classification accuracy and correlation measurement of decision trees. Expert Systems with Applications, 237, 121549. https://doi.org/10.1016/j.eswa.2023.120515 CR - Tharwat, A. (2021). Classification assessment methods. Applied computing and informatics, 17(1), 168-192. https://doi.org/10.1016/j.aci.2018.08.003 UR - https://doi.org/10.21597/jist.1683256 L1 - https://dergipark.org.tr/tr/download/article-file/4804167 ER -