Comparison of Predictive Performance of Machine Learning Methods in the Diagnosis of Crimean-Congo Hemorrhagic Fever
Yıl 2025,
Cilt: 6 Sayı: 2, 52 - 61, 31.05.2025
Esra Gültürk
,
Hüdaverdi Bircan
,
Erdem Karabulut
,
Nazif Elaldı
Öz
Purpose: This study aims to compare the performance results of the machine learning methods “Support Vector Regression, Random Forest, Regression Tree and Nearest Neighbor Regression models on the dataset of Crimean-Congo Hemorrhagic Fever Diagnosis.
Materials and Methods: The data of all patients who were hospitalized in Cumhuriyet University Faculty of Medicine, Infectious Diseases and Pediatrics service with the diagnosis of Crimean-Congo hemorrhagic fever between 2009 and 2011 were taken from the service records. During these three years, 6125 data entries were made for a total of 245 patients. A total of three groups of patient data were used in the study: adult, pediatric and all patients. Each scenario was repeated 1000 times with the Boostrap resampling method and the mentioned regression methods were applied in each repetition. To compare the performance of the regression models, the mean squared error and the percentage of explanatory variables were analyzed.
Results: Among the regression methods for the real data set, the regression model with the highest explanatory percentage and the lowest mean squared error was found to be the best performing regression model for all three groups.
Conclusion: As a result of the simulation study according to real data and scenario structures, the best prediction regression method was found to be support vector regression.
Kaynakça
-
Balinandi, S., Mulei, S., Whitmer, S., et al. (2024). CrimeanCongo hemorrhagic fever cases diagnosed during an
outbreak of Sudan virus disease in Uganda, 2022–23.
PLOS Neglected Tropical Diseases, 18(10), e0012595.
https://doi.org/10.1371/journal.pntd.0012595
-
Basak, D., Pal, S., & Patranabis, D. C. (2007). Support
vector regression. Neural Information ProcessingLetters and Reviews, 11(10), 203-224.
Breiman, L. (2001). Random forests. Machine Learning,
45, 5-32. https://doi.org/10.1023/A:1010933404324
-
Cover, T. M., & Hart, P. E. (1967). Nearest neighbor
pattern classification. IEEE Transactions on
Information Theory, 13(1), 21-27.
https://doi.org/10.1109/TIT.1967.1053964
-
Ergönül, Ö. (2006). Crimean-Congo haemorrhagic fever.
The Lancet Infectious Diseases, 6(4), 203-214.
https://doi.org/10.1016/S1473-3099(06)70435-2
-
Ersöz, F., & Çınar, Y. (2021). Veri madenciliği ve makine
öğrenimi yaklaşımlarının karşılaştırılması: Tekstil
sektöründe bir uygulama. Avrupa Bilim ve Teknoloji
Dergisi, 29, 397-414.
https://doi.org/10.31590/ejosat.997235
-
Frank, E., & Hall, M. A. (2011). Data mining: Practical
machine learning tools and techniques (3rd ed.).
-
Burlington, MA: Morgan Kaufmann.
Han, J., Kamber, M., & Pei, J. (2012). Data mining:
Concepts and techniques (3rd ed.). Waltham, MA:
Morgan Kaufmann Publishers.
-
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The
elements of statistical learning: Data mining,
inference, and prediction (2nd ed.). New York:
Springer. https://doi.org/10.1007/978-0-387-84858-7
Ij, H. (2018). Statistics versus machine learning. NatureMethods, 15(4), 233.
https://doi.org/10.1038/nmeth.4642
-
Karti, S. S., Odabaşı, Z., Korten, V., et al. (2004). Türkiye'de
Kırım-Kongo kanamalı ateşi. Emerging Infectious
Diseases, 10(8), 1379-1384.
https://doi.org/10.3201/eid1008.030928
-
Liaw, A., & Wiener, M. (2002). Classification and
regression by randomForest. R News, 2(3), 18-22.
-
Ozgulbas, N., & Koyuncugil, A. S. (2009). Financial profiling
of public hospitals: An application by data mining.
International Journal of Health Planning and
Management, 24(1), 69-83.
https://doi.org/10.1002/hpm.932
-
Pala, T. (2013). Tıbbi karar destek sisteminin veri
madenciliği yöntemleriyle gerçekleştirilmesi. Fen
Bilimleri Enstitüsü, Elektronik-Bilgisayar Eğitimi Ana
Bilim Dalı. Yüksek Lisans Tezi: Marmara Üniversitesi,
İstanbul-Türkiye
-
Palmer, A., Jiménez, R., & Gervilla, E. (2011). Veri
madenciliği: Makine öğrenimi ve istatistiksel teknikler.
Veri Madenciliğinde Bilgi Odaklı Uygulamalar, 373-396.
P
upezescu, V., & Ionescu, F. (2008). Advances in
knowledge discovery in databases. Journal of Applied
Economic Sciences, 4(6), 433-438.
-
Quinlan, J. R. (1986). Induction of decision trees. Machine
Learning, 1(1), 81-106.
https://doi.org/10.1007/BF00116251
-
Savaş, S., Topaloğlu, N., & Yılmaz, M. (2012). Veri
madenciliği ve Türkiye'deki uygulama örnekleri.
İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi,
11(21), 1-23.
-
Seçmeer, G., & Çelik, İ. H. (2010). Kırım Kongo Kanamalı
Ateşi. Journal of Pediatric Infection/Çocuk Enfeksiyon
Dergisi, 4(4), 156-160.
https://doi.org/10.5152/ced.2010.15
-
Sihombing, P. R., Budiantono, S., Arsani, A. M., Aritonang,
T. M., & Kurniawan, M. A. (2023). Comparison of
regression analysis with machine learning supervised
predictive model techniques. Jurnal Ekonomi Dan
Statistik Indonesia, 3(2), 113-118.
https://doi.org/10.11594/jesi.03.02.06
-
Silahtaroğlu, G. (2008). Data mining: Concepts and
algorithms. İstanbul: Papatya Publishing.
-
Smola, A. J., & Schölkopf, B. (2004). A tutorial on support
vector regression. Statistics and Computing, 14(3),199-222.
https://doi.org/10.1023/B:STCO.0000035301.49549.8 8
-
Tüzüntürk, S. (2010). Veri madenciliği ve istatistik. Uludağ
Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi,
29(1), 65-90.
-
Vapnik, V. N. (1999). An overview of statistical learning
theory. IEEE Transactions on Neural Networks, 10(5),
988-999. https://doi.org/10.1109/72.788640
Kırım Kongo Kanamalı Ateş Tanısında Makine Öğrenmesi Yöntemlerinin Kestirim Performanslarının Karşılaştırılması
Yıl 2025,
Cilt: 6 Sayı: 2, 52 - 61, 31.05.2025
Esra Gültürk
,
Hüdaverdi Bircan
,
Erdem Karabulut
,
Nazif Elaldı
Öz
Amaç: Bu çalışma, Kırım-Kongo Kanamalı Ateşi Teşhisi veri kümesi üzerinde makine öğrenmesi yöntemleri olan "Destek Vektör Regresyonu, Rastgele Orman, Regresyon Ağacı ve En Yakın Komşu Regresyon modellerinin performans sonuçlarını karşılaştırmayı amaçlamaktadır. Gereç ve Yöntemler: Cumhuriyet Üniversitesi Tıp Fakültesi Enfeksiyon Hastalıkları ve Çocuk Sağlığı ve Hastalıkları servisinde 2009-2011 yılları arasında Kırım Kongo kanamalı ateşi tanısı ile yatan tüm hastaların verileri servis kayıtlarından alınmıştır. Bu üç yıl boyunca toplam 245 hasta için 6125 veri girişi yapılmıştır. Çalışmada yetişkin, pediatrik ve tüm hastalar olmak üzere toplam üç grup hasta verisi kullanılmıştır. Her senaryo Boostrap yeniden örnekleme yöntemi ile 1000 kez tekrarlanmış ve her tekrarda bahsedilen regresyon yöntemleri uygulanmıştır. Regresyon modellerinin performansını karşılaştırmak için ortalama karesel hata ve açıklayıcı değişkenlerin yüzdesi analiz edilmiştir. Sonuçlar: Gerçek veri seti için regresyon yöntemleri arasında, en yüksek açıklama yüzdesine ve en düşük ortalama karesel hataya sahip regresyon modeli, her üç grup için de en iyi performans gösteren regresyon modeli olarak bulunmuştur. Sonuç: Gerçek veri ve senaryo yapılarına göre yapılan simülasyon çalışması sonucunda en iyi tahmin regresyon yönteminin destek vektör regresyonu olduğu tespit edilmiştir.
Kaynakça
-
Balinandi, S., Mulei, S., Whitmer, S., et al. (2024). CrimeanCongo hemorrhagic fever cases diagnosed during an
outbreak of Sudan virus disease in Uganda, 2022–23.
PLOS Neglected Tropical Diseases, 18(10), e0012595.
https://doi.org/10.1371/journal.pntd.0012595
-
Basak, D., Pal, S., & Patranabis, D. C. (2007). Support
vector regression. Neural Information ProcessingLetters and Reviews, 11(10), 203-224.
Breiman, L. (2001). Random forests. Machine Learning,
45, 5-32. https://doi.org/10.1023/A:1010933404324
-
Cover, T. M., & Hart, P. E. (1967). Nearest neighbor
pattern classification. IEEE Transactions on
Information Theory, 13(1), 21-27.
https://doi.org/10.1109/TIT.1967.1053964
-
Ergönül, Ö. (2006). Crimean-Congo haemorrhagic fever.
The Lancet Infectious Diseases, 6(4), 203-214.
https://doi.org/10.1016/S1473-3099(06)70435-2
-
Ersöz, F., & Çınar, Y. (2021). Veri madenciliği ve makine
öğrenimi yaklaşımlarının karşılaştırılması: Tekstil
sektöründe bir uygulama. Avrupa Bilim ve Teknoloji
Dergisi, 29, 397-414.
https://doi.org/10.31590/ejosat.997235
-
Frank, E., & Hall, M. A. (2011). Data mining: Practical
machine learning tools and techniques (3rd ed.).
-
Burlington, MA: Morgan Kaufmann.
Han, J., Kamber, M., & Pei, J. (2012). Data mining:
Concepts and techniques (3rd ed.). Waltham, MA:
Morgan Kaufmann Publishers.
-
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The
elements of statistical learning: Data mining,
inference, and prediction (2nd ed.). New York:
Springer. https://doi.org/10.1007/978-0-387-84858-7
Ij, H. (2018). Statistics versus machine learning. NatureMethods, 15(4), 233.
https://doi.org/10.1038/nmeth.4642
-
Karti, S. S., Odabaşı, Z., Korten, V., et al. (2004). Türkiye'de
Kırım-Kongo kanamalı ateşi. Emerging Infectious
Diseases, 10(8), 1379-1384.
https://doi.org/10.3201/eid1008.030928
-
Liaw, A., & Wiener, M. (2002). Classification and
regression by randomForest. R News, 2(3), 18-22.
-
Ozgulbas, N., & Koyuncugil, A. S. (2009). Financial profiling
of public hospitals: An application by data mining.
International Journal of Health Planning and
Management, 24(1), 69-83.
https://doi.org/10.1002/hpm.932
-
Pala, T. (2013). Tıbbi karar destek sisteminin veri
madenciliği yöntemleriyle gerçekleştirilmesi. Fen
Bilimleri Enstitüsü, Elektronik-Bilgisayar Eğitimi Ana
Bilim Dalı. Yüksek Lisans Tezi: Marmara Üniversitesi,
İstanbul-Türkiye
-
Palmer, A., Jiménez, R., & Gervilla, E. (2011). Veri
madenciliği: Makine öğrenimi ve istatistiksel teknikler.
Veri Madenciliğinde Bilgi Odaklı Uygulamalar, 373-396.
P
upezescu, V., & Ionescu, F. (2008). Advances in
knowledge discovery in databases. Journal of Applied
Economic Sciences, 4(6), 433-438.
-
Quinlan, J. R. (1986). Induction of decision trees. Machine
Learning, 1(1), 81-106.
https://doi.org/10.1007/BF00116251
-
Savaş, S., Topaloğlu, N., & Yılmaz, M. (2012). Veri
madenciliği ve Türkiye'deki uygulama örnekleri.
İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi,
11(21), 1-23.
-
Seçmeer, G., & Çelik, İ. H. (2010). Kırım Kongo Kanamalı
Ateşi. Journal of Pediatric Infection/Çocuk Enfeksiyon
Dergisi, 4(4), 156-160.
https://doi.org/10.5152/ced.2010.15
-
Sihombing, P. R., Budiantono, S., Arsani, A. M., Aritonang,
T. M., & Kurniawan, M. A. (2023). Comparison of
regression analysis with machine learning supervised
predictive model techniques. Jurnal Ekonomi Dan
Statistik Indonesia, 3(2), 113-118.
https://doi.org/10.11594/jesi.03.02.06
-
Silahtaroğlu, G. (2008). Data mining: Concepts and
algorithms. İstanbul: Papatya Publishing.
-
Smola, A. J., & Schölkopf, B. (2004). A tutorial on support
vector regression. Statistics and Computing, 14(3),199-222.
https://doi.org/10.1023/B:STCO.0000035301.49549.8 8
-
Tüzüntürk, S. (2010). Veri madenciliği ve istatistik. Uludağ
Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi,
29(1), 65-90.
-
Vapnik, V. N. (1999). An overview of statistical learning
theory. IEEE Transactions on Neural Networks, 10(5),
988-999. https://doi.org/10.1109/72.788640