Year 2021, Volume , Issue 21, Pages 610 - 620 2021-01-31

A comparison of various supervised machine learning techniques for prostate cancer prediction
Prostat kanseri tahmini için çeşitli denetimli makine öğrenimi tekniklerinin karşılaştırılması

Ebru ERDEM [1] , Ferhat BOZKURT [2]


Prostate cancer is a kind of cancer that is seen worldwide and causes death of many people. Early diagnosis of cancer helps patients during the treatment phase. For this reason, cancer prediction is very crucial, according to the symptoms seen in the patient. One of the biggest problems in medicine is diagnosing diseases. The absence of certain definitive rules for the evaluation of symptoms of prostate cancer and the low rate of prediction of the diagnostic methods currently in effect made this study essential. It is thought that machine learning methods can be effective for the solution of the problems where there are no specific and definite rules and the factors affecting the event can be predicted. With this awareness, various solutions are developed by computer-aided systems. In this paper, we compare and discuss the performance of different supervised machine learning algorithms (i.e., k-nearest neighbor, support vector machines, random forest, logistic regression, linear regression, Naive Bayes, linear discrimination analysis, linear classification, multi-layer perceptron and deep neural network) for prostate cancer prediction. In this study, an open-access online prostate cancer data which consists of observations of 100 patients is used. The main intention is to evaluate the correctness in classifying data with respect to effectiveness and efficiency of each algorithm in terms of precision, recall, AUC, F1-Score, accuracy. The accuracy of the methods may vary according to the training and test data. In order to obtain more stable results, each algorithm was run more than ten times and their five best performances were recorded. The results show that multi-layer perceptron (MLP) can result in high prediction accuracy that is better compared to other approaches. Experimental results show that MLP gives the highest accuracy (97%) with the lowest error rate (0.03). The MLP classifier outperformed the other algorithms used in this study and is one of the best studies ever reported in the literature in terms of accuracy, AUC and F1 score performance criteria. As a result, we can say that if the computer is trained with machine learning methods based on patient information, it can be clinically useful with high accuracy in predicting cancer. In this way, an unnecessary biopsy of the patient can be prevented.
Prostat kanseri dünya genelinde yaygın olarak görülen ve ölüme yol açan kanser türlerinden biridir. Kanserin erken teşhisi hastaların tedavi aşamasında yardımcı olmaktadır. Bu sebeple, hastada görülen belirtilere göre kanser tahmini büyük önem taşımaktadır. Sağlık alanında en büyük sorunlardan biri hastalığı teşhis etmektir. Prostat kanseri semptomlarının değerlendirilmesi için belirli kesin kuralların olmaması ve şu anda yürürlükte olan tanı yöntemlerinin düşük öngörü oranı bu çalışmayı gerekli kılmıştır. Belirli ve kesin kuralların bulunmadığı ve olayı etkileyen faktörlerin öngörülebildiği sorunların çözümünde makine öğrenimi yöntemlerinin etkili olabileceği düşünülmektedir. Bu farkındalığın bilinci ile bilgisayar destekli sistemler tarafından çeşitli çözümler geliştirilmektedir. Bu çalışmada, prostat kanserinin tahmini için çeşitli denetimli makine öğrenme algoritmalarının (destek vektör makineleri, rastgele orman, k-en yakın komşu, lojistik regresyon, doğrusal regresyon, Naive Bayes, doğrusal ayrımcılık analizi, doğrusal sınıflandırma, çok katmanlı algılayıcılar ve derin yapay sinir ağları gibi ) performansını karşılaştırır ve tartışırız. Bu çalışmada 100 hastanın gözlemlerinden oluşan açık erişimli çevrimiçi prostat kanseri verisi kullanılmıştır. Temel amaç her algoritmanın verilerin sınıflandırılmasındaki doğruluğunu, etkinlik ve verimlilik açısından hassasiyet, recall, AUC, F1-Score ve doğruluğa göre değerlendirmektir. Yöntemlerin doğruluğu, eğitim ve test verilerine göre değişebilir. Daha istikrarlı sonuçlar elde etmek için, her bir algoritmayı 10’dan fazla çalıştırdık ve en iyi 5 performansını kaydettik. Sonuçlar çok katmanlı algılayıcının (MLP), diğer yaklaşımlara göre göre daha iyi olan yüksek tahmin doğruluğu ile sonuçlanabildiğini göstermektedir. Deneysel sonuçlar, MLP'nin en yüksek doğruluğu (%97) ve en düşük hata oranını (0.03) verdiğini göstermektedir. MLP sınıflandırıcısı, bu çalışmada kullanılan diğer algoritmalardan daha iyi performans gösterdi ve doğruluk, AUC ve F1 puan performans kriterleri açısından literatürde bildirilen en iyi çalışmalardan biridir. Sonuç olarak, bilgisayarın hasta bilgilerine dayanarak makine öğrenmesi yöntemleri ile eğitilmesi durumunda, kanseri tahmin etmede yüksek bir doğrulukla klinik olarak yararlı olabileceğini söyleyebiliriz. Böylece hastaya gereksiz bir biyopsi önlenebilir.
  • Abraham, B., & Nair, M. S. (2018). Computer-aided classification of prostate cancer grade groups from MRI images using texture features and stacked sparse autoencoder. Computerized Medical Imaging and Graphics, 69, 60-68.
  • Al-Aidaroos, K. M., Bakar, A. A., & Othman, Z. (2012). Medical data classification with Naive Bayes approach. Information Technology Journal, 11(9), 1166.
  • Alickovic, E., & Subasi, A. (2016). Medical decision support system for diagnosis of heart arrhythmia using DWT and random forests classifier. Journal of medical systems, 40(4), 108.
  • Alqaraleh, S. (2020). Turkish Sentiment Analysis System via Ensemble Learning. European Journal of Science and Technology, (Special Issue), 122-129
  • Ankerst, D. P., Hoefler, J., Bock, S., Goodman, P. J., Vickers, A., Hernandez, J., ... & Thompson, I. M. (2014). Prostate Cancer Prevention Trial risk calculator 2.0 for the prediction of low-vs high-grade prostate cancer. Urology, 83(6), 1362-1368.
  • Arvidsson, I., Overgaard, N. C., Marginean, F. E., Krzyzanowska, A., Bjartell, A., Åström, K., & Heyden, A. (2018). Generalization of prostate cancer classification for multiple sites using deep learning. In 2018 IEEE 15th International Symposium on Biomedical Imaging (ISBI 2018) (pp. 191-194). IEEE.
  • Aydın, C. (2018). Makine Öğrenmesi Algoritmaları Kullanılarak İtfaiye İstasyonu İhtiyacının Sınıflandırılması. Avrupa Bilim ve Teknoloji Dergisi, (14), 169-175.
  • Bateni, S. M., Borghei, S. M., & Jeng, D. S. (2007). Neural network and neuro-fuzzy assessments for scour depth around bridge piers. Engineering Applications of Artificial Intelligence, 20(3), 401-414.
  • Bozkurt, F., Altay, Ş.Y., Yaganoğlu, M., (2015). Yapay Sinir Ağları İle Ankara İlinde Hava Kalitesi Sağlık İndeksi Tahmini, 2.Ulusal Yönetim Bilişim Sistemleri Kongresi, Erzurum.
  • Breiman, L. (2001). Random forests. Machine learning, 45(1), 5-32.
  • Chang, A. J., Autio, K. A., Roach III, M., & Scher, H. I. (2014). High-risk prostate cancer—classification and therapy. Nature reviews Clinical oncology, 11(6), 308.
  • Chollet, F. (2015). Keras: Deep learning library for theano and tensorflow. URL: https://keras. io/k.
  • Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. IEEE transactions on information theory, 13(1), 21-27.
  • Cristianini, N., & Shawe-Taylor, J. (2000). An introduction to support vector machines and other kernel-based learning methods. Cambridge university press.
  • Cuzick, J., Thorat, M. A., Andriole, G., Brawley, O. W., Brown, P. H., Culig, Z., ... & Ilic, D. (2014). Prevention and early detection of prostate cancer. The lancet oncology, 15(11), e484-e492.
  • Çebi, C. B., Bulut, F. S., Fırat, H., Karataş, G & Şahingoz, Ö. K. (2019) Saldırı Tespit Sistemlerinde Makine Öğrenmesi Modellerinin Karşılaştırılması. Erzincan Üniversitesi Fen Bilimleri Enstitüsü Dergisi, 12(3), 1513-1525.
  • Çokluk, Ö. (2010). Lojistik regresyon analizi: Kavram ve uygulama. Kuram ve Uygulamada Eğitim Bilimleri, 10(3), 1357-1407.
  • De Nunzio, C., Pastore, A. L., Lombardo, R., Simone, G., Leonardo, C., Mastroianni, R., ... & Fuschi, A. (2018). The new Epstein gleason score classification significantly reduces upgrading in prostate cancer patients. European Journal of Surgical Oncology, 44(6), 835-839.
  • Enaˇchescu, D. (2004). Multilayer perceptron model for prostate cancer prediction. International Journal of Computer Mathematics, 81(4), 407-415.
  • Erickson, B. J., Korfiatis, P., Akkus, Z., & Kline, T. L. (2017). Machine learning for medical imaging. Radiographics, 37(2), 505-515.
  • Goldenberg, S. L., Nir, G., & Salcudean, S. E. (2019). A new era: artificial intelligence and machine learning in prostate cancer. Nature Reviews Urology, 16(7), 391-403.
  • Grönberg, H. (2003). Prostate cancer epidemiology. The Lancet, 361(9360), 859-864.
  • Gültepe, Y. (2019). Makine Öğrenmesi Algoritmaları ile Hava Kirliliği Tahmini Üzerine Karşılaştırmalı Bir Değerlendirme. Avrupa Bilim ve Teknoloji Dergisi, (16), 8-15.
  • Huang, D., Quan, Y., He, M., & Zhou, B. (2009). Comparison of linear discriminant analysis methods for the classification of cancer based on gene expression data. Journal of experimental & clinical cancer research, 28(1), 149.
  • İyi, P., & Erol, H. (2008). Çoklu Lineer Regresyonda En İyi Model Seçimi. ÇÜ Fen Bilimleri Enstitüsü, 17(5), 48-56.
  • Karadağ, K. (2020). Makine Öğrenme Yöntemleri ile Semen Kalitesi Tahmini. Avrupa Bilim ve Teknoloji Dergisi, (18), 306-311.
  • Karakoyun, M., & Hacıbeyoğlu, M. (2014). Biyomedikal Veri Kümeleri İle Makine Öğrenmesi Siniflandirma Algoritmalarinin İstatistiksel Olarak Karşilaştirilmasi. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi, 16(48), 30-42.
  • Klang, E. (2018). Deep learning and medical imaging. Journal of thoracic disease, 10(3), 1325.
  • Kurt, I., Ture, M., & Kurum, A. T. (2008). Comparing performances of logistic regression, classification and regression tree, and neural networks for predicting coronary artery disease. Expert systems with applications, 34(1), 366-374.
  • Laabidi, A., & Aissaoui, M. (2020). Performance analysis of Machine learning classifiers for predicting diabetes and prostate cancer. In 2020 1st International Conference on Innovative Research in Applied Science, Engineering and Technology (IRASET) (pp. 1-6). IEEE.
  • Li, J., Weng, Z., Xu, H., Zhang, Z., Miao, H., Chen, W., ... & Ye, Q. (2018). Support Vector Machines (SVM) classification of prostate cancer Gleason score in central gland using multiparametric magnetic resonance images: A cross-validated study. European journal of radiology, 98, 61-67.
  • Liu, W., Wang, Z., Liu, X., Zeng, N., Liu, Y., & Alsaadi, F. E. (2017). A survey of deep neural network architectures and their applications. Neurocomputing, 234, 11-26.
  • Mika, S., Ratsch, G., Weston, J., Scholkopf, B., & Mullers, K. R. (1999). Fisher discriminant analysis with kernels. In Neural networks for signal processing IX: Proceedings of the 1999 IEEE signal processing society workshop, 41-48. IEEE.
  • Mohammadi, M. R., Sadrossadat, S. A., Mortazavi, M. G., & Nouri, B. (2017). A brief review over neural network modeling techniques. In 2017 IEEE International Conference on Power, Control, Signals and Instrumentation Engineering (ICPCSI) (pp. 54-57). IEEE.
  • Nagpal, K., Foote, D., Liu, Y., Chen, P. H. C., Wulczyn, E., Tan, F., ... & Corrado, G. S. (2019). Development and validation of a deep learning algorithm for improving Gleason scoring of prostate cancer. NPJ digital medicine, 2(1), 1-10.
  • Özhan, E. (2020). Yapay Sinir Ağları ve Üstel Düzleştirme Yöntemi ile Türkiye’deki CO2 Emisyonunun Zaman Serisi ile Tahmini. Avrupa Bilim ve Teknoloji Dergisi, (19), 282-289.
  • Pervan, N., & Keleş, Y. (2019). Derin öğrenme yaklaşımları kullanarak Türkçe metinlerden anlamsal çıkarım yapma. Yüksek Lisans Tezi, Ankara Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Anabilim Dalı, Ankara.
  • Ramchoun, H., Idrissi, M. A. J., Ghanou, Y., & Ettaouil, M. (2016). Multilayer Perceptron: Architecture Optimization and Training. IJIMAI, 4(1), 26-30.
  • Ray, S. A. (2020). Survey on Application of Machine Learning Algorithms in Cancer Prediction and Prognosis. In Data Management, Analytics and Innovation (pp. 349-361). Springer, Singapore.
  • Reda, I., Ghazal, M., Shalaby, A., Elmogy, M., AbouEl-Fetouh, A., Ayinde, B. O., ... & El-Baz, A. (2018). A novel adcs-based cnn classification system for precise diagnosis of prostate cancer. In 2018 24th International Conference on Pattern Recognition (ICPR) (pp. 3923-3928). IEEE.
  • Sajid S. (2018). Prostate cancer dataset, [Online]. Available: https://www.kaggle.com/sajidsaifi/prostate-cancer
  • Saritas, M. M., & Yasar, A. (2019). Performance analysis of ANN and Naive Bayes classification algorithm for data classification. International Journal of Intelligent Systems and Applications in Engineering, 7(2), 88-91.
  • Shakeel, P. M., & Manogaran, G. (2020). Prostate cancer classification from prostate biomedical data using ant rough set algorithm with radial trained extreme learning neural network. Health and Technology, 10(1), 157-165.
  • Song, Y., Zhang, Y. D., Yan, X., Liu, H., Zhou, M., Hu, B., & Yang, G. (2018). Computer‐aided diagnosis of prostate cancer using a deep convolutional neural network from multiparametric MRI. Journal of Magnetic Resonance Imaging, 48(6), 1570-1577.
  • Srivenkatesh, M. (2020) Prediction of Prostate Cancer using Machine Learning Algorithms International Journal of Recent Technology and Engineering. 8(5).
  • Stephan, C., Jung, K., Cammann, H., Vogel, B., Brux, B., Kristiansen, G., ... & Sinha, P. (2002). An artificial neural network considerably improves the diagnostic power of percent free prostate‐specific antigen in prostate cancer diagnosis: Results of a 5‐year investigation. International journal of cancer, 99(3), 466-473.
  • Taşcı, E., & Onan, A. (2016). K-en yakın komşu algoritması parametrelerinin sınıflandırma performansı üzerine etkisinin incelenmesi. Akademik Bilişim.
  • Taşkıran, U. Ş. (2008). Prostat kanser riski hesaplamalarında yapay sinir ağları kullanımı (Doctoral dissertation, Selçuk Üniversitesi Fen Bilimleri Enstitüsü).
  • Timuş, O., & Kıyak, E. (2015). Optimizing MLP Classifier and ECG Features for Sleep Apnea Detection. Journal of Naval Sciences and Engineering, 11(1), 1-18.
  • Yağanoğlu, M., Bozkurt, F., & Günay, F. B. (2014). EEG tabanli beyin-bilgisayar arayüzü sistemlerinde öznitelik çikarma yöntemleri. Mühendislik Bilimleri ve Tasarım Dergisi, 2(3), 313-318.
  • Yavuz, A., & Çilengiroğlu, Ö. V. (2020) Lojistik Regresyon ve CART Yöntemlerinin Tahmin Edici Performanslarının Yaşam Memnuniyeti Verileri için Karşılaştırılması. Avrupa Bilim ve Teknoloji Dergisi, (18), 719-727.
  • Yazan, E., & Talu, M. F. (2017). Comparison of the stochastic gradient descent based optimization techniques. In 2017 International Artificial Intelligence and Data Processing Symposium (IDAP) (pp. 1-5). IEEE.
  • Yuan, Y., Qin, W., Buyyounouski, M., Ibragimov, B., Hancock, S., Han, B., & Xing, L. (2019). Prostate cancer classification with multiparametric MRI transfer learning model. Medical physics, 46(2), 756-765.
  • Zaki, M. J., & Meira Jr, W. (2019). Data Mining and Machine Learning: Fundamental Concepts and Algorithms. Cambridge University Press.
  • Zhang, C., Li, H. R., Fan, J. B., Wang-Rodriguez, J., Downs, T., Fu, X. D., & Zhang, M. Q. (2006). Profiling alternatively spliced mRNA isoforms for prostate cancer classification. Bmc Bioinformatics, 7(1), 202.
Primary Language en
Subjects Engineering
Journal Section Articles
Authors

Orcid: 0000-0002-4042-7549
Author: Ebru ERDEM
Institution: ATATÜRK ÜNİVERSİTESİ
Country: Turkey


Orcid: 0000-0003-0088-5825
Author: Ferhat BOZKURT (Primary Author)
Institution: ATATURK UNIVERSITY
Country: Turkey


Dates

Publication Date : January 31, 2021

APA Erdem, E , Bozkurt, F . (2021). A comparison of various supervised machine learning techniques for prostate cancer prediction . Avrupa Bilim ve Teknoloji Dergisi , (21) , 610-620 . DOI: 10.31590/ejosat.802810