Research Article
BibTex RIS Cite

Machine Learning Applications on Wisconsin Dataset for Breast Cancer Diagnosis

Year 2025, Volume: 18 Issue: 1, 29 - 43, 31.01.2025
https://doi.org/10.17671/gazibtd.1533288

Abstract

Breast cancer is increasingly common and is reaching an alarming level. If the disease is not diagnosed, it significantly increases the risk of death. When diagnosed at a late stage, the only precaution is often the removal of limbs. An effective method for early diagnosis could be a successful precursor. This paper focuses on evaluating successful machine learning techniques for automatic diagnosis in breast cancer detection. Additionally, the effectiveness of certain features of the original Wisconsin breast cancer dataset is examined to achieve accurate predictions with less computational load. For this purpose, various machine learning algorithms were applied to the dataset, and the best-performing algorithms were identified. To achieve more accurate predictions, preprocessing was applied to the dataset to identify effective features. Based on initial findings, NB, SVM, J48, and k-NN classification algorithms, as well as k-means and hierarchical clustering algorithms, were used in this study. The performance of the algorithms in disease diagnosis was analyzed using metrics such as accuracy, ROC values, and confusion matrices. Performance metrics indicate that the best result was obtained with the NB technique. The metrics of the analyzed models show that the kernel functions used in data evaluation play a significant role in diagnosis. Supervised algorithms applied to the Wisconsin dataset provided reliable results. It is considered that integrating successful algorithms in breast cancer diagnosis as a software tool into analysis devices used in the healthcare system could be a good precursor for early diagnosis and awareness.

References

  • Siegel, R.L., Miller, K.D. and Jemal, A., 2020. Cancer statistics, 2020. CA: a cancer journal for clinicians, 70(1), 7–30. https://doi.org/10.3322/caac.21590.
  • Bora B., Soytutan Ç.İ., Aygün A., Özdemir T.A., Kulali B., Uzun S.B. ve ark., (2019). Sağlık İstatistikleri Yıllığı. Sağlıkta İstatistik ve Nedensel Analizler (SİNA) Platformu. Ankara, Türkiye.
  • Anderson, Benjamin O., et al., 2010. Optimisation of breast cancer management in low-resource and middle-resource countries: executive summary of the Breast Health Global Initiative consensus. The lancet oncology, 12.4 (2011): 387-398.
  • Internet: Bakanlığı, T. S. (2022). Sağlık istatistikleri yıllığı. Türkiye İstatistik Kurumu (TUİK). Ankara.
  • Türkyılmaz, M., Öztürk, M., Dündar, S., Ergün, K.A., Sevinç, A., Tütüncü, S., Seymen, E., (2021). Türkiye Kanser İstatistikleri. T.C. Sağlık Bakanlığı Halk Sağlığı Genel Müdürlüğü. Ankara, Türkiye.
  • Internet: UC Irvine, Breast Cancer Wisconsin (Original), UC Irvine Machine Learning Repository. https://archive.ics.uci.edu/dataset/15/breast+cancer+wisconsin+original, (14.07.1992)
  • Amrane, M., Oukid, S., Gagaoua, I., and Ensari, T., 2018. Breast cancer classification using machine learning. In 2018 electric electronics, computer science, biomedical engineerings' meeting (EBBT) (pp. 1-4). IEEE.
  • Aruna, S., S. P. Rajagopalan, and L. V. Nandakishore, 2011. Knowledge based analysis of various statistical tools in detecting breast cancer. Computer Science & Information Technology, 2.2011 (2011): 37-45.
  • Uddin, K. M. M., Biswas, N., Rikta, S. T., & Dey, S. K. (2023). Machine learning-based diagnosis of breast cancer utilizing feature optimization technique. Computer Methods and Programs in Biomedicine Update, 3, 100098.
  • Nemade, V., & Fegade, V. (2023). Machine learning techniques for breast cancer prediction. Procedia Computer Science, 218, 1314-1320.
  • Singh, L. K., Khanna, M., & Singh, R. (2024). An enhanced soft-computing based strategy for efficient feature selection for timely breast cancer prediction: Wisconsin Diagnostic Breast Cancer dataset case. Multimedia Tools and Applications, 1-66.
  • Laghmati, Sara & Hamida, Soufiane & Hicham, Khadija & Cherradi, Bouchaib & Tmiri, Amal. (2023). An improved breast cancer disease prediction system using ML and PCA. Multimedia Tools and Applications. 83. 1-37. 10.1007/s11042-023-16874-w.
  • Amethiya, Yash & Pipariya, Prince & Patel, Shlok & Shah, Manan. (2021). Comparative Analysis of Breast Cancer detection using Machine Learning and Biosensors. Intelligent Medicine. 2. 10.1016/j.imed.2021.08.004.
  • Kadhim, Rania & Kamil, Mohammed. (2022). Comparison of breast cancer classification models on Wisconsin dataset. International Journal of Reconfigurable and Embedded Systems (IJRES). 11. 166-174. 10.11591/ijres.v11.i2.pp166-174.
  • Internet: Öğüdücü, Ş.G., Veri Madenciliği Temel Sınıflandırma Yöntemleri, https://web.itu.edu.tr/~sgunduz/courses/verimaden/slides/d3.pdf.
  • Uğuz, S. (2019). Makine öğrenmesi teorik yönleri ve Python uygulamaları ile bir yapay zekâ ekolü. Nobel Yayıncılık. Ankara.
  • Internet: Akçay, A. K En Yakın Komşu Algoritması. https://aycaakcay.medium.com/k-en-yakin-komsu-k-nearest-neighbour-algoritmasi-siniflama-7c456f8e2b0d, (25.06.2020).
  • Internet: Şeker, Ş.E., KNN(K Nearest Neighborhood, En Yakın k Komşu). https://bilgisayarkavramlari.com/2008/11/17/knn-k-nearest- neighborhood-en-yakin-k-komsu/, (17.11.2008).
  • Internet: Hatipoğlu, E. Machine Learning – Classification – Naive Bayes – Part 11. https://medium.com/@ekrem.hatipoglu/machine-learning-classification-naive-bayes-part-11-4a10cd3452b4, (13.06.2018).
  • Solmaz, R., Günay, M., and Alkan, A., (2014). Fonksiyonel Tiroit Hastalığı Tanısında Naive Bayes Sınıflandırıcının Kullanılması. Akademik Bilişim Konferansı. Mersin, Türkiye, 891-897.
  • Hemanth, D. J., and Kose, U., 2020. Artificial Intelligence and Applied Mathematics in Engineering Problems: Proceedings of the International Conference on Artificial Intelligence and Applied Mathematics in Engineering (ICAIAME 2019). Vol. 43,Springer Nature.
  • Internet: Medium Yöntemler – 4.1: C4.5 Algoritması, https://medium.com/@Emreyz/yontemler-4-1- c4-5-algoritmasi-7382de92584e, (03.03.2017).
  • Internet: Şeker, Ş.E., C4.5 Ağacı, https://bilgisayarkavramlari.com/2012/11/13/c4-5-agaci-c4- 5-tree/, (13.11.2012).
  • Aras, Ü., 2008. Finansal veri madenciliği. Yüksek Lisans Tezi, Yıldız Teknik Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, 85.
  • Internet: Şeker, Ş.E., SVM (Support Vector Machine, Destekçi Vektör Makinesi), https://bilgisayarkavramlari.com/2008/12/01/svm-support-vector-machine-destekci-vektor-makinesi/, (01.12.2008).
  • Internet: Şeker, Ş.E., Weka ile SVM, https://bilgisayarkavramlari.com/2011/09/19/weka-ile-svm/, (19.09.2011).
  • Solmaz, R., Günay, M., and Alkan, A., 2013. Uzman sistemlerin tiroit teşhisinde kullanılması. XV. Akademik Bilişim Konferansı Bildirileri, 23-25.
  • Internet: Çalışkan, T.K., Destek Vektör Makineleri (DVM), https://www.bilimma.com/destek-vektor-makineleri-support-vectors-machines-svms, (01.04.2023).
  • Internet: Şeker, Ş.E., K-Ortalama Algoritması (K-Means Algorithm), https://bilgisayarkavramlari.com/2008/12/15/k-ortalama-algoritmasi-k-means-algorithm/, (15.12.2008).
  • Takaoğlu, M., and Takaoğlu, F., 2019. K-Means ve Hiyerarşik Kümeleme Algoritmanın Weka ve Matlab Platformlarında Karşılaştırılması. İstanbul Aydın Üniversitesi Dergisi, 11(3), 303-317.
  • Internet: Seker, S. E., 2015. Sosyal ağlarda veri madenciliği (data mining on social networks). Ybs Ansiklopedi, 2.2 (2015): 30-39.
  • Ahmed, M. T., Imtiaz, M. N., and Karmakar, A., 2020. Analysis of wisconsin breast cancer original dataset using data mining and machine learning algorithms for breast cancer prediction. Journal of Science Technology and Environment Informatics, 9(2), 665-672
  • Akbugday, B., 2019. Classification of breast cancer data using machine learning algorithms. In 2019 Medical technologies congress (TIPTEKNO) (pp. 1-4). IEEE

Meme Kanseri Tanısında Wisconsin Veri Seti ile Makine Öğrenmesi Uygulamaları

Year 2025, Volume: 18 Issue: 1, 29 - 43, 31.01.2025
https://doi.org/10.17671/gazibtd.1533288

Abstract

Meme kanseri giderek daha sık görülmekte ve endişe verici bir boyuta ulaştığı ifade edilmektedir. Hastalık teşhis edilmezse ölüm riskini önemli ölçüde artırmaktadır. Son aşamada teşhis edildiğinde, tedbir olarak uzuvların alınması gerekmektedir. Erken teşhis için başarılı bir yöntem öncü olabilir. Bu makalenin odak noktası, meme kanseri teşhisinde başarılı makine öğrenimi tekniklerinin otomatik tanı için değerlendirilmesidir. Ayrıca, orijinal Wisconsin meme kanseri veri setine ait belirli özelliklerin etkinliği kontrol edilerek daha az işlem yükü ile başarılı tahminler araştırılmaktadır. Bu amaçla veri setine çeşitli makine öğrenimi algoritmaları uygulanmış ve en iyi performans gösteren algoritmalar belirlenmiştir. Daha başarılı bir tahmin için veri setine ön işlem uygulanarak etkin özellikler tespit edilmiştir. İlk bulgulardan yola çıkarak bu çalışmada, NB, DVM, J48 ve k-NN sınıflandırma algoritmaları ile k-means ve hiyerarşik kümeleme algoritmaları kullanılmıştır. Algoritmaların hastalık tanısındaki performansları doğruluk, ROC değerleri ve karmaşıklık matrisi metrikleriyle analiz edilmiştir. Performans metrikleri, en iyi sonucun NB tekniği ile elde edildiğini göstermektedir. Analiz edilen modellerin metrikleri, verilerin değerlendirilmesinde kullanılan çekirdek fonksiyonlarının tanıda önemli rol oynadığını göstermektedir. Wisconsin veri setine uygulanan denetimli algoritmalar güvenilir sonuçlar vermiştir. Meme kanseri teşhisinde başarılı olan algoritmaların sağlık sisteminde kullanılan analiz cihazlarına bir yazılım aracı olarak entegre edilmeleri, erken tanı ve farkındalık için iyi bir öncü olabileceği değerlendirilmektedir.

References

  • Siegel, R.L., Miller, K.D. and Jemal, A., 2020. Cancer statistics, 2020. CA: a cancer journal for clinicians, 70(1), 7–30. https://doi.org/10.3322/caac.21590.
  • Bora B., Soytutan Ç.İ., Aygün A., Özdemir T.A., Kulali B., Uzun S.B. ve ark., (2019). Sağlık İstatistikleri Yıllığı. Sağlıkta İstatistik ve Nedensel Analizler (SİNA) Platformu. Ankara, Türkiye.
  • Anderson, Benjamin O., et al., 2010. Optimisation of breast cancer management in low-resource and middle-resource countries: executive summary of the Breast Health Global Initiative consensus. The lancet oncology, 12.4 (2011): 387-398.
  • Internet: Bakanlığı, T. S. (2022). Sağlık istatistikleri yıllığı. Türkiye İstatistik Kurumu (TUİK). Ankara.
  • Türkyılmaz, M., Öztürk, M., Dündar, S., Ergün, K.A., Sevinç, A., Tütüncü, S., Seymen, E., (2021). Türkiye Kanser İstatistikleri. T.C. Sağlık Bakanlığı Halk Sağlığı Genel Müdürlüğü. Ankara, Türkiye.
  • Internet: UC Irvine, Breast Cancer Wisconsin (Original), UC Irvine Machine Learning Repository. https://archive.ics.uci.edu/dataset/15/breast+cancer+wisconsin+original, (14.07.1992)
  • Amrane, M., Oukid, S., Gagaoua, I., and Ensari, T., 2018. Breast cancer classification using machine learning. In 2018 electric electronics, computer science, biomedical engineerings' meeting (EBBT) (pp. 1-4). IEEE.
  • Aruna, S., S. P. Rajagopalan, and L. V. Nandakishore, 2011. Knowledge based analysis of various statistical tools in detecting breast cancer. Computer Science & Information Technology, 2.2011 (2011): 37-45.
  • Uddin, K. M. M., Biswas, N., Rikta, S. T., & Dey, S. K. (2023). Machine learning-based diagnosis of breast cancer utilizing feature optimization technique. Computer Methods and Programs in Biomedicine Update, 3, 100098.
  • Nemade, V., & Fegade, V. (2023). Machine learning techniques for breast cancer prediction. Procedia Computer Science, 218, 1314-1320.
  • Singh, L. K., Khanna, M., & Singh, R. (2024). An enhanced soft-computing based strategy for efficient feature selection for timely breast cancer prediction: Wisconsin Diagnostic Breast Cancer dataset case. Multimedia Tools and Applications, 1-66.
  • Laghmati, Sara & Hamida, Soufiane & Hicham, Khadija & Cherradi, Bouchaib & Tmiri, Amal. (2023). An improved breast cancer disease prediction system using ML and PCA. Multimedia Tools and Applications. 83. 1-37. 10.1007/s11042-023-16874-w.
  • Amethiya, Yash & Pipariya, Prince & Patel, Shlok & Shah, Manan. (2021). Comparative Analysis of Breast Cancer detection using Machine Learning and Biosensors. Intelligent Medicine. 2. 10.1016/j.imed.2021.08.004.
  • Kadhim, Rania & Kamil, Mohammed. (2022). Comparison of breast cancer classification models on Wisconsin dataset. International Journal of Reconfigurable and Embedded Systems (IJRES). 11. 166-174. 10.11591/ijres.v11.i2.pp166-174.
  • Internet: Öğüdücü, Ş.G., Veri Madenciliği Temel Sınıflandırma Yöntemleri, https://web.itu.edu.tr/~sgunduz/courses/verimaden/slides/d3.pdf.
  • Uğuz, S. (2019). Makine öğrenmesi teorik yönleri ve Python uygulamaları ile bir yapay zekâ ekolü. Nobel Yayıncılık. Ankara.
  • Internet: Akçay, A. K En Yakın Komşu Algoritması. https://aycaakcay.medium.com/k-en-yakin-komsu-k-nearest-neighbour-algoritmasi-siniflama-7c456f8e2b0d, (25.06.2020).
  • Internet: Şeker, Ş.E., KNN(K Nearest Neighborhood, En Yakın k Komşu). https://bilgisayarkavramlari.com/2008/11/17/knn-k-nearest- neighborhood-en-yakin-k-komsu/, (17.11.2008).
  • Internet: Hatipoğlu, E. Machine Learning – Classification – Naive Bayes – Part 11. https://medium.com/@ekrem.hatipoglu/machine-learning-classification-naive-bayes-part-11-4a10cd3452b4, (13.06.2018).
  • Solmaz, R., Günay, M., and Alkan, A., (2014). Fonksiyonel Tiroit Hastalığı Tanısında Naive Bayes Sınıflandırıcının Kullanılması. Akademik Bilişim Konferansı. Mersin, Türkiye, 891-897.
  • Hemanth, D. J., and Kose, U., 2020. Artificial Intelligence and Applied Mathematics in Engineering Problems: Proceedings of the International Conference on Artificial Intelligence and Applied Mathematics in Engineering (ICAIAME 2019). Vol. 43,Springer Nature.
  • Internet: Medium Yöntemler – 4.1: C4.5 Algoritması, https://medium.com/@Emreyz/yontemler-4-1- c4-5-algoritmasi-7382de92584e, (03.03.2017).
  • Internet: Şeker, Ş.E., C4.5 Ağacı, https://bilgisayarkavramlari.com/2012/11/13/c4-5-agaci-c4- 5-tree/, (13.11.2012).
  • Aras, Ü., 2008. Finansal veri madenciliği. Yüksek Lisans Tezi, Yıldız Teknik Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, 85.
  • Internet: Şeker, Ş.E., SVM (Support Vector Machine, Destekçi Vektör Makinesi), https://bilgisayarkavramlari.com/2008/12/01/svm-support-vector-machine-destekci-vektor-makinesi/, (01.12.2008).
  • Internet: Şeker, Ş.E., Weka ile SVM, https://bilgisayarkavramlari.com/2011/09/19/weka-ile-svm/, (19.09.2011).
  • Solmaz, R., Günay, M., and Alkan, A., 2013. Uzman sistemlerin tiroit teşhisinde kullanılması. XV. Akademik Bilişim Konferansı Bildirileri, 23-25.
  • Internet: Çalışkan, T.K., Destek Vektör Makineleri (DVM), https://www.bilimma.com/destek-vektor-makineleri-support-vectors-machines-svms, (01.04.2023).
  • Internet: Şeker, Ş.E., K-Ortalama Algoritması (K-Means Algorithm), https://bilgisayarkavramlari.com/2008/12/15/k-ortalama-algoritmasi-k-means-algorithm/, (15.12.2008).
  • Takaoğlu, M., and Takaoğlu, F., 2019. K-Means ve Hiyerarşik Kümeleme Algoritmanın Weka ve Matlab Platformlarında Karşılaştırılması. İstanbul Aydın Üniversitesi Dergisi, 11(3), 303-317.
  • Internet: Seker, S. E., 2015. Sosyal ağlarda veri madenciliği (data mining on social networks). Ybs Ansiklopedi, 2.2 (2015): 30-39.
  • Ahmed, M. T., Imtiaz, M. N., and Karmakar, A., 2020. Analysis of wisconsin breast cancer original dataset using data mining and machine learning algorithms for breast cancer prediction. Journal of Science Technology and Environment Informatics, 9(2), 665-672
  • Akbugday, B., 2019. Classification of breast cancer data using machine learning algorithms. In 2019 Medical technologies congress (TIPTEKNO) (pp. 1-4). IEEE
There are 33 citations in total.

Details

Primary Language Turkish
Subjects Decision Support and Group Support Systems, Machine Learning (Other), Data Mining and Knowledge Discovery
Journal Section Articles
Authors

Refik Tangi 0009-0001-9799-0236

Ramazan Solmaz 0000-0001-8933-2922

Publication Date January 31, 2025
Submission Date August 14, 2024
Acceptance Date November 5, 2024
Published in Issue Year 2025 Volume: 18 Issue: 1

Cite

APA Tangi, R., & Solmaz, R. (2025). Meme Kanseri Tanısında Wisconsin Veri Seti ile Makine Öğrenmesi Uygulamaları. Bilişim Teknolojileri Dergisi, 18(1), 29-43. https://doi.org/10.17671/gazibtd.1533288