Research Article
BibTex RIS Cite

Evaluation of the Factors Affecting Performance on the Data Set - Classification Relationship

Year 2020, Volume: 32 Issue: 2, 531 - 540, 24.09.2020
https://doi.org/10.35234/fumbd.738007

Abstract

References

  • [1] Gürsakal N. Makine Öğrenmesi ve Derin Öğrenme. Bursa, 2017.
  • [2] Göbekçin T. (Ed.) Master algoritma. İstanbul, 2017.
  • [3] https://open.nasa.gov/blog/datanaut-fall-2017-class-announcement/ (Erişim Tarihi: 21.01.2020)
  • [4] https://www.theguardian.com/media-network/2015/mar/05/digital-oligarchy-algorithms-personal-data (Erişim Tarihi: 1.01.2020)
  • [5] Aydın F. Kalp ritim bozukluğu olan hastaların tedavi süreçlerini desteklemek amaçlı makine öğrenmesine dayalı bir sistemin geliştirilmesi, Yüksek Lisans Tezi, Trakya Üniversitesi, Fen Bilimleri Üniversitesi, Edirne, 2011.
  • [6] Hacıefendioğlu Ş. Makine öğrenmesi yöntemleri ile glokom hastalığının teşhisi, Yüksek Lisans Tezi, Selçuk Üniversitesi, Fen Bilimleri Enstitüsü, Konya, 2012.
  • [7] Kartal E. Sınıflandırmaya dayalı makine öğrenmesi teknikleri ve kardiyolojik risk değerlendirmesine ilişkin bir uygulama, Doktora Tezi, İstanbul Üniversitesi, Fen Bilimleri Enstitüsü, İstanbul, 2015.
  • [8] Şeker M. İyi–kötü kokular ile ilişkili EMOTIV-EPOC tabanlı EEG kayıtlarının makine öğrenmesi yöntemleri ile sınıflandırılması, Yüksek Lisans Tezi, Dicle Üniversitesi, Fen Bilimleri Enstitüsü, Diyarbakır, 2017.
  • [9] Turgut S. Makine öğrenmesi yöntemleri kullanarak kanser teşhisi, Yüksek Lisans Tezi, İstanbul Üniversitesi, Fen Bilimleri Enstitüsü, İstanbul, 2017.
  • [10] Pekel E. Farklı makine öğrenmesi algoritmalarının karşılaştırılması, Yüksek Lisans Tezi, Ondokuz Mayıs Üniversitesi, Fen Bilimleri Enstitüsü, Samsun, 2018.
  • [11] https://kaggle.com (Erişim Tarihi: 05.05.2020)
  • [12] Johnson JM, Khoshgoftaar TM. Survey on deep learning with class imbalance. Journal of Big Data 2019; 6(1): 27.
  • [13] Fawcett T. An introduction to ROC analysis, Pattern recognition letter 2006; 27 (8): 861–874.
  • [14] Ayık YZ, Özdemir A, Yavuz U. Lise türü ve lise mezuniyet başarısının, kazanılan fakülte ile ilişkisinin veri madenciliği tekniği ile analizi. Atatürk Üniversitesi Sosyal Bilimler Enstitüsü Dergisi 2007; 10(2): 441-454.
  • [15] Bozkır AS, Sezer E, Gök B. Öğrenci seçme sınavında (öss) öğrenci başarımını etkileyen faktörlerin veri madenciliği yöntemleriyle tespiti. 5. Uluslararası İleri Teknolojiler Sempozyumu, 2009, 13-15 Mayıs, Karabük, s:1-7.
  • [16] Albayrak AS, Koltan Yılmaz Ş. Veri madenciliği: Karar ağacı algoritmaları ve İMKB verileri üzerine bir uygulama. Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi 2009; 14(1): 31-52.
  • [17] Breiman L. Random forests,machine learning, 2001 Kluwer Academic Publishers 2001; 45(1): 5-32.
  • [18] Archer KJ. Emprical characterization of random forest variable ımportance measure. Computational Statistics & Data Analysis 2008; 52(4): 2249-2260.
  • [19] http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm (Erişim Tariihi: 24 Nisan 2019)
  • [20] Balaban ME, Kartal E. Veri madenciliği ve makine öğrenmesi temel algoritmalar ve R dili ile uygulamaları. İstanbul, 2015.
  • [21] Boser B, Guyon I, Vapnik V. A training algorithm for optimal margin classifiers. Proceedings of the fifth annual workshop on Computational learning theory: Pittsburgh, Pennsylvania, USA 1992; 144–152.
  • [22] Melgani F, Bruzzone L. Classification of hyperspectral remote sensing ımages with support vector machines. IEEE Transactıons on Geoscıence and Remote Sensıng 2004; 42(8): 1778-1790.
  • [23] Kégl B. Introduction to AdaBoost, 2009; 11-14.
  • [24] Friedman J. Greedy function approximation: a gradient boosting machine. Annals of Statistics 2001; 29(5): 1189-1232.
  • [25] Özdemir ME, Yıldırım E, Yıldırım S. Classification of emotional valence dimension using artificial neural networks. In Signal Processing and Communications Applications Conference (SIU) 2015; 23: 2549-2552.
  • [26] Han J, Kamber M, Pei J. Data mining: Concepts and techniques. Morgan Kaufmann Publishers 2012.
  • [27] Japkowicz N. Performance evaluation for learning algorithms, Cambridge University Press, Cambridge 2011.
  • [28] Akosa J. Predictive accuracy: a misleading performance measure for highly imbalanced data. In Proceedings of the SAS Global Forum 2017; 12.
  • [29] Kılıç S. Klinik karar vermede ROC analizi. Journal of Mood Disorders 2013; 3 (3): 135-40.

Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi

Year 2020, Volume: 32 Issue: 2, 531 - 540, 24.09.2020
https://doi.org/10.35234/fumbd.738007

Abstract

Veri madenciliği yöntemlerinden biri olan sınıflandırma, en çok kullanılan veri madenciliği yöntemidir. Bir veri veya veri grubunun mevcut sınıflardan hangisine ait olduğunun belirlenmesi olarak tanımlanmaktadır. Sınıflandırma çalışmalarında en önemli kriter yüksek başarımlı bir sınıflandırıcı model oluşturabilmektir. Ancak başarımı etkileyen birçok neden bulunmaktadır. Kullanılan test yöntemlerinin yanı sıra veri setine ait özellikler de başarımı etkileyen unsurlardan biridir. Bu makalede, hem test tekniklerinin hem de veri setinin özelliklerinin başarıma etkisi detaylı olarak incelenmektedir. Bu amaçla, literatürde yaygın olarak kullanılan 32 farklı veri seti kullanılarak deneyler gerçekleştirilmiştir. Ayrıca çalışmada 9 farklı sınıflandırma algoritması da kullanılarak bu algoritmaların veri setleri üzerindeki başarımları da kıyaslanmıştır. Elde edilen sonuçlar, algoritmaların etkinliğinin yanı sıra test yöntemlerinin başarıma etkilerini de ortaya çıkarmıştır. Veri setine ait parametrelerin sınıflandırma başarımına etkileri makalede detaylı olarak ortaya konulmuştur.

References

  • [1] Gürsakal N. Makine Öğrenmesi ve Derin Öğrenme. Bursa, 2017.
  • [2] Göbekçin T. (Ed.) Master algoritma. İstanbul, 2017.
  • [3] https://open.nasa.gov/blog/datanaut-fall-2017-class-announcement/ (Erişim Tarihi: 21.01.2020)
  • [4] https://www.theguardian.com/media-network/2015/mar/05/digital-oligarchy-algorithms-personal-data (Erişim Tarihi: 1.01.2020)
  • [5] Aydın F. Kalp ritim bozukluğu olan hastaların tedavi süreçlerini desteklemek amaçlı makine öğrenmesine dayalı bir sistemin geliştirilmesi, Yüksek Lisans Tezi, Trakya Üniversitesi, Fen Bilimleri Üniversitesi, Edirne, 2011.
  • [6] Hacıefendioğlu Ş. Makine öğrenmesi yöntemleri ile glokom hastalığının teşhisi, Yüksek Lisans Tezi, Selçuk Üniversitesi, Fen Bilimleri Enstitüsü, Konya, 2012.
  • [7] Kartal E. Sınıflandırmaya dayalı makine öğrenmesi teknikleri ve kardiyolojik risk değerlendirmesine ilişkin bir uygulama, Doktora Tezi, İstanbul Üniversitesi, Fen Bilimleri Enstitüsü, İstanbul, 2015.
  • [8] Şeker M. İyi–kötü kokular ile ilişkili EMOTIV-EPOC tabanlı EEG kayıtlarının makine öğrenmesi yöntemleri ile sınıflandırılması, Yüksek Lisans Tezi, Dicle Üniversitesi, Fen Bilimleri Enstitüsü, Diyarbakır, 2017.
  • [9] Turgut S. Makine öğrenmesi yöntemleri kullanarak kanser teşhisi, Yüksek Lisans Tezi, İstanbul Üniversitesi, Fen Bilimleri Enstitüsü, İstanbul, 2017.
  • [10] Pekel E. Farklı makine öğrenmesi algoritmalarının karşılaştırılması, Yüksek Lisans Tezi, Ondokuz Mayıs Üniversitesi, Fen Bilimleri Enstitüsü, Samsun, 2018.
  • [11] https://kaggle.com (Erişim Tarihi: 05.05.2020)
  • [12] Johnson JM, Khoshgoftaar TM. Survey on deep learning with class imbalance. Journal of Big Data 2019; 6(1): 27.
  • [13] Fawcett T. An introduction to ROC analysis, Pattern recognition letter 2006; 27 (8): 861–874.
  • [14] Ayık YZ, Özdemir A, Yavuz U. Lise türü ve lise mezuniyet başarısının, kazanılan fakülte ile ilişkisinin veri madenciliği tekniği ile analizi. Atatürk Üniversitesi Sosyal Bilimler Enstitüsü Dergisi 2007; 10(2): 441-454.
  • [15] Bozkır AS, Sezer E, Gök B. Öğrenci seçme sınavında (öss) öğrenci başarımını etkileyen faktörlerin veri madenciliği yöntemleriyle tespiti. 5. Uluslararası İleri Teknolojiler Sempozyumu, 2009, 13-15 Mayıs, Karabük, s:1-7.
  • [16] Albayrak AS, Koltan Yılmaz Ş. Veri madenciliği: Karar ağacı algoritmaları ve İMKB verileri üzerine bir uygulama. Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi 2009; 14(1): 31-52.
  • [17] Breiman L. Random forests,machine learning, 2001 Kluwer Academic Publishers 2001; 45(1): 5-32.
  • [18] Archer KJ. Emprical characterization of random forest variable ımportance measure. Computational Statistics & Data Analysis 2008; 52(4): 2249-2260.
  • [19] http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm (Erişim Tariihi: 24 Nisan 2019)
  • [20] Balaban ME, Kartal E. Veri madenciliği ve makine öğrenmesi temel algoritmalar ve R dili ile uygulamaları. İstanbul, 2015.
  • [21] Boser B, Guyon I, Vapnik V. A training algorithm for optimal margin classifiers. Proceedings of the fifth annual workshop on Computational learning theory: Pittsburgh, Pennsylvania, USA 1992; 144–152.
  • [22] Melgani F, Bruzzone L. Classification of hyperspectral remote sensing ımages with support vector machines. IEEE Transactıons on Geoscıence and Remote Sensıng 2004; 42(8): 1778-1790.
  • [23] Kégl B. Introduction to AdaBoost, 2009; 11-14.
  • [24] Friedman J. Greedy function approximation: a gradient boosting machine. Annals of Statistics 2001; 29(5): 1189-1232.
  • [25] Özdemir ME, Yıldırım E, Yıldırım S. Classification of emotional valence dimension using artificial neural networks. In Signal Processing and Communications Applications Conference (SIU) 2015; 23: 2549-2552.
  • [26] Han J, Kamber M, Pei J. Data mining: Concepts and techniques. Morgan Kaufmann Publishers 2012.
  • [27] Japkowicz N. Performance evaluation for learning algorithms, Cambridge University Press, Cambridge 2011.
  • [28] Akosa J. Predictive accuracy: a misleading performance measure for highly imbalanced data. In Proceedings of the SAS Global Forum 2017; 12.
  • [29] Kılıç S. Klinik karar vermede ROC analizi. Journal of Mood Disorders 2013; 3 (3): 135-40.
There are 29 citations in total.

Details

Primary Language Turkish
Subjects Engineering
Journal Section MBD
Authors

Abdullah Alan 0000-0002-1585-1698

Murat Karabatak 0000-0002-6719-7421

Publication Date September 24, 2020
Submission Date May 15, 2020
Published in Issue Year 2020 Volume: 32 Issue: 2

Cite

APA Alan, A., & Karabatak, M. (2020). Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 32(2), 531-540. https://doi.org/10.35234/fumbd.738007
AMA Alan A, Karabatak M. Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. September 2020;32(2):531-540. doi:10.35234/fumbd.738007
Chicago Alan, Abdullah, and Murat Karabatak. “Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 32, no. 2 (September 2020): 531-40. https://doi.org/10.35234/fumbd.738007.
EndNote Alan A, Karabatak M (September 1, 2020) Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 32 2 531–540.
IEEE A. Alan and M. Karabatak, “Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi”, Fırat Üniversitesi Mühendislik Bilimleri Dergisi, vol. 32, no. 2, pp. 531–540, 2020, doi: 10.35234/fumbd.738007.
ISNAD Alan, Abdullah - Karabatak, Murat. “Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 32/2 (September 2020), 531-540. https://doi.org/10.35234/fumbd.738007.
JAMA Alan A, Karabatak M. Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 2020;32:531–540.
MLA Alan, Abdullah and Murat Karabatak. “Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, vol. 32, no. 2, 2020, pp. 531-40, doi:10.35234/fumbd.738007.
Vancouver Alan A, Karabatak M. Veri Seti - Sınıflandırma İlişkisinde Performansa Etki Eden Faktörlerin Değerlendirilmesi. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 2020;32(2):531-40.