Veri Madenciliği Yöntemleri İle İşveren Sektörünün Sınıflandırılması

Elvan Kübra Doğan; Arafat Şentürk

doi:10.31590/ejosat.1039844

Research Article

Veri Madenciliği Yöntemleri İle İşveren Sektörünün Sınıflandırılması

Year 2021, Issue: 32, 227 - 234, 31.12.2021

Elvan Kübra Doğan , Arafat Şentürk

https://doi.org/10.31590/ejosat.1039844

Abstract

Veri madenciliği algoritmalarının kullanımına hazır hale getirilmesi için, “Kaggle’da Veri Bilimi Anketi” isimli veri seti, veri madenciliği problem tanıma aşaması ile analiz edilmiştir. Analiz edilen veri seti ve karar verilen hedef doğrultusunda veri ön işleme aşaması da gerçekleştirilmiştir. Ön işleme aşaması çıktısı olarak elde edilen işlenmiş veri seti, veri madenciliği teknolojisi sınıflandırma yöntemine ait C4.5, Rastgele Orman ve K-En Yakın Komşu Algoritmaları ile modellenmiştir. Bu üç algoritmanın model başarı oranları hesaplanmıştır. Aralarındaki başarı oranı sapma değerleri analiz edilerek sapma değerlerine sebep olan durumlara değinilmiştir. Model başarı oranını etkileyen durumlara farklı bir açıdan daha bakılabilmesi için, bu üç algoritma ile yeni bir modelleme daha gerçekleştirilmiştir. İşlenmiş veri seti için karar verilen üç algoritma ve bu algoritmaların modelleme kriterleri ile gerçekleştirilen modelleme işlemi, orijinal veri seti kullanılarak da gerçekleştirilmiştir. İşlenmiş veri seti kullanılarak elde edilen modellerin başarı oranı hesaplamaları, orijinal veri seti için de hesaplanmış olup kıyaslamaları gerçekleştirilmiştir. Kullanılan veri seti, karar verilen yöntem, algoritma, algoritma kriter değerleri gibi model başarısını etkileyen etmenlerin kıyaslama işlemleri, gerçekleştirilen modelleme uygulamaları sayesinde somutlaştırılarak aktarılmıştır. Elde edilen bu kıyaslamalı örnekler referans alınarak, model başarı oranını etkileyen etmenler değerlendirilmiş olup, veri seti nitelik analizi ve Veri Madenciliği süreçleri hakkında sırasıyla çıkarımlar gerçekleştirilmiştir.

Keywords

Veri Önişleme , C4.5 , Rastgele Orman , KNN Algoritması , Karışıklık Matrisi , Model Başarı Oranı.

References

Akpınar, H. (2000). Veri Tabanlarında Bilgi Keşfi ve Veri Madenciliği. İstanbul Üniversitesi İşletme Fakültesi Dergisi, C:29, Sayı:1, s:1-22.
Altun, M. (2017). Veri Madenciliği ve Uygulama Alanları. Akdeniz Üniversitesi, Eğitim Bilimleri Bölümü, EYTEPE ABD Doktora Programı, Doktora Seminer Raporu.
Awan, A. A. (2020). Data Science Survey on Kaggle. Kaggle: Your Machine Learning and Data Science Community. https://www.kaggle.com/kingabzpro/datascience-survey-on-kaggle
Baykal, A. (2006). Veri Madenciliği Uygulama Alanları. Dicle Üniversitesi Ziya Gökalp Eğitim Fakültesi Dergisi.
Breiman, L. (2001). Random Forest. Machine Learning, C:1, s:5-32.
Coşlu, E. (2013). Veri Madenciliği. Akdeniz Üniversitesi, 15. Akademik Bilişim Konferansı.
Çelik, M. (2009). Veri Madenciliğinde Kullanılan Sınıflandırma Yöntemleri ve Bir Uygulama. İstanbul Üniversitesi, Sosyal Bilimler Enstitüsü, Ekonometri Anabilim Dalı, Yüksek Lisans Tezi.
Esmer, S., Uçar, M. K., Çil, İ., & Bozkurt, M. R. (2020). Parkinson Hastalığı Teşhisi İçin Makine Öğrenmesi Tabanlı Yeni Bir Yöntem. Düzce Üniversitesi Bilim ve Teknoloji Dergisi, C:8, s:1877-1893.
Işık, K., & Kapan Ulusoy, S. (2021). Metal Sektöründe Üretim Sürelerine Etki Eden Faktörlerin Veri Madenciliği Yöntemleriyle Tespit Edilmesi. Gazi Üniversitesi, Journal of the Faculty, Engineering and Architecture, C:36, Sayı:4, s:1949-1962.
Küçüksille, E. (2009). Veri Madenciliği Süreci Kullanılarak Portföy Performansının Değerlendirilmesi Ve İMKB Hisse Senetleri Piyasasında Bir Uygulama. Süleyman Demirel Üniversitesi, Sosyal Bilimler Enstitüsü, İşletme Anabilim Dalı, Doktora Tezi.
Mitchell, T. (1997). Machine Learning. McGraw Hill, New York.
Özekes, S. (2003). VERİ MADENCİLİĞİ MODELLERİ VE UYGULAMA ALANLARI. İstanbul Ticaret Üniversitesi Dergisi, Sayı:3.
Sarıman, G. (2011). Veri Madenciliğinde Kümeleme Teknikleri Üzerine Bir Çalışma: K-Means ve K-Medoids Kümeleme Algoritmalarının Karşılaştırılması. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, C:15, Sayı:3, s:192-202.
Savaş, S., Topaloğlu, N., & Yılmaz, M. (2012). Veri Madenciliği ve Türkiye’deki Uygulama Örnekleri. İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi, C:11, Sayı:21, s:1-23.
Sönmez, F. (2015). Kredi Skorunun Belirlenmesinde Yapay Sinir Ağları ve Karar Ağaçlarının Kullanımı: Bir Model Önerisi. ABMYO Dergisi. Söyler, H. (2014). Veri Madenciliği ve Kanser Erken Teşhisinde Kullanımı. İnönü Üniversitesi Sosyal Bilimler Enstitüsü Ekonometri Ana Bilim Dalı.
Şekeroğlu, S. (2010). Hizmet Sektöründe Bir Veri Madenciliği Uygulaması. İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, Endüstri Mühendisliği, Yüksek Lisans Tezi.
Yıldırım, S. (2003). Tümevarım Öğrenme Tekniklerinden C4.5’in İncelenmesi. İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, Savunma Teknolojileri, Yüksek Lisans Tezi.
Yücebaş, S. C. (2018). Karmaşık Hastalıkların Teşhisinde Veri Madenciliği Yöntemlerinin Başarım Karşılaştırması. ÇOMÜ Açık Erişim Sistemi.

Classification of Employer Industry with Data Mining Methods

Year 2021, Issue: 32, 227 - 234, 31.12.2021

Elvan Kübra Doğan , Arafat Şentürk

https://doi.org/10.31590/ejosat.1039844

Abstract

In order to make data mining algorithms ready for use, the data set named "Data Science Questionnaire in Kaggle", was analyzed in the data mining problem recognition stage. In line with the analyzed data set and the decided target, the data preprocessing stage was also carried out. The processed data set obtained as the output of the pre-processing stage is modeled by C4.5, Random Forest and K-Nearest Neighbor classification algorithms of data mining technology. The model success rates of these three algorithms were calculated. The success rate deviation values between them were analyzed and the situations that caused the deviation values were mentioned. In order to look at the issues affecting the model success rate from a different perspective, new modeling was performed with these three algorithms. The modeling process, which was carried out with the three algorithms decided for the processed data set and the modeling criteria of these algorithms, was also carried out using the original data set. The success rate calculations of the models obtained using the processed data set were also calculated for the original data set and their comparisons were made. The comparison of the factors affecting the success of the model, such as the data set used, the method decided, algorithm, algorithm criterion values, were embodied and expressed thanks to the modeling applications carried out. By taking these comparative examples as a reference, the factors affecting the model success rate were evaluated, and inferences were made about the data set quality analysis and data mining processes, respectively.

Keywords

Data Preprocessing , C4.5 , Random Forest , KNN Algorithm , Confusion Matrix , Model Success Rate.

References

Akpınar, H. (2000). Veri Tabanlarında Bilgi Keşfi ve Veri Madenciliği. İstanbul Üniversitesi İşletme Fakültesi Dergisi, C:29, Sayı:1, s:1-22.
Altun, M. (2017). Veri Madenciliği ve Uygulama Alanları. Akdeniz Üniversitesi, Eğitim Bilimleri Bölümü, EYTEPE ABD Doktora Programı, Doktora Seminer Raporu.
Awan, A. A. (2020). Data Science Survey on Kaggle. Kaggle: Your Machine Learning and Data Science Community. https://www.kaggle.com/kingabzpro/datascience-survey-on-kaggle
Baykal, A. (2006). Veri Madenciliği Uygulama Alanları. Dicle Üniversitesi Ziya Gökalp Eğitim Fakültesi Dergisi.
Breiman, L. (2001). Random Forest. Machine Learning, C:1, s:5-32.
Coşlu, E. (2013). Veri Madenciliği. Akdeniz Üniversitesi, 15. Akademik Bilişim Konferansı.
Çelik, M. (2009). Veri Madenciliğinde Kullanılan Sınıflandırma Yöntemleri ve Bir Uygulama. İstanbul Üniversitesi, Sosyal Bilimler Enstitüsü, Ekonometri Anabilim Dalı, Yüksek Lisans Tezi.
Esmer, S., Uçar, M. K., Çil, İ., & Bozkurt, M. R. (2020). Parkinson Hastalığı Teşhisi İçin Makine Öğrenmesi Tabanlı Yeni Bir Yöntem. Düzce Üniversitesi Bilim ve Teknoloji Dergisi, C:8, s:1877-1893.
Işık, K., & Kapan Ulusoy, S. (2021). Metal Sektöründe Üretim Sürelerine Etki Eden Faktörlerin Veri Madenciliği Yöntemleriyle Tespit Edilmesi. Gazi Üniversitesi, Journal of the Faculty, Engineering and Architecture, C:36, Sayı:4, s:1949-1962.
Küçüksille, E. (2009). Veri Madenciliği Süreci Kullanılarak Portföy Performansının Değerlendirilmesi Ve İMKB Hisse Senetleri Piyasasında Bir Uygulama. Süleyman Demirel Üniversitesi, Sosyal Bilimler Enstitüsü, İşletme Anabilim Dalı, Doktora Tezi.
Mitchell, T. (1997). Machine Learning. McGraw Hill, New York.
Özekes, S. (2003). VERİ MADENCİLİĞİ MODELLERİ VE UYGULAMA ALANLARI. İstanbul Ticaret Üniversitesi Dergisi, Sayı:3.
Sarıman, G. (2011). Veri Madenciliğinde Kümeleme Teknikleri Üzerine Bir Çalışma: K-Means ve K-Medoids Kümeleme Algoritmalarının Karşılaştırılması. Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, C:15, Sayı:3, s:192-202.
Savaş, S., Topaloğlu, N., & Yılmaz, M. (2012). Veri Madenciliği ve Türkiye’deki Uygulama Örnekleri. İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi, C:11, Sayı:21, s:1-23.
Sönmez, F. (2015). Kredi Skorunun Belirlenmesinde Yapay Sinir Ağları ve Karar Ağaçlarının Kullanımı: Bir Model Önerisi. ABMYO Dergisi. Söyler, H. (2014). Veri Madenciliği ve Kanser Erken Teşhisinde Kullanımı. İnönü Üniversitesi Sosyal Bilimler Enstitüsü Ekonometri Ana Bilim Dalı.
Şekeroğlu, S. (2010). Hizmet Sektöründe Bir Veri Madenciliği Uygulaması. İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, Endüstri Mühendisliği, Yüksek Lisans Tezi.
Yıldırım, S. (2003). Tümevarım Öğrenme Tekniklerinden C4.5’in İncelenmesi. İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, Savunma Teknolojileri, Yüksek Lisans Tezi.
Yücebaş, S. C. (2018). Karmaşık Hastalıkların Teşhisinde Veri Madenciliği Yöntemlerinin Başarım Karşılaştırması. ÇOMÜ Açık Erişim Sistemi.

There are 18 citations in total.

Details

Primary Language	Turkish
Subjects	Engineering
Journal Section	Articles
Authors	Elvan Kübra Doğan 0000-0002-5530-9385 Arafat Şentürk 0000-0002-9005-3565
Publication Date	December 31, 2021
Published in Issue	Year 2021 Issue: 32

Cite

APA	Doğan, E. K., & Şentürk, A. (2021). Veri Madenciliği Yöntemleri İle İşveren Sektörünün Sınıflandırılması. Avrupa Bilim Ve Teknoloji Dergisi(32), 227-234. https://doi.org/10.31590/ejosat.1039844

Download Cover Image

Article Files

Full Text