Veri madenciliği algoritmalarının kullanımına hazır hale getirilmesi için, “Kaggle’da Veri Bilimi Anketi” isimli veri seti, veri madenciliği problem tanıma aşaması ile analiz edilmiştir. Analiz edilen veri seti ve karar verilen hedef doğrultusunda veri ön işleme aşaması da gerçekleştirilmiştir. Ön işleme aşaması çıktısı olarak elde edilen işlenmiş veri seti, veri madenciliği teknolojisi sınıflandırma yöntemine ait C4.5, Rastgele Orman ve K-En Yakın Komşu Algoritmaları ile modellenmiştir. Bu üç algoritmanın model başarı oranları hesaplanmıştır. Aralarındaki başarı oranı sapma değerleri analiz edilerek sapma değerlerine sebep olan durumlara değinilmiştir. Model başarı oranını etkileyen durumlara farklı bir açıdan daha bakılabilmesi için, bu üç algoritma ile yeni bir modelleme daha gerçekleştirilmiştir. İşlenmiş veri seti için karar verilen üç algoritma ve bu algoritmaların modelleme kriterleri ile gerçekleştirilen modelleme işlemi, orijinal veri seti kullanılarak da gerçekleştirilmiştir. İşlenmiş veri seti kullanılarak elde edilen modellerin başarı oranı hesaplamaları, orijinal veri seti için de hesaplanmış olup kıyaslamaları gerçekleştirilmiştir. Kullanılan veri seti, karar verilen yöntem, algoritma, algoritma kriter değerleri gibi model başarısını etkileyen etmenlerin kıyaslama işlemleri, gerçekleştirilen modelleme uygulamaları sayesinde somutlaştırılarak aktarılmıştır. Elde edilen bu kıyaslamalı örnekler referans alınarak, model başarı oranını etkileyen etmenler değerlendirilmiş olup, veri seti nitelik analizi ve Veri Madenciliği süreçleri hakkında sırasıyla çıkarımlar gerçekleştirilmiştir.
In order to make data mining algorithms ready for use, the data set named "Data Science Questionnaire in Kaggle", was analyzed in the data mining problem recognition stage. In line with the analyzed data set and the decided target, the data preprocessing stage was also carried out. The processed data set obtained as the output of the pre-processing stage is modeled by C4.5, Random Forest and K-Nearest Neighbor classification algorithms of data mining technology. The model success rates of these three algorithms were calculated. The success rate deviation values between them were analyzed and the situations that caused the deviation values were mentioned. In order to look at the issues affecting the model success rate from a different perspective, new modeling was performed with these three algorithms. The modeling process, which was carried out with the three algorithms decided for the processed data set and the modeling criteria of these algorithms, was also carried out using the original data set. The success rate calculations of the models obtained using the processed data set were also calculated for the original data set and their comparisons were made. The comparison of the factors affecting the success of the model, such as the data set used, the method decided, algorithm, algorithm criterion values, were embodied and expressed thanks to the modeling applications carried out. By taking these comparative examples as a reference, the factors affecting the model success rate were evaluated, and inferences were made about the data set quality analysis and data mining processes, respectively.
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Publication Date | December 31, 2021 |
Published in Issue | Year 2021 Issue: 32 |