Data mining, which has a similar meaning to the term mining, is the process of analyzing enormous amounts of information and data sets and discovering useful intelligence to help solve problems, predict trends, mitigate risks and find new opportunities. This study aims to utilize the enormous capabilities of data mining for knowledge discovery in Likert-scale data types. To compare the classification success of different data mining techniques on Likert-scale data types, the Turkish Family Structure Survey (TFSS) was selected as the data set. On the data set, which is imbalanced due to its structure, firstly, classification was performed without removing the imbalance, then the imbalance between classes was removed and its effect on the classification analysis was observed. In order to eliminate the imbalance between classes, three different data sets were created by changing the total sample volume with resampling and data completion method. It was observed that the algorithm with the highest classification success in the created data sets was the CART algorithm. RepTree algorithm was found to produce more successful results in the classification without removing the imbalance.
Madencilik terimi ile benzer anlam taşıyan veri madenciliği, sorunların çözülmesine, eğilimlerin tahmin edilmesine, risklerin azaltılmasına ve yeni fırsatlar bulunmasına yardımcı olmak için muazzam miktarda bilgi ve veri setini analiz etme, yararlı zekayı keşfetme sürecidir. Bu çalışmada veri madenciliğinin muazzam yeteneklerinden faydalanarak Likert ölçekli veri tiplerinde bilgi keşfi yapılması amaçlanmıştır. Farklı veri madenciliği tekniklerinin Likert ölçekli veri türleri üzerinde sınıflandırma başarısını karşılaştırmak üzere veri seti olarak Türkiye Aile Yapısı Araştırması (TAYA) seçilmiştir. Yapısı gereği dengesiz olan veri seti üzerinde ilk olarak dengesizlik giderilmeden sınıflandırma yapılmış ardından sınıflar arası dengesizlik giderilmiş ve sınıflama analizine etkisi gözlemlenmiştir. Sınıflar arası dengesizliği giderebilmek amacıyla yeniden örnekleme ve veri tamamlama yöntemi ile toplam örnek hacmi değiştirilerek üç farklı veri seti oluşturulmuştur. Oluşturulan veri setlerinde sınıflandırma başarısı en yüksek olan algoritmanın CART algoritması olduğu görülmüştür. Dengesizlik giderilmeden yapılan sınıflandırmada ise RepTree algoritmasının daha başarılı sonuçlar ürettiği görülmüştür.
Veri setinin çalışmada kullanılmasına olanak sağladığı için Türkiye İstatistik Kurumu Başkanlığı’na teşekkür ederiz.
Primary Language | Turkish |
---|---|
Subjects | Computational Statistics, Statistical Analysis, Statistical Data Science, Applied Statistics, Statistics (Other) |
Journal Section | Articles |
Authors | |
Publication Date | April 25, 2025 |
Submission Date | December 5, 2024 |
Acceptance Date | March 2, 2025 |
Published in Issue | Year 2025 Volume: 29 Issue: 1 |
e-ISSN :1308-6529
Linking ISSN (ISSN-L): 1300-7688
All published articles in the journal can be accessed free of charge and are open access under the Creative Commons CC BY-NC (Attribution-NonCommercial) license. All authors and other journal users are deemed to have accepted this situation. Click here to access detailed information about the CC BY-NC license.