Clustering methods, which is an important branch of unsupervised learning is one of the popular research areas of computer science. The inability to predict the number of clusters is an important problem in many clustering methods. In this study, a new Jensen Shannon Fuzzy C Means (JSFCM) algorithm have been proposed by modifying the Jensen Shannon (JS) distance to the Fuzzy C Means (FCM) algorithm to estimate the number of clusters. The goal of the study is to increase the performance of determining the correct number of clusters with a new algorithm proposal based on the FCM algorithm. For this purpose, the suggested JSFCM algorithm is compared with the FCM method used with Modified Partition Entropy (MPE-FCM) and the pure FCM algorithm. The FCM algorithm was run for 6 different data sets with the real number of clusters defined in the database. The number of clusters of datasets was predicted by running the same datasets for the JSFCM and MPE-FCM methods. The obtained results are compared with the JSFCM, MPE-FCM and pure FCM methods. With this comparison, it is concluded that the JSFCM algorithm is more successful in estimating the number of clusters and minimizing the objective function. It has been concluded that the JSFCM algorithm, in addition to its superiority in estimating the number of clusters is more stable in estimating the number of clusters compared to the MPE-FCM method. Based on the aggregation dataset, when the results of 10 different runs with both JSFCM and MPE-FCM algorithms are examined, it has been demonstrated that the JSFCM algorithm is more stable in estimating the number of clusters. According to these results, the MPE-FCM method achieved 20% accuracy by making 2 correct predictions in 10 different runs while the JSFCM method achieved 80% accuracy by making 8 correct predictions in 10 different runs. In addition, the cluster number predictions of all data sets obtained in 10 different runs were compared with both methods, and it was shown that the JSFCM algorithm maintains its stability when the number of clusters and features increases. Finally, suggestions are made to guide future research to eliminate the disadvantageous situations of the JSFCM algorithm arising from the FCM algorithm.
Unsupervised Learning Clustering Fuzzy C Means Jensen Shannon Distance Modified Partition Entropy
Denetimsiz öğrenmenin önemli bir dalı olan kümeleme yöntemleri, bilgisayar bilimlerinin popüler araştırma alanlarından biridir. Kümeleme yöntemlerinin birçoğunda, küme sayısının tahmin edilememesi önemli bir problem olarak ortaya çıkmaktadır. Bu çalışmada küme sayısını tahmin etmek için Jensen Shannon (JS) mesafesi, Bulanık C Ortalamalar (BCO) algoritmasına uyarlanarak yeni bir Jensen Shannon Bulanık C Ortalamalar (JSBCO) algoritması önerilmiştir. Bu çalışma, BCO algoritmasını temel alan yeni bir algoritma önerisiyle doğru küme sayısını belirleme başarımını artırmayı hedeflemektedir. Bu amaçla, önerilen JSBCO algoritması, Uyarlanmış Bölüm Entropisi (MPE) ile kullanılan BCO yöntemi ve saf BCO algoritması ile karşılaştırılmıştır. BCO algoritması 6 farklı veri seti için, veri tabanında tanımlanan sahip oldukları gerçek küme sayıları ile çalıştırılmıştır. Aynı veri setleri MPE–BCO ve JSBCO yöntemleri için de çalıştırılarak verilere ait küme sayıları tahmin edilmiştir. Elde edilen sonuçlar ile JSBCO, MPE-BCO ve BCO yöntemlerinin karşılaştırması yapılmıştır. Yapılan bu karşılaştırma ile JSBCO algoritmasının küme sayısını tahmin etmede ve amaç fonksiyonunu minimize etmede daha başarılı olduğu sonucuna varılmıştır. JSBCO algoritmasının MPE-BCO yöntemine göre, küme sayısı tahmin etme üstünlüğünün yanı sıra, küme sayısı tahmininde daha kararlı davrandığı sonucuna ulaşılmıştır. JSBCO algoritmasının küme sayısı tahmin etmede daha kararlı davrandığını göstermek için Aggregation veri seti esas alınarak hem MPE-BCO algoritması hem JSBCO algoritması ile 10 farklı çalışmasının sonuçları gösterilmiştir. Bu sonuçlara göre MPE-BCO yöntemi, 10 farklı çalışma içinde toplamda 2 kez doğru tahmin ederek %20 doğruluk elde ederken, JSBCO algoritması 10 farklı çalışma içinde 8 kez doğru tahminde bulunarak %80 doğruluk elde etmiştir. Ayrıca tüm veri setlerinin 10 farklı çalışması sonucu elde edilen küme sayısı tahminleri her iki yöntemde karşılaştırılarak, JSBCO algoritmasının artan küme sayısı ve özellik sayısında da kararlı davranışlarını sürdürdüğü gösterilmiştir. Son olarak JSBCO algoritmasının, BCO algoritması kısmından kaynaklanan dezavantajlı durumlarının giderilmesi için gelecek çalışmalara yol gösteren önerilerde bulunulmuştur.
Denetimsiz Öğrenme Kümeleme Bulanık C Ortalamalar Jensen Shannon Mesafesi Uyarlanmış Bölüm Entropisi.
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Erken Görünüm Tarihi | 15 Aralık 2021 |
Yayımlanma Tarihi | 1 Aralık 2021 |
Yayımlandığı Sayı | Yıl 2021 Sayı: 29 |