Kümeleme yöntemleri, verilerdeki örüntüleri belirlemek için önemlidir ve küme sayısı, sonuçların kalitesini önemli ölçüde etkiler. Optimal küme sayısının belirlenmesi, özellikle büyük veri setlerinde zorlu bir görevdir, çünkü geleneksel yöntemler hesaplama açısından maliyetli olabilir. Küme sayısını belirlemek için verimli tekniklerin geliştirilmesi, özellikle büyük ölçekli uygulamalarda, kümelemenin doğruluğu ve ölçeklenebilirliğini iyileştirmek için kritik öneme sahiptir. Bu çalışmada, küme sayısını belirlemek için yeni bir yaklaşım sunulmuştur. Önerilen yöntem, kümeleme yapmadan sadece veri noktaları arası uzaklıkları temel alarak küme sayısını bulmayı amaçlar. Dirsek yöntemine benzer şekilde, veri noktaları arası uzaklıklar için dirsek noktası bulunup, bu dirsek noktası yardımıyla küme sayısı belirlenir. Önerilen algoritma, Dirsek yöntemiyle 11 veri seti ve 4 performans metriği kullanılarak karşılaştırılmıştır. Sonuçlar, önerilen yöntemin özellikle veri seti boyutu arttıkça zaman karmaşıklığı açısından daha avantajlı olduğunu göstermektedir.
Clustering methods are essential for identifying patterns in data, and the number of clusters significantly impacts the quality of results. Determining the optimal number of clusters is challenging, particularly for large datasets, as traditional methods can be computationally expensive. Developing efficient techniques to determine the number of clusters is crucial for improving both the accuracy and scalability of clustering, especially in large-scale applications. In this study, a new approach for determining the number of clusters is presented. The proposed method aims to find the number of clusters based solely on the distances between data points, without performing clustering. Similar to the Elbow method, the elbow point is found for the distances between data points, and the number of clusters is determined using this elbow point. The proposed algorithm was compared with the Elbow method using 11 real-world datasets and 4 performance metrics. The results demonstrate that the proposed method is particularly advantageous in terms of time complexity, especially as the dataset size increases.
Primary Language | English |
---|---|
Subjects | Algorithms and Calculation Theory, Data Structures and Algorithms |
Journal Section | Engineering and Architecture / Mühendislik ve Mimarlık |
Authors | |
Publication Date | August 31, 2025 |
Submission Date | January 3, 2025 |
Acceptance Date | May 13, 2025 |
Published in Issue | Year 2025 Volume: 30 Issue: 2 |