Öbekleme verideki bilinmeyen desenleri açığa çıkararak farklı sınıflara ayıran etkili bir araçtır. Ancak, k-ortalama, k-NN, bulanık c-ortalama gibi geleneksel öbekleme algoritmalarında, veriye göre değişken olan öbek sayısının seçimi belirsizdir. Dahası, öbekleme algoritmalarının uygulanacağı veri setleri genellikle öbekler arası doğrusal olmayan sınırlara sahiptir. Bu doğrusal olmayan sınırları giriş uzayında belirlemek karmaşık bir problemdir. Bahsi geçen sorunları çözmek için, son yıllarda öbek sayısını ve sınırlarını otomatik olarak belirleyen kernel tabanlı öbekleme yöntemleri geliştirilmiştir. Özellikle, Destek Vektör Kümele(DVK) algoritması öbek sayısını otomatik olarak belirleme ve Gauss kenel parametresine göre doğrusal olmayan sınırları ortaya çıkarma gibi özellikleriyle veri analizinde büyük ilgi görmektedir. DVK tarafından belirlenen öbek ve öbekler arası sınırlar, kernel fonksiyonunun seçimine ve parametrelerine bağlı olarak değişiklik gösterebilir. Bundan dolayı, kernel fonksiyonunun seçimi önemli bir rol oynar. Bu çalışmada, ilk kez, DVK çatısı altında iki farklı kernel (Cauchy ve Laplacian) fonksiyonunun uygulanması ve performanslarının değerlendirilmesi gerçekleştirilmiştir. Elde edilen sonuçlardan Laplacian kernel fonksiyonunun Gauss ve Cauchy kernel fonksiyonlarından daha iyi performans gösterdiği gözlemlenmiştir.
Clustering is an effective tool that divides data into different classes to reveal internal and previously unknown data schemes. However, in conventional clustering algorithms such as the k-means, k-NN, fuzzy c tool, the selection of the appropriate number of clusters for each data set is uncertain and varies with the data sets. Furthermore, the data sets to which the clustering algorithm is applied generally have nonlinear boundaries between clusters. Determining these nonlinear boundaries in the input space causes a complex problem. To overcome these problems, kernel-based clustering methods have been developed in recent years, which automatically determine the number and boundaries of clusters. In particular, the Support Vector Clustering (SVC) algorithm has received great attention in data analysis because of its features such as automatically determining the number of clusters and recognizing nonlinear boundaries based on the Gaussian kernel parameter. The number of clusters and region boundaries produced by SVC may show variation depending on the choice of the kernel function and its parameters. Therefore, the choice of kernel function plays a significant role. In this study, for the first time, the implementation of two different kernel (Cauchy and Laplacian) functions and evaluation of their performances have been realized within the framework of SVC. It was observed that the Laplacian kernel function performed better than Gauss and Cauchy kernel functions.
Primary Language | English |
---|---|
Subjects | Engineering |
Journal Section | Journals |
Authors | |
Publication Date | December 31, 2020 |
Published in Issue | Year 2020 |