EN
TR
Kümeleme Performansını Ölçmek için Yeni Bir Yöntem ve Metin Kümeleme için Değerlendirmesi
Öz
Bu çalışmada kümeleme performansını ölçmek için kullanılabilecek alternatif bir yöntem önerilmiştir. Önerilen yöntemin tutarlılığını test etmek için, Wikipedia makale özetlerinden oluşan iki farklı veri kümesinde k-Means, k-Medoids ve CLARANS yöntemleri ile kümelemeler yapılmış ve hem önerdiğimiz yöntem hem de mevcut yöntemler ile performans ölçümleri hesaplanmıştır. Sadece İngilizce özetlerin olduğu ilk veri kümesi farklı sayıda kümelere ayrılarak test edilmiştir. Özetlerin içeriği hakkında önceden bilgi sahibi olunmadığı için ne kadar doğru kümelendiğini değerlendirmek için dahili yöntemler olan Silhouette, Calinski-Harabasz ve Davies-Bouldin indeksleri kullanılmıştır. 6 farklı dile ait Wikipedia özetlerini içeren ikinci veri kümesi ise özetlerin dillerine göre sınıflanmış olması için kümeleme yöntemleri ile 6 kümeye ayrılmıştır. Veri kümesindeki metinlerin hangi dile ait olduğu önceden bilindiği için kümelemenin başarısı hem dahili hem de harici yöntemler ile ölçülebilmiştir. Veri sıkıştırma algoritmalarının birbirine benzer metinlerin olduğu bir dosyayı, birbirinden farklı metinlerin olduğu dosyaya göre daha iyi sıkıştırdığı bilindiğinden, sıkışma oranının alternatif bir değerlendirme ölçütü olarak kullanılabileceği önerilmiştir. Silhouette, Calinski-Harabasz ve Davies-Bouldin indeksleri gibi dahili yöntemlere göre çok daha hızlı hesaplanabilen önerilen Sıkıştırma Oranı İndeksi (SOİ), 4 farklı sıkıştırma algoritması ile test edilmiş ve ikinci veri kümesinde kullanılan 9 harici yöntemle de aynı sonuçları vermiştir.
Anahtar Kelimeler
Kaynakça
- Abdalgader, K. (2017). Clustering Short Text using a Centroid-Based Lexical Clustering Algorithm. IAENG International Journal of Computer Science, 44(4).
- Alakuijala, J., Szabadka, Z. (2016). Brotli Compressed Data Format. Internet Engineering Task Force (IETF), RFC 7932, ISSN: 2070-1721
- Bolshakova, N., & Azuaje, F. (2003). Cluster validation techniques for genome expression data. Signal processing, 83(4), 825-833.
- Burrows, M., Wheeler, D. J. (1994). A block sorting lossless data compression algorithm. Technical Report 124, Digital Equipment Corporation.
- Caliński, T., & Harabasz, J. (1974). A dendrite method for cluster analysis. Communications in Statistics-theory and Methods, 3(1), 1-27.
- Cleary, J., & Witten, I. (1984). Data compression using adaptive coding and partial string matching. IEEE transactions on Communications, 32(4), 396-402.
- Davies, D. L., & Bouldin, D. W. (1979). A cluster separation measure. IEEE transactions on pattern analysis and machine intelligence, (2), 224-227.
- Deutsch, P. (1996). DEFLATE Compressed Data Format Specification. version 1.3, RFC 1951 doi:10.17487/RFC1951.
Ayrıntılar
Birincil Dil
Türkçe
Konular
Mühendislik
Bölüm
Araştırma Makalesi
Yayımlanma Tarihi
30 Kasım 2021
Gönderilme Tarihi
5 Mayıs 2021
Kabul Tarihi
15 Ağustos 2021
Yayımlandığı Sayı
Yıl 2021 Sayı: 27
APA
Aslanyürek, M., & Mesut, A. (2021). Kümeleme Performansını Ölçmek için Yeni Bir Yöntem ve Metin Kümeleme için Değerlendirmesi. Avrupa Bilim ve Teknoloji Dergisi, 27, 53-65. https://doi.org/10.31590/ejosat.932938
AMA
1.Aslanyürek M, Mesut A. Kümeleme Performansını Ölçmek için Yeni Bir Yöntem ve Metin Kümeleme için Değerlendirmesi. EJOSAT. 2021;(27):53-65. doi:10.31590/ejosat.932938
Chicago
Aslanyürek, Murat, ve Altan Mesut. 2021. “Kümeleme Performansını Ölçmek için Yeni Bir Yöntem ve Metin Kümeleme için Değerlendirmesi”. Avrupa Bilim ve Teknoloji Dergisi, sy 27: 53-65. https://doi.org/10.31590/ejosat.932938.
EndNote
Aslanyürek M, Mesut A (01 Kasım 2021) Kümeleme Performansını Ölçmek için Yeni Bir Yöntem ve Metin Kümeleme için Değerlendirmesi. Avrupa Bilim ve Teknoloji Dergisi 27 53–65.
IEEE
[1]M. Aslanyürek ve A. Mesut, “Kümeleme Performansını Ölçmek için Yeni Bir Yöntem ve Metin Kümeleme için Değerlendirmesi”, EJOSAT, sy 27, ss. 53–65, Kas. 2021, doi: 10.31590/ejosat.932938.
ISNAD
Aslanyürek, Murat - Mesut, Altan. “Kümeleme Performansını Ölçmek için Yeni Bir Yöntem ve Metin Kümeleme için Değerlendirmesi”. Avrupa Bilim ve Teknoloji Dergisi. 27 (01 Kasım 2021): 53-65. https://doi.org/10.31590/ejosat.932938.
JAMA
1.Aslanyürek M, Mesut A. Kümeleme Performansını Ölçmek için Yeni Bir Yöntem ve Metin Kümeleme için Değerlendirmesi. EJOSAT. 2021;:53–65.
MLA
Aslanyürek, Murat, ve Altan Mesut. “Kümeleme Performansını Ölçmek için Yeni Bir Yöntem ve Metin Kümeleme için Değerlendirmesi”. Avrupa Bilim ve Teknoloji Dergisi, sy 27, Kasım 2021, ss. 53-65, doi:10.31590/ejosat.932938.
Vancouver
1.Murat Aslanyürek, Altan Mesut. Kümeleme Performansını Ölçmek için Yeni Bir Yöntem ve Metin Kümeleme için Değerlendirmesi. EJOSAT. 01 Kasım 2021;(27):53-65. doi:10.31590/ejosat.932938
Cited By
Derin Öğrenme Yardımıyla Aktif Termogramlar Üzerinden Meme Lezyonlarının Sınıflandırması
Süleyman Demirel Üniversitesi Fen Edebiyat Fakültesi Fen Dergisi
https://doi.org/10.29233/sdufeffd.1141226Single and Binary Performance Comparison of Data Compression Algorithms for Text Files
Bitlis Eren Üniversitesi Fen Bilimleri Dergisi
https://doi.org/10.17798/bitlisfen.1301546Minimizing Delay at Closely Spaced Signalized Intersections Through Green Time Ratio Optimization: A Hybrid Approach With K-Means Clustering and Genetic Algorithms
IEEE Access
https://doi.org/10.1109/ACCESS.2025.3549970Eğitim Fakülteleri Lisans Programlarındaki Değişimlerin YÖK ATLAS’taki Çeşitli Girdi Göstergeleri (2022-2024) Üzerinden İncelenmesi
Yaşadıkça Eğitim
https://doi.org/10.33308/26674874.2025392894Üniversite Öğrencilerinin Eleştirel Düşünme Profillerinin k-Means Kümeleme Algoritması ile Analizi
International Journal of Pure and Applied Sciences
https://doi.org/10.29132/ijpas.1675646G7 Ülkelerinin Ekonomik ve Sosyal Dinamikleri: Eğitim, Sağlık ve Ar-Ge Harcamalarının K-Means Algoritması ile İncelenmesi
Adnan Menderes Üniversitesi Sosyal Bilimler Enstitüsü Dergisi
https://doi.org/10.30803/adusobed.1679587Tekstil üretim süreçlerinde hata tahmini ve önlenmesi: Makine öğrenmesi tabanlı karar destek sistemi yaklaşımı
Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi
https://doi.org/10.65206/pajes.10594