Research Article
BibTex RIS Cite

K-Ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları

Year 2018, Volume: 33 Issue: 2, 413 - 424, 06.04.2018
https://doi.org/10.17341/gazimmfd.416350

Abstract

Günümüzde mikrodizi teknolojisi sayesinde genlerin farklı seviyelerini eş zamanlı olarak ifade etmek mümkün hale gelmiştir. Genler içindeki gizli bilgilerin temsil edilmesi, genlerin anlaşılabilirliğini kolaylaştırmakta; ancak gen sayısının fazla olması ve veri setlerindeki yüksek gürültü miktarı gen verilerinin anlaşılmasını zorlaştırmaktadır. Bunun için genlerin anlaşılabilirliğini kolaylaştırmak amacıyla kümeleme kullanılmaktadır. Mikrodizi verileri çok boyutlu verilere en iyi örneklerdendir. Çok boyutlu verileri kümelendirmek için çalışma kapsamında standart K-means ve PSO kümeleme algoritmaları için başlangıç küme merkezlerinin seçimine yönelik yeni yöntemler önerilmiştir. Ayrıca öbek (coreset) yaklaşımı PSO algoritmasına uyarlanmıştır. Geliştirilen yöntemlerin doğruluğu; literatürde sıkça kullanılan veri setleri üzerinde test edilmiş ve bu yaklaşımlar Colon Cancer mikrodizi veri seti üzerinde çalıştırılmıştır. Baz alınan standart K-means ve PSO kümeleme yöntemleri ile geliştirilen yaklaşımlar karşılaştırılmış; performansları çözüme ulaşılan ortalama iterasyon sayısı, Rand ve Silhouette indeksleri kullanılarak değerlendirilmiştir. Deneysel çalışmalarda, geliştirilen yaklaşımların öznitelik seçimi yapılmış normalize veri setleri üzerinde başarılı sonuçlar verdiği gözlemlenmiştir.

References

  • Baldi, P., Brunak, S., Bioinformatics: The Machine Learning Approach, 2nd ed., MA: MIT Press, Cambridge, 2001.
  • Bertone, P., Gerstein, M., "Integrative Data Mining: The New Direction in Bioinformatics Machine Learning for Analyzing Genome-wide Expression Profiles", IEEE Engineering in Medicine and Biology, Cilt 20, 33-40, 2001.
  • Valafar, F., "Pattern Recognition Techniques in Microarray Data Analysis: A Survey", Annals of New York Academy of Sciences, Cilt 980, No 1, 41-64, 2002.
  • Jiang, D., Tang, C., Zhang, A., "Cluster Analysis for Gene Expression Data: A Survey", IEEE Transactions on Knowledge and Data Engineering, Cilt 16, No 11, 1370-1386, 2004.
  • Handl, J., Knowles, J., Kell, D.B., "Computational Cluster Validation in Post-genomic Data Analysis", Bioinformatics, Cilt 21, 3201–3212, 2005.
  • Forgy, E. W., "Cluster Analysis of Multivariate Data: Efficiency vs. Interpretability of Classifications", Biometrics, Cilt 21, No 3, 768-769, 1965.
  • Kaufman, L., Rousseeuw, P.J., Finding Groups in Data: An Introduction to Cluster Analysis, John Wiley & Sons, Inc., New York, 355, 1990 .
  • Katsavounidis, I., Kuo, C., Zhang, Z., "A New Initialization Technique for Generalized Lloyd Iteration", IEEE Signal Processing Letters, Cilt 1, No 10, 144 -146, 1994.
  • Bradley, P. S., Fayyad, U. M., "Refining Initial Points for K -Means Clustering", Proc. 15th International Conference on Machine Learning, , Cilt 98, 91-99, 1998.
  • Khan, S. S., Ahmad, A., "Cluster Center Initialization Algorithm for K-means Clustering", Pattern recognition letters, Cilt 25, No 11, 1293-1302, 2004.
  • Arai, K., Barakbah, A. R., "Hierarchical K-means: An Algorithm for Centroids Initialization for K-means", Reports of the Faculty of Science and Engineering Saga University, Cilt 36, No 1, 25-31, 2007.
  • Erişoğlu, M., Çalış, N., Sakallıoğlu, S., "A New Algorithm for Initial Cluster Centers in K-means Clustering", Pattern Recognition Letters, Cilt 32, No 14, 1701-1705, 2011.
  • Aggarwal, N., Aggarwal, K., "A Mid-point Based K-means Clustering Algorithm for Data Mining", International Journal on Computer Science and Engineering (IJCSE)", Cilt 4, No 6, 1174-1180, 2012a.
  • Aldahdooh, R. T., Ashour, W., "DIMK-means 'Distance-based Initialization Method for K-means Clustering Algorithm'", International Journal of Intelligent Systems and Applications, Cilt 5, No 2, 41-51, 2013.
  • Jothi, R., Mohanty, S. K., Ojha, A., "On Careful Selection of Initial Centers for K-means Algorithm", In Proceedings of 3rd International Conference on Advanced Computing, Networking and Informatics (ICACNI), Cilt 1, 435-445, 2016.
  • Kennedy, J., Eberhart, R., "Particle Swarm Optimization", In Proceedings of IEEE International Conference on Neural Networks, Cilt 4, 1942-1948, 1995.
  • Poli R., Kennedy, J., Blackwell, T., "Particle Swarm Optimization an Overview", Springer Link, Swarm Intelligence, Cilt 1, No 1, 33–57, 2007.
  • Omran, M., Salman, A., Engelbrecht, A.P., "Image Classification Using Particle Swarm Optimization", In Proceedings of the 4th Asia-Pacific Conference on Simulated Evolution and Learning (SEAL), Cilt 1, 370-374, 2002.
  • Abraham, A., Das, S., Roy, S., 2008, "Swarm Intelligence Algorithms for Data Clustering", Soft Computing for Knowledge Discovery and Data Mining, Springer, US, 279-313, 2008.
  • Bādoiu, M., Har-Peled, S., Indyk, P., "Approximate Clustering via Core-sets", In Proceedings of the 34th Annual ACM Symposium on Theory of Computing (STOC), Quebec-Canada, 250-257, 19-21 May 2002.
  • Rousseeuw, P.J., "Silhouettes: A Graphical Aid to the Interpretation and Validation of Cluster Analysis", Computational and Applied Mathematics, Cilt 20, No 1, 53–65, 1987.
  • Rand, W.M., "Objective Criteria for the Evaluation of Clustering Methods", Journal of the American Statistical Association, Cilt 66 No 336, 846–850, 1971.
  • Guyon, I., Gunn, S., Ben-Hur, A., Dror, G., "Result Analysis of the NIPS 2003 Feature Selection Challenge", In Advances in Neural Information Processing Systems 17, 545–552, 2005.
Year 2018, Volume: 33 Issue: 2, 413 - 424, 06.04.2018
https://doi.org/10.17341/gazimmfd.416350

Abstract

References

  • Baldi, P., Brunak, S., Bioinformatics: The Machine Learning Approach, 2nd ed., MA: MIT Press, Cambridge, 2001.
  • Bertone, P., Gerstein, M., "Integrative Data Mining: The New Direction in Bioinformatics Machine Learning for Analyzing Genome-wide Expression Profiles", IEEE Engineering in Medicine and Biology, Cilt 20, 33-40, 2001.
  • Valafar, F., "Pattern Recognition Techniques in Microarray Data Analysis: A Survey", Annals of New York Academy of Sciences, Cilt 980, No 1, 41-64, 2002.
  • Jiang, D., Tang, C., Zhang, A., "Cluster Analysis for Gene Expression Data: A Survey", IEEE Transactions on Knowledge and Data Engineering, Cilt 16, No 11, 1370-1386, 2004.
  • Handl, J., Knowles, J., Kell, D.B., "Computational Cluster Validation in Post-genomic Data Analysis", Bioinformatics, Cilt 21, 3201–3212, 2005.
  • Forgy, E. W., "Cluster Analysis of Multivariate Data: Efficiency vs. Interpretability of Classifications", Biometrics, Cilt 21, No 3, 768-769, 1965.
  • Kaufman, L., Rousseeuw, P.J., Finding Groups in Data: An Introduction to Cluster Analysis, John Wiley & Sons, Inc., New York, 355, 1990 .
  • Katsavounidis, I., Kuo, C., Zhang, Z., "A New Initialization Technique for Generalized Lloyd Iteration", IEEE Signal Processing Letters, Cilt 1, No 10, 144 -146, 1994.
  • Bradley, P. S., Fayyad, U. M., "Refining Initial Points for K -Means Clustering", Proc. 15th International Conference on Machine Learning, , Cilt 98, 91-99, 1998.
  • Khan, S. S., Ahmad, A., "Cluster Center Initialization Algorithm for K-means Clustering", Pattern recognition letters, Cilt 25, No 11, 1293-1302, 2004.
  • Arai, K., Barakbah, A. R., "Hierarchical K-means: An Algorithm for Centroids Initialization for K-means", Reports of the Faculty of Science and Engineering Saga University, Cilt 36, No 1, 25-31, 2007.
  • Erişoğlu, M., Çalış, N., Sakallıoğlu, S., "A New Algorithm for Initial Cluster Centers in K-means Clustering", Pattern Recognition Letters, Cilt 32, No 14, 1701-1705, 2011.
  • Aggarwal, N., Aggarwal, K., "A Mid-point Based K-means Clustering Algorithm for Data Mining", International Journal on Computer Science and Engineering (IJCSE)", Cilt 4, No 6, 1174-1180, 2012a.
  • Aldahdooh, R. T., Ashour, W., "DIMK-means 'Distance-based Initialization Method for K-means Clustering Algorithm'", International Journal of Intelligent Systems and Applications, Cilt 5, No 2, 41-51, 2013.
  • Jothi, R., Mohanty, S. K., Ojha, A., "On Careful Selection of Initial Centers for K-means Algorithm", In Proceedings of 3rd International Conference on Advanced Computing, Networking and Informatics (ICACNI), Cilt 1, 435-445, 2016.
  • Kennedy, J., Eberhart, R., "Particle Swarm Optimization", In Proceedings of IEEE International Conference on Neural Networks, Cilt 4, 1942-1948, 1995.
  • Poli R., Kennedy, J., Blackwell, T., "Particle Swarm Optimization an Overview", Springer Link, Swarm Intelligence, Cilt 1, No 1, 33–57, 2007.
  • Omran, M., Salman, A., Engelbrecht, A.P., "Image Classification Using Particle Swarm Optimization", In Proceedings of the 4th Asia-Pacific Conference on Simulated Evolution and Learning (SEAL), Cilt 1, 370-374, 2002.
  • Abraham, A., Das, S., Roy, S., 2008, "Swarm Intelligence Algorithms for Data Clustering", Soft Computing for Knowledge Discovery and Data Mining, Springer, US, 279-313, 2008.
  • Bādoiu, M., Har-Peled, S., Indyk, P., "Approximate Clustering via Core-sets", In Proceedings of the 34th Annual ACM Symposium on Theory of Computing (STOC), Quebec-Canada, 250-257, 19-21 May 2002.
  • Rousseeuw, P.J., "Silhouettes: A Graphical Aid to the Interpretation and Validation of Cluster Analysis", Computational and Applied Mathematics, Cilt 20, No 1, 53–65, 1987.
  • Rand, W.M., "Objective Criteria for the Evaluation of Clustering Methods", Journal of the American Statistical Association, Cilt 66 No 336, 846–850, 1971.
  • Guyon, I., Gunn, S., Ben-Hur, A., Dror, G., "Result Analysis of the NIPS 2003 Feature Selection Challenge", In Advances in Neural Information Processing Systems 17, 545–552, 2005.
There are 23 citations in total.

Details

Primary Language Turkish
Subjects Engineering
Journal Section Makaleler
Authors

Sinem Çınaroğlu This is me 0000-0002-4056-9221

Hasan Bulut 0000-0002-4872-5698

Publication Date April 6, 2018
Submission Date March 18, 2016
Acceptance Date March 20, 2018
Published in Issue Year 2018 Volume: 33 Issue: 2

Cite

APA Çınaroğlu, S., & Bulut, H. (2018). K-Ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 33(2), 413-424. https://doi.org/10.17341/gazimmfd.416350
AMA Çınaroğlu S, Bulut H. K-Ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları. GUMMFD. June 2018;33(2):413-424. doi:10.17341/gazimmfd.416350
Chicago Çınaroğlu, Sinem, and Hasan Bulut. “K-Ortalamalar Ve parçacık sürü Optimizasyonu Tabanlı kümeleme Algoritmaları için Yeni Ilklendirme yaklaşımları”. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 33, no. 2 (June 2018): 413-24. https://doi.org/10.17341/gazimmfd.416350.
EndNote Çınaroğlu S, Bulut H (June 1, 2018) K-Ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 33 2 413–424.
IEEE S. Çınaroğlu and H. Bulut, “K-Ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları”, GUMMFD, vol. 33, no. 2, pp. 413–424, 2018, doi: 10.17341/gazimmfd.416350.
ISNAD Çınaroğlu, Sinem - Bulut, Hasan. “K-Ortalamalar Ve parçacık sürü Optimizasyonu Tabanlı kümeleme Algoritmaları için Yeni Ilklendirme yaklaşımları”. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 33/2 (June 2018), 413-424. https://doi.org/10.17341/gazimmfd.416350.
JAMA Çınaroğlu S, Bulut H. K-Ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları. GUMMFD. 2018;33:413–424.
MLA Çınaroğlu, Sinem and Hasan Bulut. “K-Ortalamalar Ve parçacık sürü Optimizasyonu Tabanlı kümeleme Algoritmaları için Yeni Ilklendirme yaklaşımları”. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, vol. 33, no. 2, 2018, pp. 413-24, doi:10.17341/gazimmfd.416350.
Vancouver Çınaroğlu S, Bulut H. K-Ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları. GUMMFD. 2018;33(2):413-24.