Kısa Metinleri Yazıldıkları Dile Göre Sınıflandırma ve Farklı Öznitelik Seçim Yöntemlerinin Uygulanması
Year 2021,
Volume: 4 Issue: 2, 36 - 46, 31.12.2021
Murat Aslanyürek
,
Altan Mesut
Abstract
Bu çalışmada Wikipedia makale özetlerinden oluşan farklı boyutlardaki iki veri seti üzerinde dil tanımaya yönelik sınıflandırma işlemi yapılmıştır. A veri seti grubu 204 bayt ve daha kısa makale özetlerinden oluşurken, B veri seti grubu 204 ile 512 bayt arasındaki özetlerden oluşmaktadır. Çalışmadaki birinci hedef kısa metinlerin boyutlarına göre uygun makine öğrenmesi ve öznitelik seçme yönteminin belirlenmesidir. İkinci hedef ise en hızlı ve yüksek doğrulukla sınıflandırma yapan yöntemin tespit edilmesidir. Yapılan testler sonucunda öznitelik seçiminde SelectFromModel-Lojistik Regresyon kullanılması ile en yüksek doğruluk değerine ulaşılırken, makine öğrenmesi yöntemi olarak Naive Bayes Multinominal ve Naive Bayes Bernoilli farklı uzunluktaki veri setlerine göre birbirlerine üstünlük sağlamaktadır. Ayrıca çalışmada kullanılan tüm sınıflandırma yöntemleri ile yapılan testler sonucunda, her iki veri setinde diğer sınıflandırma yöntemlerine göre fasttext’in doğruluk bakımından, KTİY’nin ise hız bakımından üstünlük sağladığı anlaşılmıştır
Thanks
“IOCENS21” konferans kapsamında ek sayı için değerlendirilmek üzere yüklenmiştir.
References
- Gülşen, E., Gündüz, H., Cataltepe, Z., & Serinol, L. (2015, May). Big data feature selection and projection for gender prediction based on user web behaviour. In 2015 23nd Signal Processing and Communications Applications Conference (SIU) (pp. 1545-1548). IEEE.
- Yengi, Y., & Omurca, S. İ. (2015). Lojistik Regresyonun Özellik Azaltma Teknikleri ile Gen Dizilimlerinin Sınıflandırılmasındaki Başarısı. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 8(1), 1-12.
- Parlar, T., Saraç, E., & Özel, S. A. (2017, May). Comparison of feature selection methods for sentiment analysis on Turkish Twitter data. In 2017 25th Signal Processing and Communications Applications Conference (SIU) (pp. 1-4). IEEE.
- Sel, İ., Karci, A., & Hanbay, D. (2019, September). Feature Selection for Text Classification Using Mutual Information. In 2019 International Artificial Intelligence and Data Processing Symposium (IDAP) (pp. 1-4). IEEE.
- Erdem, H., & Özgur, A. (2018). Feature selection and multiple classifier fusion using genetic algorithms in intrusion detection systems. Journal of the Faculty of Engineering and Architecture of Gazi University 33:1, 75-87.
- Akyol, K. (2018). Meme Kanseri Tanısı İçin Özniteliklerin Öneminin Değerlendirilmesi Üzerine Bir Çalışma. Akademik Platform Mühendislik ve Fen Bilimleri Dergisi, 6(2), 109-115.
- Ataş, P. K., Tufan, K., & Şevkli, A. Z. (2016, April). A variable neighborhood search based feature selection model for early prediction of the Alzhemier's disease. In 2016 Electric Electronics, Computer Science, Biomedical Engineerings' Meeting (EBBT) (pp. 1-4). IEEE.
- Kaya, Y., Ertuğrul, Ö. F., & Tekin, R. (2015). Doküman dili tanıma için ikili örüntüler tabanlı yeni bir yaklaşım. Akademik Bilişim, Eskişehir.
- Rish, I. (2001, August). An empirical study of the naive Bayes classifier. In IJCAI 2001 workshop on empirical methods in artificial intelligence Vol. 3, No. 22, pp. 41-46.
- Agrawal, R., Imielinski, T., & Swami, A. (1993). Database mining: A performance perspective. IEEE transactions on knowledge and data engineering, 5(6), 914-925.
- Fix, E. (1951). Discriminatory analysis: nonparametric discrimination, consistency properties. USAF School of Aviation Medicine.
- Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. IEEE transactions on information theory, 13(1), 21-27.
- Altman, N. S. (1992). An introduction to kernel and nearest-neighbor nonparametric regression. The American Statistician, 46(3), 175-185.
- Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine learning, 20(3), 273-297.
- Tipping, M. E. (2000). The relevance vector machine. In Advances in neural information processing systems (pp. 652-658).
- Danilk M.M., (2013) https://pypi.org/project/langdetect/, Erişim (Tarihi: 11.06.2021).
- Joulin, A., Grave, E., Bojanowski, P., Douze, M., Jégou, H., & Mikolov, T. (2016). Fasttext. zip: Compressing text classification models. arXiv preprint arXiv:1612.03651.
- Paulsen Jr, R. C., & Martino, M. J. (2004). U.S. Patent No. 6,704,698. Washington, DC: U.S. Patent and Trademark Office.
- Kınık, D. (2020). TF-IDF ve Doc2vec Tabanlı Metin Sınıflandırma Sisteminin Başarım Değerinin Ardışık Kelime Gurubu Tespiti İle Arttırılması. (Fen Bilimleri Enstitüsü Yüksek Lisans Tezi, İstanbul)
- Çekik R. (2020). Kısa Metin Sınıflandırma İçin Öznitelik Seçimi. (Fen Bilimleri Enstitüsü Doktora Tezi, Eskişehir).
- https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectFromModel.html. (Erişim Tarihi: 11.06.2021).
- Popov, N. V., Razmochaeva, N. V., & Klionskiy, D. M. (2020, June). Investigation of Algorithms for Converting Dimension of Feature Space in Retail Data Analysis Problems. In 2020 9th Mediterranean Conference on Embedded Computing (MECO) (pp. 1-4). IEEE.
- Önder, H., & Cebeci, Z. (2002). Lojistik regresyonlarda değişken seçimi. Çukurova Üniv. Ziraat Fakültesi Dergisi, 17(2), 105-114.
- Çokluk, Ö. (2010). Lojistik Regresyon Analizi: Kavram ve Uygulama. Educational Sciences: Theory & Practice, 10(3).
- Jaccard, P., (1901). Étude comparative de la distribuition florale dans une portion des Alpes et des Jura. Bull Soc Vandoise Sci Nat 37, 547-579.
Classification of Short Texts According to the Language They Are Written in and Application of Different Attribute Selection Methods
Year 2021,
Volume: 4 Issue: 2, 36 - 46, 31.12.2021
Murat Aslanyürek
,
Altan Mesut
Abstract
Abstract: In this study, a classification process for language recognition has been performed on two data sets of different sizes consisting of Wikipedia article abstracts. Dataset group A consists of article abstracts of 204 bytes and less, while dataset group B consists of abstracts of between 204 and 512 bytes. The first goal of the study is to determine the appropriate machine learning and attribute selection method according to the sizes of the short texts. The second goal is to determine the fastest and most accurate classification method. As a result of the tests performed; the highest accuracy value has been achieved by using SelectFromModel-Logistic Regression in atributee selection, while as a machine learning method, Naive Bayes Multinominal and Naive Bayes Bernoilli have been superior to each other according to data sets of different lengths. In addition, as a result of the tests performed with all classification methods used in the study, it has been understood that fasttext is superior in terms of accuracy and WBSM in terms of speed in both data sets compared to other classification methods.
References
- Gülşen, E., Gündüz, H., Cataltepe, Z., & Serinol, L. (2015, May). Big data feature selection and projection for gender prediction based on user web behaviour. In 2015 23nd Signal Processing and Communications Applications Conference (SIU) (pp. 1545-1548). IEEE.
- Yengi, Y., & Omurca, S. İ. (2015). Lojistik Regresyonun Özellik Azaltma Teknikleri ile Gen Dizilimlerinin Sınıflandırılmasındaki Başarısı. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 8(1), 1-12.
- Parlar, T., Saraç, E., & Özel, S. A. (2017, May). Comparison of feature selection methods for sentiment analysis on Turkish Twitter data. In 2017 25th Signal Processing and Communications Applications Conference (SIU) (pp. 1-4). IEEE.
- Sel, İ., Karci, A., & Hanbay, D. (2019, September). Feature Selection for Text Classification Using Mutual Information. In 2019 International Artificial Intelligence and Data Processing Symposium (IDAP) (pp. 1-4). IEEE.
- Erdem, H., & Özgur, A. (2018). Feature selection and multiple classifier fusion using genetic algorithms in intrusion detection systems. Journal of the Faculty of Engineering and Architecture of Gazi University 33:1, 75-87.
- Akyol, K. (2018). Meme Kanseri Tanısı İçin Özniteliklerin Öneminin Değerlendirilmesi Üzerine Bir Çalışma. Akademik Platform Mühendislik ve Fen Bilimleri Dergisi, 6(2), 109-115.
- Ataş, P. K., Tufan, K., & Şevkli, A. Z. (2016, April). A variable neighborhood search based feature selection model for early prediction of the Alzhemier's disease. In 2016 Electric Electronics, Computer Science, Biomedical Engineerings' Meeting (EBBT) (pp. 1-4). IEEE.
- Kaya, Y., Ertuğrul, Ö. F., & Tekin, R. (2015). Doküman dili tanıma için ikili örüntüler tabanlı yeni bir yaklaşım. Akademik Bilişim, Eskişehir.
- Rish, I. (2001, August). An empirical study of the naive Bayes classifier. In IJCAI 2001 workshop on empirical methods in artificial intelligence Vol. 3, No. 22, pp. 41-46.
- Agrawal, R., Imielinski, T., & Swami, A. (1993). Database mining: A performance perspective. IEEE transactions on knowledge and data engineering, 5(6), 914-925.
- Fix, E. (1951). Discriminatory analysis: nonparametric discrimination, consistency properties. USAF School of Aviation Medicine.
- Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. IEEE transactions on information theory, 13(1), 21-27.
- Altman, N. S. (1992). An introduction to kernel and nearest-neighbor nonparametric regression. The American Statistician, 46(3), 175-185.
- Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine learning, 20(3), 273-297.
- Tipping, M. E. (2000). The relevance vector machine. In Advances in neural information processing systems (pp. 652-658).
- Danilk M.M., (2013) https://pypi.org/project/langdetect/, Erişim (Tarihi: 11.06.2021).
- Joulin, A., Grave, E., Bojanowski, P., Douze, M., Jégou, H., & Mikolov, T. (2016). Fasttext. zip: Compressing text classification models. arXiv preprint arXiv:1612.03651.
- Paulsen Jr, R. C., & Martino, M. J. (2004). U.S. Patent No. 6,704,698. Washington, DC: U.S. Patent and Trademark Office.
- Kınık, D. (2020). TF-IDF ve Doc2vec Tabanlı Metin Sınıflandırma Sisteminin Başarım Değerinin Ardışık Kelime Gurubu Tespiti İle Arttırılması. (Fen Bilimleri Enstitüsü Yüksek Lisans Tezi, İstanbul)
- Çekik R. (2020). Kısa Metin Sınıflandırma İçin Öznitelik Seçimi. (Fen Bilimleri Enstitüsü Doktora Tezi, Eskişehir).
- https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectFromModel.html. (Erişim Tarihi: 11.06.2021).
- Popov, N. V., Razmochaeva, N. V., & Klionskiy, D. M. (2020, June). Investigation of Algorithms for Converting Dimension of Feature Space in Retail Data Analysis Problems. In 2020 9th Mediterranean Conference on Embedded Computing (MECO) (pp. 1-4). IEEE.
- Önder, H., & Cebeci, Z. (2002). Lojistik regresyonlarda değişken seçimi. Çukurova Üniv. Ziraat Fakültesi Dergisi, 17(2), 105-114.
- Çokluk, Ö. (2010). Lojistik Regresyon Analizi: Kavram ve Uygulama. Educational Sciences: Theory & Practice, 10(3).
- Jaccard, P., (1901). Étude comparative de la distribuition florale dans une portion des Alpes et des Jura. Bull Soc Vandoise Sci Nat 37, 547-579.