Research Article
BibTex RIS Cite

Yeniden Örnekleme Teknikleri Kullanarak SMS Verisi Üzerinde Metin Sınıflandırma Çalışması

Year 2020, Volume: 36 Issue: 3, 433 - 442, 31.12.2020

Abstract

SMS, mobil cihaz kullanıcılarının iletişimlerinde kullandıkları önemli araçlardan biridir. Günümüzde kullanıcıların almış olduğu çoğu bilginin kaynağı cep telefonlarıdır. Teknolojideki gelişmelerle birlikte cep telefonlarına gelen mesajların içeriği geniş bir alana yayılmakla beraber istenilen kaynaktan gelip gelmediği önemli bir konu teşkil etmektedir. Metin sınıflandırma çalışmalarında Türkçe çalışmaların azlığı dikkat çekicidir. Bu çalışmada çok sayıda kullanıcının telefonlarına gelen mesajlar incelenmiş ve veri ön işleme gibi çeşitli iyileştirme aşamalarından geçirilerek bir araya getirilmiştir. Bu aşamalardan sonra mevcut mesaj içerikleri makine öğrenmesi teknikleri aracılığıyla metin sınıflandırma uygulanarak incelenmiştir. Elde edilen veriler normal, reklam ve spam olacak şekilde 3 farklı kategoriye ayrılmıştır. Ayrıca dengesiz olan veri setini dengeli hale getirmek için Synthetic Minority Oversampling Technique (SMOTE), Condensed Nearest Neighbour (CNN), Undersampling Technique ve Random Undersampling Technique (RUS) uygulanarak sınıflandırma performansları incelenmiştir. 4203 adet SMS’in yer aldığı veri seti üzerinde yapılan çalışma sonucunda en iyi sonucu veren (OACC değerine göre) sınıflandırmalar SMOTE’ta yaklaşık %80.1 ile Lojistik Regresyon, CNN’de yaklaşık %62.1 ile XGBoost ve RUS’ta yaklaşık %73.8 ile Lojistik Regresyon olmuştur.

References

  • [1] Tantuğ, A. C. 2016. Metin Sınıflandırma. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 5(2).
  • [2] Chaffar, S., Inkpen, D. 2011. Using a heterogeneous dataset for emotion analysis in text. Butz C., Lingras P. (eds) Advances in Artificial Intelligence. AI 2011. Lecture Notes in Computer Science, vol 6657. Springer, Berlin, Heidelberg; pp. 62-71.
  • [3] Tüfekci, P., Uzun, E., & Sevinç, B. 2012. Text classification of web based news articles by using Turkish grammatical features. In 2012 20th Signal Processing and Communications Applications Conference (SIU) (pp. 1-4). IEEE.
  • [4] Amasyalı, M. F., & Yıldırım, T. 2004. Otomatik haber metinleri sınıflandırma. SIU 2004, 224-226.
  • [5] Amasyalı, M. F., & Diri, B. 2006. Automatic Turkish text categorization in terms of author, genre and gender. In International Conference on Application of Natural Language to Information Systems (pp. 221-226). Springer, Berlin, Heidelberg.
  • [6] Yildiz, H. K., Gençtav, M., Usta, N., Diri, B., & Amasyali, M. F. 2007. A new feature extraction method for text classification. In 2007 IEEE 15th Signal Processing and Communications Applications (pp. 1-4). IEEE.
  • [7] Güven, A., Bozkurt, Ö. Ö., & Kalıpsız, O. 2006. Advanced Information Extraction with n-gram based LSI. In Proceedings of World Academy of Science, Engineering and Technology (Vol. 17, pp. 13-18).
  • [8] Güran, A., Akyokuş, S., Bayazıt, N. G., & Gürbüz, M. Z. 2009. Turkish text categorization using n-gram words. In Proceedings of the International Symposium on Innovations in Intelligent Systems and Applications (INISTA 2009) (pp. 369-373).
  • [9] Vapnik, V. The nature of statistical learning theory. Springer, 2nd edition, 1995; New York, USA. pp: 32-40.
  • [10] Müller, K.R., Smola, A., Ratsch, G., Sch¨olkopf, B., Kohlmorgen, J., Vapnik, V. 1997. Predicting time series with support vector machines. International Conference on Artificial Neural Networks 1997; Springer, Berlin, Heidelberg, pp. 999-1004.
  • [11] Schlögl, A., Lee, F., Bischof, H., Pfurtscheller, G. 2005. Characterization of four-class motor imagery EEG data for the BCI- competition. Journal of neural engineering 2005; 2(4): L14. doi: 10.1088/1741-2560/2/4/L02
  • [12] Schwarm, S.E., Ostendorf, M. 2015. Reading level assessment using support vector machines and statistical language models. Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics 2015; Association for Computational Linguistics, pp. 523-530. doi: 10.3115/1219840.1219905
  • [13] Friedl, M.A., Brodley, C.E. 1997. Decision tree classification of land cover from remotely sensed data. Remote sensing of environment 1997; 61(3): pp. 399-409. doi: 10.1016/S0034-4257(97)00049-7
  • [14] Petkovic, D., Altman, R., Wong, M., Vigil, A. 2018. Improving the explainability of Random Forest classifier–user centered approach. Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing 2018; Vol. 23. NIH Public Access. pp. 204-215. doi: 10.1142/9789813235533 0019
  • [15] Piras, P., Sheridan, R., Sherer, E.C., Schafer, W., Welch, C.J., Roussel, C. 2018. Modeling and predicting chiral stationary phase enantioselectivity: An efficient random forest classifier using an optimally balanced training dataset and an aggregation strategy. Journal of separation science; 41(6): pp. 1365-1375. doi: 10.1002/jssc.201701334
  • [16] Hu, J., Min, J. 2018 Automated detection of driver fatigue based on EEG signals using gradient boosting decision tree model. Cognitive Neurodynamics; pp. 431-440. doi: 10.1007/s11571-018-9485-1
  • [17] Yang, L., Zhang, X., Liang, S., Yao, Y., Jia, K., Jia, A. 2018. Estimating Surface Downward Shortwave Radiation over China Based on the Gradient Boosting Decision Tree Method. Remote Sensing; 10(2): 185. doi: 10.3390/rs10020185
  • [18] Monisha, A., Christina, S.S., Santiago, N. 2018. Decision Support System for a Chronic Disease-Diabetes. International Journal of Computer & Mathematical Sciences(IJCMS); ISSN 2347-8527, Volume 7, Issue 3, pp: 126-131.
  • [19] Celik, O., Osmanoglu, U.O. 2019. Comparing to Techniques Used in Customer Churn Analysis. Journal of Multidisciplinary Developments, 4(1), 30-38.
  • [20] Estabrooks, A. 2000. A combination scheme for inductive learning from imbalanced data sets, Diss. DalTech.
  • [21] Estabrooks, A., Jo, T., Japkowicz, N. 2004 A multiple resampling method for learning from imbalanced data sets. Compu tational intelligence; 20(1): pp. 18-36. doi: 10.1111/j.0824-7935.2004.t01-1-00228.x
  • [22] Sun, Y., Kamel, M. S., Wong, A. K., & Wang, Y. 2007. Cost-sensitive boosting for classification of imbalanced data. Pattern Recognition, 40(12), 3358-3378.
  • [23] https://www.researchgate.net/publication/310799885_Generalized_Confusion_Matrix_for_Multiple_Classes (Erişim Tarihi: 21/10/2020)
  • [24] https://github.com/scikit-learn-contrib/imbalanced-learn (Erişim Tarihi: 21/10/2020)
  • [25] https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/smote (Erişim Tarihi: 21/10/2020)
  • [26] Chawla, N. V., Bowyer, K. W., Hall, L. O., Kegelmeyer, W. P. 2002. SMOTE: synthetic minority over-sampling technique. Journal of artificial intelligence research, 16, 321-357.
  • [27] https://imbalanced-learn.readthedocs.io/en/stable/under_sampling.html#condensed-nearest-neighbors (Erişim Tarihi: 21/10/2020)
  • [28] Fernández, A., Garcia, S., Herrera, F., & Chawla, N. V. 2018. SMOTE for learning from imbalanced data: progress and challenges, marking the 15-year anniversary. Journal of artificial intelligence research, 61, 863-905.
Year 2020, Volume: 36 Issue: 3, 433 - 442, 31.12.2020

Abstract

References

  • [1] Tantuğ, A. C. 2016. Metin Sınıflandırma. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 5(2).
  • [2] Chaffar, S., Inkpen, D. 2011. Using a heterogeneous dataset for emotion analysis in text. Butz C., Lingras P. (eds) Advances in Artificial Intelligence. AI 2011. Lecture Notes in Computer Science, vol 6657. Springer, Berlin, Heidelberg; pp. 62-71.
  • [3] Tüfekci, P., Uzun, E., & Sevinç, B. 2012. Text classification of web based news articles by using Turkish grammatical features. In 2012 20th Signal Processing and Communications Applications Conference (SIU) (pp. 1-4). IEEE.
  • [4] Amasyalı, M. F., & Yıldırım, T. 2004. Otomatik haber metinleri sınıflandırma. SIU 2004, 224-226.
  • [5] Amasyalı, M. F., & Diri, B. 2006. Automatic Turkish text categorization in terms of author, genre and gender. In International Conference on Application of Natural Language to Information Systems (pp. 221-226). Springer, Berlin, Heidelberg.
  • [6] Yildiz, H. K., Gençtav, M., Usta, N., Diri, B., & Amasyali, M. F. 2007. A new feature extraction method for text classification. In 2007 IEEE 15th Signal Processing and Communications Applications (pp. 1-4). IEEE.
  • [7] Güven, A., Bozkurt, Ö. Ö., & Kalıpsız, O. 2006. Advanced Information Extraction with n-gram based LSI. In Proceedings of World Academy of Science, Engineering and Technology (Vol. 17, pp. 13-18).
  • [8] Güran, A., Akyokuş, S., Bayazıt, N. G., & Gürbüz, M. Z. 2009. Turkish text categorization using n-gram words. In Proceedings of the International Symposium on Innovations in Intelligent Systems and Applications (INISTA 2009) (pp. 369-373).
  • [9] Vapnik, V. The nature of statistical learning theory. Springer, 2nd edition, 1995; New York, USA. pp: 32-40.
  • [10] Müller, K.R., Smola, A., Ratsch, G., Sch¨olkopf, B., Kohlmorgen, J., Vapnik, V. 1997. Predicting time series with support vector machines. International Conference on Artificial Neural Networks 1997; Springer, Berlin, Heidelberg, pp. 999-1004.
  • [11] Schlögl, A., Lee, F., Bischof, H., Pfurtscheller, G. 2005. Characterization of four-class motor imagery EEG data for the BCI- competition. Journal of neural engineering 2005; 2(4): L14. doi: 10.1088/1741-2560/2/4/L02
  • [12] Schwarm, S.E., Ostendorf, M. 2015. Reading level assessment using support vector machines and statistical language models. Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics 2015; Association for Computational Linguistics, pp. 523-530. doi: 10.3115/1219840.1219905
  • [13] Friedl, M.A., Brodley, C.E. 1997. Decision tree classification of land cover from remotely sensed data. Remote sensing of environment 1997; 61(3): pp. 399-409. doi: 10.1016/S0034-4257(97)00049-7
  • [14] Petkovic, D., Altman, R., Wong, M., Vigil, A. 2018. Improving the explainability of Random Forest classifier–user centered approach. Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing 2018; Vol. 23. NIH Public Access. pp. 204-215. doi: 10.1142/9789813235533 0019
  • [15] Piras, P., Sheridan, R., Sherer, E.C., Schafer, W., Welch, C.J., Roussel, C. 2018. Modeling and predicting chiral stationary phase enantioselectivity: An efficient random forest classifier using an optimally balanced training dataset and an aggregation strategy. Journal of separation science; 41(6): pp. 1365-1375. doi: 10.1002/jssc.201701334
  • [16] Hu, J., Min, J. 2018 Automated detection of driver fatigue based on EEG signals using gradient boosting decision tree model. Cognitive Neurodynamics; pp. 431-440. doi: 10.1007/s11571-018-9485-1
  • [17] Yang, L., Zhang, X., Liang, S., Yao, Y., Jia, K., Jia, A. 2018. Estimating Surface Downward Shortwave Radiation over China Based on the Gradient Boosting Decision Tree Method. Remote Sensing; 10(2): 185. doi: 10.3390/rs10020185
  • [18] Monisha, A., Christina, S.S., Santiago, N. 2018. Decision Support System for a Chronic Disease-Diabetes. International Journal of Computer & Mathematical Sciences(IJCMS); ISSN 2347-8527, Volume 7, Issue 3, pp: 126-131.
  • [19] Celik, O., Osmanoglu, U.O. 2019. Comparing to Techniques Used in Customer Churn Analysis. Journal of Multidisciplinary Developments, 4(1), 30-38.
  • [20] Estabrooks, A. 2000. A combination scheme for inductive learning from imbalanced data sets, Diss. DalTech.
  • [21] Estabrooks, A., Jo, T., Japkowicz, N. 2004 A multiple resampling method for learning from imbalanced data sets. Compu tational intelligence; 20(1): pp. 18-36. doi: 10.1111/j.0824-7935.2004.t01-1-00228.x
  • [22] Sun, Y., Kamel, M. S., Wong, A. K., & Wang, Y. 2007. Cost-sensitive boosting for classification of imbalanced data. Pattern Recognition, 40(12), 3358-3378.
  • [23] https://www.researchgate.net/publication/310799885_Generalized_Confusion_Matrix_for_Multiple_Classes (Erişim Tarihi: 21/10/2020)
  • [24] https://github.com/scikit-learn-contrib/imbalanced-learn (Erişim Tarihi: 21/10/2020)
  • [25] https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/smote (Erişim Tarihi: 21/10/2020)
  • [26] Chawla, N. V., Bowyer, K. W., Hall, L. O., Kegelmeyer, W. P. 2002. SMOTE: synthetic minority over-sampling technique. Journal of artificial intelligence research, 16, 321-357.
  • [27] https://imbalanced-learn.readthedocs.io/en/stable/under_sampling.html#condensed-nearest-neighbors (Erişim Tarihi: 21/10/2020)
  • [28] Fernández, A., Garcia, S., Herrera, F., & Chawla, N. V. 2018. SMOTE for learning from imbalanced data: progress and challenges, marking the 15-year anniversary. Journal of artificial intelligence research, 61, 863-905.
There are 28 citations in total.

Details

Primary Language Turkish
Subjects Engineering
Journal Section Article
Authors

Özer Çelik

Gürkan Kaplan 0000-0002-6393-5546

Publication Date December 31, 2020
Published in Issue Year 2020 Volume: 36 Issue: 3

Cite

APA Çelik, Ö., & Kaplan, G. (2020). Yeniden Örnekleme Teknikleri Kullanarak SMS Verisi Üzerinde Metin Sınıflandırma Çalışması. Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi, 36(3), 433-442.
AMA Çelik Ö, Kaplan G. Yeniden Örnekleme Teknikleri Kullanarak SMS Verisi Üzerinde Metin Sınıflandırma Çalışması. Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi. December 2020;36(3):433-442.
Chicago Çelik, Özer, and Gürkan Kaplan. “Yeniden Örnekleme Teknikleri Kullanarak SMS Verisi Üzerinde Metin Sınıflandırma Çalışması”. Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi 36, no. 3 (December 2020): 433-42.
EndNote Çelik Ö, Kaplan G (December 1, 2020) Yeniden Örnekleme Teknikleri Kullanarak SMS Verisi Üzerinde Metin Sınıflandırma Çalışması. Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi 36 3 433–442.
IEEE Ö. Çelik and G. Kaplan, “Yeniden Örnekleme Teknikleri Kullanarak SMS Verisi Üzerinde Metin Sınıflandırma Çalışması”, Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi, vol. 36, no. 3, pp. 433–442, 2020.
ISNAD Çelik, Özer - Kaplan, Gürkan. “Yeniden Örnekleme Teknikleri Kullanarak SMS Verisi Üzerinde Metin Sınıflandırma Çalışması”. Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi 36/3 (December 2020), 433-442.
JAMA Çelik Ö, Kaplan G. Yeniden Örnekleme Teknikleri Kullanarak SMS Verisi Üzerinde Metin Sınıflandırma Çalışması. Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi. 2020;36:433–442.
MLA Çelik, Özer and Gürkan Kaplan. “Yeniden Örnekleme Teknikleri Kullanarak SMS Verisi Üzerinde Metin Sınıflandırma Çalışması”. Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi, vol. 36, no. 3, 2020, pp. 433-42.
Vancouver Çelik Ö, Kaplan G. Yeniden Örnekleme Teknikleri Kullanarak SMS Verisi Üzerinde Metin Sınıflandırma Çalışması. Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi. 2020;36(3):433-42.

✯ Etik kurul izni gerektiren, tüm bilim dallarında yapılan araştırmalar için etik kurul onayı alınmış olmalı, bu onay makalede belirtilmeli ve belgelendirilmelidir.
✯ Etik kurul izni gerektiren araştırmalarda, izinle ilgili bilgilere (kurul adı, tarih ve sayı no) yöntem bölümünde, ayrıca makalenin ilk/son sayfalarından birinde; olgu sunumlarında, bilgilendirilmiş gönüllü olur/onam formunun imzalatıldığına dair bilgiye makalede yer verilmelidir.
✯ Dergi web sayfasında, makalelerde Araştırma ve Yayın Etiğine uyulduğuna dair ifadeye yer verilmelidir.
✯ Dergi web sayfasında, hakem, yazar ve editör için ayrı başlıklar altında etik kurallarla ilgili bilgi verilmelidir.
✯ Dergide ve/veya web sayfasında, ulusal ve uluslararası standartlara atıf yaparak, dergide ve/veya web sayfasında etik ilkeler ayrı başlık altında belirtilmelidir. Örneğin; dergilere gönderilen bilimsel yazılarda, ICMJE (International Committee of Medical Journal Editors) tavsiyeleri ile COPE (Committee on Publication Ethics)’un Editör ve Yazarlar için Uluslararası Standartları dikkate alınmalıdır.
✯ Kullanılan fikir ve sanat eserleri için telif hakları düzenlemelerine riayet edilmesi gerekmektedir.