Research Article
BibTex RIS Cite

Natural language processing for the Turkish Academic texts in the engineering field and development of a decision support system: The case of TUBITAK project proposals

Year 2023, Volume: 38 Issue: 3, 1879 - 1892, 06.01.2023
https://doi.org/10.17341/gazimmfd.1132053

Abstract

The information retrieved from the academic texts such as articles, proceedings, thesis and project proposals are used for a wide range of purposes. In the first phase of this study; a library, that can transform the raw text into a standard form, is created by considering the key terms/features in the engineering field. Then, the key terms that can best represent the document are retrieved and a similarity detection algorithm is developed using these terms. Finally, the Naïve Bayes Classifier in machine learning is used to assign the documents to the appropriate engineering sub-fields. The project proposals submitted to TUBITAK Academic Research Funding Program Directorate (ARDEB) are analyzed as a case study. The results indicate that the proposed similarity algorithm correctly detects almost all of the revised proposals while the accuracy of the classifier is 83.3% in the first prediction and reaches up to 96.4% in the first three predictions over a sample of 1255 proposals.

References

  • A. Khan, B. Baharudin, L. Lee, and K. Khan, “A review of machine learning algorithms for text-documents classification,” J. Adv. Inf. Technol., vol. 1, no. 1, pp. 4–20, 2010.
  • B. Kat, “Panelist Atama Problemi için bir Algoritma ve Karar Destek Sistemi: TÜBİTAK Örneği,” Gazi Üniversitesi Mühendislik Mimar. Fakültesi Derg., vol. 36, no. 1, pp. 69–88, 2021.
  • M. Çağataylı and E. Çelebi, “The effect of stemming and stop-word-removal on automatic text classification in Turkish language,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 9489, pp. 168–176, 2015.
  • A. Deniz and H. E. Kiziloz, “Effects of various preprocessing techniques to Turkish text categorization using n-gram features,” 2nd Int. Conf. Comput. Sci. Eng. UBMK 2017, pp. 655–660, Oct. 2017.
  • O. Öztürkmenoğlu and A. Alpkoçak, “Comparison of different lemmatization approaches for information retrieval on Turkish text collection,” INISTA 2012 - Int. Symp. Innov. Intell. Syst. Appl., pp. 1–5, 2012.
  • B. T. Tahiroğlu, “Lemmatization and a lemmatization application for Turkish: elemanTR,” RumeliDE J. Lang. Lit. Res., vol. 24, pp. 475–486, 2021.
  • M. Salur, İ. Aydın, and M. Jamous, “An ensemble approach for aspect term extraction in Turkish texts,” Pamukkale Univ. J. Eng. Sci., 2021.
  • S. Yıldırım and T. Yıldız, “A comparative analysis of text classification for Turkish language,” Pamukkale Univ. J. Eng. Sci., vol. 24, no. 5, pp. 879–886, 2018.
  • B. Kat, “Bilimsel Çalışmaların Benzerliğinin Tespitinde Kullanılan Araçların Araştırılması: ARDEB’e Sunulan Proje Önerileri İçin Uygun Modelin Ve Uygulama Yol Haritasının Belirlenmesi,” TÜBİTAK, 2015.
  • T. Vrbanec and A. Mestrovic, “The struggle with academic plagiarism: Approaches based on semantic similarity,” 2017 40th Int. Conv. Inf. Commun. Technol. Electron. Microelectron. MIPRO 2017 - Proc., pp. 870–875, Jul. 2017.
  • M. Chong, L. Specia, and R. Mitkov, “Using natural language processing for automatic detection of plagiarism,” Proc. 4th Int. Plagiarism Conf., 2010.
  • W. H. Gomaa and A. A. Fahmy, “A Survey of Text Similarity Approaches,” Int. J. Comput. Appl., vol. 68, no. 13, pp. 975–8887, 2013.
  • S. C. Dharmadhikari, M. Ingle, and P. Kulkarni, “Empirical Studies on Machine Learning Based Text Classification Algorithms,” Adv. Comput. An Int. J. ( ACIJ ), vol. 2, no. 6, 2011.
  • B. Kandimalla, S. Rohatgi, J. Wu, and C. L. Giles, “Large Scale Subject Category Classification of Scholarly Papers With Deep Attentive Neural Networks,” Front. Res. Metrics Anal., vol. 5, Feb. 2021.
  • A. I. Kadhim, “Survey on supervised machine learning techniques for automatic text classification,” Artif. Intell. Rev., vol. 52, no. 1, pp. 273–292, Jun. 2019.
  • F. Gurcan, “Multi-Class Classification of Turkish Texts with Machine Learning Algotirthms,” ISMSIT 2018 - 2nd Int. Symp. Multidiscip. Stud. Innov. Technol. Proc., pp. 1–5, Dec. 2018.
  • O. Koksal, “Tuning the Turkish Text Classification Process Using Supervised Machine Learning-based Algorithms,” Int. Conf. Innov. Intell. Syst. Appl., Aug. 2020.
  • D. Küçük and N. LastNameArıcı, “Doğal Dil İşlemede Derin Öğrenme Uygulamaları Üzerine Bir Literatür Çalışması,” Uluslararası Yönetim Bilişim Sist. ve Bilgi. Bilim. Derg., vol. 2, no. 2, pp. 76–86, 2018.
  • Z. H. Kilimci and S. Akyokus, “The Evaluation of Word Embedding Models and Deep Learning Algorithms for Turkish Text Classification,” UBMK 2019 - Proceedings, 4th Int. Conf. Comput. Sci. Eng., pp. 548–553, Sep. 2019.
  • Z. H. Kilimci and S. Akyokus, “Deep learning- and word embedding-based heterogeneous classifier ensembles for text classification,” Complexity, vol. 2018, 2018.
  • G. Aydin and İ. R. Hallaç, “Türkçe Metinlerde Otomatik Konu Tespiti,” Fırat Üniversitesi Mühendislik Bilim. Derg., vol. 33, no. 2, pp. 599–606, 2021.
  • A. Güran, S. Akyokuş, N. Güler Bayazıt, and M. Z. Gürbüz, “Turkish Text Categorization Using N-Gram Words,” Int. Symp. Innov. Intell. Syst. Appl., pp. 369–373, 2009.
  • B. Erşahin, Ö. Aktaş, D. Kilinç, and M. Erşahin, “A hybrid sentiment analysis method for Turkish,” Turkish J. Electr. Eng. Comput. Sci., vol. 27, pp. 1780–1793, 2019.
  • M. Kaya, G. Fidan, and I. H. Toroslu, “Sentiment analysis of Turkish political news,” Proc. - 2012 IEEE/WIC/ACM Int. Conf. Web Intell. WI 2012, pp. 174–180, 2012.
  • Z. Boynukalın, “Emotion Analysis of Turkish texts by using machine learning method,” METU, 2012.
  • T. Kaşıkçı and H. Gökçen, “Metin Madenciliği ile E-Ticaret Sitelerinin Belirlenmesi,” J. Inf. Technol., vol. 7, no. 1, pp. 25–32, 2014.
  • O. Kaynar, Y. Görmez, M. Yildiz, and A. Albayrak, “Sentiment Analysis with Machine Learning Techniques,” in International Artificial Intelligence and Data Processing Symposium, 2016.
  • O. Coban, B. Ozyer, and G. T. Ozyer, “Sentiment analysis for Turkish Twitter feeds,” 2015 23rd Signal Process. Commun. Appl. Conf. SIU 2015 - Proc., pp. 2388–2391, Jun. 2015.
  • A. K. Uysal and S. Gunal, “The impact of preprocessing on text classification,” Inf. Process. Manag., vol. 50, no. 1, pp. 104–112, Jan. 2014.
  • G. Aydin and I. R. Hallac, “Document Classification Using Distributed Machine Learning,” arXiv Prepr. arXiv1802.03597, pp. 166–169, Feb. 2018.
  • C. K. Yau, A. Porter, N. Newman, and A. Suominen, “Clustering scientific documents with topic modeling,” Scientometrics, vol. 100, no. 3, pp. 767–786, 2014.
  • S. W. Kim and J. M. Gil, “Research paper classification systems based on TF-IDF and LDA schemes,” Human-centric Comput. Inf. Sci., vol. 9, no. 1, Dec. 2019.
  • A. Suominen and H. Toivanen, “Map of science with topic modeling: Comparison of unsupervised learning and human-assigned subject classification,” J. Assoc. Inf. Sci. Technol., vol. 67, no. 10, pp. 2464–2476, Oct. 2016.
  • S. Raschka, “Naive Bayes and Text Classification I - Introduction and Theory,” arXiv Prepr. arXiv1410.5329, 2014.
  • D. Jurafsky and J. H. Martin, Speech and Language Processing, 3rd edn. Prentice Hall, 2019.
  • Y. Huang and L. Li, “Naive Bayes classification algorithm based on small sample set,” CCIS2011 - Proc. 2011 IEEE Int. Conf. Cloud Comput. Intell. Syst., pp. 34–39, 2011.
  • P. Chandrasekar and K. Qian, “The impact of data preprocessing on the performance of a naive bayes classifier,” IEEE 40th Annu. Comput. Softw. Appl. Conf., vol. 2, 2016.

Mühendislik alanındaki Türkçe akademik metinler için makine öğrenmesi destekli doğal dil işleme çalışmaları ve bir karar destek sisteminin geliştirilmesi: TÜBİTAK projeleri örneği

Year 2023, Volume: 38 Issue: 3, 1879 - 1892, 06.01.2023
https://doi.org/10.17341/gazimmfd.1132053

Abstract

Makale, bildiri, tez ve proje önerisi gibi akademik metinlerin, gelişen doğal dil işleme araçları ve algoritmaları ile işlenmesi sonucunda elde edilen bilgi farklı amaçlar için kullanılabilmektedir. Mevcut çalışmanın ilk aşamasında, mühendislik alanında kullanılan kelime ve kelime gruplarının içerikleri ve yapıları dikkate alınarak bir kütüphane oluşturulmuş; ilgili metni en uygun ve kapsamlı şekilde tanımlayacak anahtar terimlerin/özniteliklerin çıkarımı gerçekleştirilmiştir. Bu işlem sonucunda elde edilen terim vektörleri kullanılarak farklı dokümanların benzerliğinin tespit edilmesine yönelik bir algoritma geliştirilmiştir. Son olarak ise, gözetimli makine öğrenmesi kapsamında Naïve Bayes sınıflandırıcısı kullanılarak TÜBİTAK Araştırma Destek Programları Başkanlığı’na (ARDEB) sunulan proje önerilerinin 31 farklı mühendislik alt alanından hangisine ait olduğunun tespitine yönelik bir analiz gerçekleştirilmiştir. 1255 proje önerisi ile gerçekleştirilen vaka çalışmasında, önerilen benzerlik algoritmasının revize proje önerilerinin benzerlik tespitinde %100’e yakın, sınıflama algoritmasının ise alt alan belirlemede ilk tahminde %83,3, ilk iki tahminde %92,5 ve ilk üç tahminde %96.4’lük doğruluk sağladığı gözlenmiştir.

References

  • A. Khan, B. Baharudin, L. Lee, and K. Khan, “A review of machine learning algorithms for text-documents classification,” J. Adv. Inf. Technol., vol. 1, no. 1, pp. 4–20, 2010.
  • B. Kat, “Panelist Atama Problemi için bir Algoritma ve Karar Destek Sistemi: TÜBİTAK Örneği,” Gazi Üniversitesi Mühendislik Mimar. Fakültesi Derg., vol. 36, no. 1, pp. 69–88, 2021.
  • M. Çağataylı and E. Çelebi, “The effect of stemming and stop-word-removal on automatic text classification in Turkish language,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 9489, pp. 168–176, 2015.
  • A. Deniz and H. E. Kiziloz, “Effects of various preprocessing techniques to Turkish text categorization using n-gram features,” 2nd Int. Conf. Comput. Sci. Eng. UBMK 2017, pp. 655–660, Oct. 2017.
  • O. Öztürkmenoğlu and A. Alpkoçak, “Comparison of different lemmatization approaches for information retrieval on Turkish text collection,” INISTA 2012 - Int. Symp. Innov. Intell. Syst. Appl., pp. 1–5, 2012.
  • B. T. Tahiroğlu, “Lemmatization and a lemmatization application for Turkish: elemanTR,” RumeliDE J. Lang. Lit. Res., vol. 24, pp. 475–486, 2021.
  • M. Salur, İ. Aydın, and M. Jamous, “An ensemble approach for aspect term extraction in Turkish texts,” Pamukkale Univ. J. Eng. Sci., 2021.
  • S. Yıldırım and T. Yıldız, “A comparative analysis of text classification for Turkish language,” Pamukkale Univ. J. Eng. Sci., vol. 24, no. 5, pp. 879–886, 2018.
  • B. Kat, “Bilimsel Çalışmaların Benzerliğinin Tespitinde Kullanılan Araçların Araştırılması: ARDEB’e Sunulan Proje Önerileri İçin Uygun Modelin Ve Uygulama Yol Haritasının Belirlenmesi,” TÜBİTAK, 2015.
  • T. Vrbanec and A. Mestrovic, “The struggle with academic plagiarism: Approaches based on semantic similarity,” 2017 40th Int. Conv. Inf. Commun. Technol. Electron. Microelectron. MIPRO 2017 - Proc., pp. 870–875, Jul. 2017.
  • M. Chong, L. Specia, and R. Mitkov, “Using natural language processing for automatic detection of plagiarism,” Proc. 4th Int. Plagiarism Conf., 2010.
  • W. H. Gomaa and A. A. Fahmy, “A Survey of Text Similarity Approaches,” Int. J. Comput. Appl., vol. 68, no. 13, pp. 975–8887, 2013.
  • S. C. Dharmadhikari, M. Ingle, and P. Kulkarni, “Empirical Studies on Machine Learning Based Text Classification Algorithms,” Adv. Comput. An Int. J. ( ACIJ ), vol. 2, no. 6, 2011.
  • B. Kandimalla, S. Rohatgi, J. Wu, and C. L. Giles, “Large Scale Subject Category Classification of Scholarly Papers With Deep Attentive Neural Networks,” Front. Res. Metrics Anal., vol. 5, Feb. 2021.
  • A. I. Kadhim, “Survey on supervised machine learning techniques for automatic text classification,” Artif. Intell. Rev., vol. 52, no. 1, pp. 273–292, Jun. 2019.
  • F. Gurcan, “Multi-Class Classification of Turkish Texts with Machine Learning Algotirthms,” ISMSIT 2018 - 2nd Int. Symp. Multidiscip. Stud. Innov. Technol. Proc., pp. 1–5, Dec. 2018.
  • O. Koksal, “Tuning the Turkish Text Classification Process Using Supervised Machine Learning-based Algorithms,” Int. Conf. Innov. Intell. Syst. Appl., Aug. 2020.
  • D. Küçük and N. LastNameArıcı, “Doğal Dil İşlemede Derin Öğrenme Uygulamaları Üzerine Bir Literatür Çalışması,” Uluslararası Yönetim Bilişim Sist. ve Bilgi. Bilim. Derg., vol. 2, no. 2, pp. 76–86, 2018.
  • Z. H. Kilimci and S. Akyokus, “The Evaluation of Word Embedding Models and Deep Learning Algorithms for Turkish Text Classification,” UBMK 2019 - Proceedings, 4th Int. Conf. Comput. Sci. Eng., pp. 548–553, Sep. 2019.
  • Z. H. Kilimci and S. Akyokus, “Deep learning- and word embedding-based heterogeneous classifier ensembles for text classification,” Complexity, vol. 2018, 2018.
  • G. Aydin and İ. R. Hallaç, “Türkçe Metinlerde Otomatik Konu Tespiti,” Fırat Üniversitesi Mühendislik Bilim. Derg., vol. 33, no. 2, pp. 599–606, 2021.
  • A. Güran, S. Akyokuş, N. Güler Bayazıt, and M. Z. Gürbüz, “Turkish Text Categorization Using N-Gram Words,” Int. Symp. Innov. Intell. Syst. Appl., pp. 369–373, 2009.
  • B. Erşahin, Ö. Aktaş, D. Kilinç, and M. Erşahin, “A hybrid sentiment analysis method for Turkish,” Turkish J. Electr. Eng. Comput. Sci., vol. 27, pp. 1780–1793, 2019.
  • M. Kaya, G. Fidan, and I. H. Toroslu, “Sentiment analysis of Turkish political news,” Proc. - 2012 IEEE/WIC/ACM Int. Conf. Web Intell. WI 2012, pp. 174–180, 2012.
  • Z. Boynukalın, “Emotion Analysis of Turkish texts by using machine learning method,” METU, 2012.
  • T. Kaşıkçı and H. Gökçen, “Metin Madenciliği ile E-Ticaret Sitelerinin Belirlenmesi,” J. Inf. Technol., vol. 7, no. 1, pp. 25–32, 2014.
  • O. Kaynar, Y. Görmez, M. Yildiz, and A. Albayrak, “Sentiment Analysis with Machine Learning Techniques,” in International Artificial Intelligence and Data Processing Symposium, 2016.
  • O. Coban, B. Ozyer, and G. T. Ozyer, “Sentiment analysis for Turkish Twitter feeds,” 2015 23rd Signal Process. Commun. Appl. Conf. SIU 2015 - Proc., pp. 2388–2391, Jun. 2015.
  • A. K. Uysal and S. Gunal, “The impact of preprocessing on text classification,” Inf. Process. Manag., vol. 50, no. 1, pp. 104–112, Jan. 2014.
  • G. Aydin and I. R. Hallac, “Document Classification Using Distributed Machine Learning,” arXiv Prepr. arXiv1802.03597, pp. 166–169, Feb. 2018.
  • C. K. Yau, A. Porter, N. Newman, and A. Suominen, “Clustering scientific documents with topic modeling,” Scientometrics, vol. 100, no. 3, pp. 767–786, 2014.
  • S. W. Kim and J. M. Gil, “Research paper classification systems based on TF-IDF and LDA schemes,” Human-centric Comput. Inf. Sci., vol. 9, no. 1, Dec. 2019.
  • A. Suominen and H. Toivanen, “Map of science with topic modeling: Comparison of unsupervised learning and human-assigned subject classification,” J. Assoc. Inf. Sci. Technol., vol. 67, no. 10, pp. 2464–2476, Oct. 2016.
  • S. Raschka, “Naive Bayes and Text Classification I - Introduction and Theory,” arXiv Prepr. arXiv1410.5329, 2014.
  • D. Jurafsky and J. H. Martin, Speech and Language Processing, 3rd edn. Prentice Hall, 2019.
  • Y. Huang and L. Li, “Naive Bayes classification algorithm based on small sample set,” CCIS2011 - Proc. 2011 IEEE Int. Conf. Cloud Comput. Intell. Syst., pp. 34–39, 2011.
  • P. Chandrasekar and K. Qian, “The impact of data preprocessing on the performance of a naive bayes classifier,” IEEE 40th Annu. Comput. Softw. Appl. Conf., vol. 2, 2016.
There are 37 citations in total.

Details

Primary Language Turkish
Subjects Engineering
Journal Section Makaleler
Authors

Bora Kat 0000-0002-6863-6940

Publication Date January 6, 2023
Submission Date July 6, 2022
Acceptance Date September 7, 2022
Published in Issue Year 2023 Volume: 38 Issue: 3

Cite

APA Kat, B. (2023). Mühendislik alanındaki Türkçe akademik metinler için makine öğrenmesi destekli doğal dil işleme çalışmaları ve bir karar destek sisteminin geliştirilmesi: TÜBİTAK projeleri örneği. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 38(3), 1879-1892. https://doi.org/10.17341/gazimmfd.1132053
AMA Kat B. Mühendislik alanındaki Türkçe akademik metinler için makine öğrenmesi destekli doğal dil işleme çalışmaları ve bir karar destek sisteminin geliştirilmesi: TÜBİTAK projeleri örneği. GUMMFD. January 2023;38(3):1879-1892. doi:10.17341/gazimmfd.1132053
Chicago Kat, Bora. “Mühendislik alanındaki Türkçe Akademik Metinler için Makine öğrenmesi Destekli doğal Dil işleme çalışmaları Ve Bir Karar Destek Sisteminin geliştirilmesi: TÜBİTAK Projeleri örneği”. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 38, no. 3 (January 2023): 1879-92. https://doi.org/10.17341/gazimmfd.1132053.
EndNote Kat B (January 1, 2023) Mühendislik alanındaki Türkçe akademik metinler için makine öğrenmesi destekli doğal dil işleme çalışmaları ve bir karar destek sisteminin geliştirilmesi: TÜBİTAK projeleri örneği. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 38 3 1879–1892.
IEEE B. Kat, “Mühendislik alanındaki Türkçe akademik metinler için makine öğrenmesi destekli doğal dil işleme çalışmaları ve bir karar destek sisteminin geliştirilmesi: TÜBİTAK projeleri örneği”, GUMMFD, vol. 38, no. 3, pp. 1879–1892, 2023, doi: 10.17341/gazimmfd.1132053.
ISNAD Kat, Bora. “Mühendislik alanındaki Türkçe Akademik Metinler için Makine öğrenmesi Destekli doğal Dil işleme çalışmaları Ve Bir Karar Destek Sisteminin geliştirilmesi: TÜBİTAK Projeleri örneği”. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 38/3 (January 2023), 1879-1892. https://doi.org/10.17341/gazimmfd.1132053.
JAMA Kat B. Mühendislik alanındaki Türkçe akademik metinler için makine öğrenmesi destekli doğal dil işleme çalışmaları ve bir karar destek sisteminin geliştirilmesi: TÜBİTAK projeleri örneği. GUMMFD. 2023;38:1879–1892.
MLA Kat, Bora. “Mühendislik alanındaki Türkçe Akademik Metinler için Makine öğrenmesi Destekli doğal Dil işleme çalışmaları Ve Bir Karar Destek Sisteminin geliştirilmesi: TÜBİTAK Projeleri örneği”. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, vol. 38, no. 3, 2023, pp. 1879-92, doi:10.17341/gazimmfd.1132053.
Vancouver Kat B. Mühendislik alanındaki Türkçe akademik metinler için makine öğrenmesi destekli doğal dil işleme çalışmaları ve bir karar destek sisteminin geliştirilmesi: TÜBİTAK projeleri örneği. GUMMFD. 2023;38(3):1879-92.