Research Article
BibTex RIS Cite

Türkçe Metinlerde Otomatik Konu Tespiti

Year 2021, Volume: 33 Issue: 2, 599 - 606, 15.09.2021
https://doi.org/10.35234/fumbd.899917

Abstract

Bu çalışmada çevrimiçi kullanılabilecek bir konu tespit sistemi önerilmiştir. Gizli Dirichlet Ayırımı ile 4 farklı kategoriye ait toplam 400.000 haber dokümandan oluşan bir Türkçe derlem eğitilmiştir. Model, eğitim verisinde yer almayan, yeni gelen dokümanların konu tespitini yüksek başarı ile gerçekleştirebilmektedir. Konu modellerinin başarı değerlendirmesinde tutarlılık (coherence) değerine ek olarak sınıflandırma yöntemleri için geçerli olan kesinlik (precision), hassasiyet (recall), F-ölçümü gibi skorların elde edilmesine yönelik 2 farklı yaklaşım geliştirilmiştir. Bu yaklaşımlarda, konular ile dokümanların ait olduğu sınıfların eşleştirilmesinden yararlanılmıştır. İlk yaklaşımda, dokümanın ait olduğu sınıfa karşılık gelen konunun mevcut olup olmadığı üzerinden genel bir başarı ölçütü sunulmuştur. İkinci yaklaşımda ise modelin yüksek güven (confidence) ile gerçekleştirmediği tahminleri eleyen, “dokümanın en belirgin konusu, ait olduğu sınıftır” kabulüne göre bir eşik (threshold) değeri üzerinden değerlendirme yapılan bir ölçüt sunulmuştur.

References

  • [1] D. M. Blei, A. Y. Ng, and M. I. Jordan, “Latent dirichlet allocation,” J. Mach. Learn. Res., vol. 3, no. Jan, pp. 993–1022, 2003.
  • [2] Y. Ko and J. Seo, “Automatic text categorization by unsupervised learning,” 2000.
  • [3] A. Budiarto, R. Rahutomo, H. N. Putra, T. W. Cenggoro, M. F. Kacamarga, and B. Pardamean, “Unsupervised News Topic Modelling with Doc2Vec and Spherical Clustering,” Procedia Comput. Sci., vol. 179, pp. 40–46, 2021.
  • [4] I. R. Hallac, S. Makinist, B. Ay, and G. Aydin, “user2Vec: Social Media User Representation Based on Distributed Document Embeddings,” in 2019 International Artificial Intelligence and Data Processing Symposium (IDAP), 2019, pp. 1–5.
  • [5] E. Ekinci, “Dokümanların Anlamsal Benzerliklerine Dayalı Özgün Bir Konu Modelleme Yöntemi,” 2019.
  • [6] J. D. Mcauliffe and D. M. Blei, “Supervised topic models,” in Advances in neural information processing systems, 2008, pp. 121–128.
  • [7] D. Ramamonjisoa, “Topic modeling on users’s comments,” in 2014 Third ICT International Student Project Conference (ICT-ISPC), 2014, pp. 177–180.
  • [8] Z. A. Guven, B. Diri, and T. Cakaloglu, “Classification of TurkishTweet emotions by n- stage Latent Dirichlet Allocation,” in 2018 Electric Electronics, Computer Science, Biomedical Engineerings’ Meeting, EBBT 2018, 2018, pp. 1–4, doi: 10.1109/EBBT.2018.8391454.
  • [9] Z. A. Guven, B. Diri, and T. Cakaloglu, “Comparison of Topic Modeling Methods for Type Detection of Turkish News,” in UBMK 2019 - Proceedings, 4th International Conference on Computer Science and Engineering, 2019, pp. 150–154, doi: 10.1109/UBMK.2019.8907050.
  • [10] T.-A. Hoang, K. D. Vo, and W. Nejdl, “W2E: A Worldwide-Event Benchmark Dataset for Topic Detection and Tracking,” in Proceedings of the 27th ACM International Conference on Information and Knowledge Management, 2018, pp. 1847–1850.
  • [11] M. Jin, X. Luo, H. Zhu, and H. H. Zhuo, “Combining deep learning and topic modeling for review understanding in context-aware recommendation,” in Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), 2018, pp. 1605–1614.
  • [12] I. R. Hallac, B. Ay, and G. Aydin, “Experiments on Fine Tuning Deep Learning Models With News Data For Tweet Classification,” in 2018 International Conference on Artificial Intelligence and Data Processing (IDAP), 2018, pp. 1–5.
  • [13] R. Rehurek and P. Sojka, “Gensim--python framework for vector space modelling,” NLP Centre, Fac. Informatics, Masaryk Univ. Brno, Czech Repub., vol. 3, no. 2, 2011.
  • [14] D. Mahapatra, M. Maddukuri, and G. Jayadev, “Topic Modelling,” 2016.
  • [15] Scikit-learn, “sklearn.decomposition.NMF Package.” https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.NMF.html.
  • [16] D. Mimno, H. Wallach, E. Talley, M. Leenders, and A. McCallum, “Optimizing semantic coherence in topic models,” in Proceedings of the 2011 conference on empirical methods in natural language processing, 2011, pp. 262–272.
Year 2021, Volume: 33 Issue: 2, 599 - 606, 15.09.2021
https://doi.org/10.35234/fumbd.899917

Abstract

References

  • [1] D. M. Blei, A. Y. Ng, and M. I. Jordan, “Latent dirichlet allocation,” J. Mach. Learn. Res., vol. 3, no. Jan, pp. 993–1022, 2003.
  • [2] Y. Ko and J. Seo, “Automatic text categorization by unsupervised learning,” 2000.
  • [3] A. Budiarto, R. Rahutomo, H. N. Putra, T. W. Cenggoro, M. F. Kacamarga, and B. Pardamean, “Unsupervised News Topic Modelling with Doc2Vec and Spherical Clustering,” Procedia Comput. Sci., vol. 179, pp. 40–46, 2021.
  • [4] I. R. Hallac, S. Makinist, B. Ay, and G. Aydin, “user2Vec: Social Media User Representation Based on Distributed Document Embeddings,” in 2019 International Artificial Intelligence and Data Processing Symposium (IDAP), 2019, pp. 1–5.
  • [5] E. Ekinci, “Dokümanların Anlamsal Benzerliklerine Dayalı Özgün Bir Konu Modelleme Yöntemi,” 2019.
  • [6] J. D. Mcauliffe and D. M. Blei, “Supervised topic models,” in Advances in neural information processing systems, 2008, pp. 121–128.
  • [7] D. Ramamonjisoa, “Topic modeling on users’s comments,” in 2014 Third ICT International Student Project Conference (ICT-ISPC), 2014, pp. 177–180.
  • [8] Z. A. Guven, B. Diri, and T. Cakaloglu, “Classification of TurkishTweet emotions by n- stage Latent Dirichlet Allocation,” in 2018 Electric Electronics, Computer Science, Biomedical Engineerings’ Meeting, EBBT 2018, 2018, pp. 1–4, doi: 10.1109/EBBT.2018.8391454.
  • [9] Z. A. Guven, B. Diri, and T. Cakaloglu, “Comparison of Topic Modeling Methods for Type Detection of Turkish News,” in UBMK 2019 - Proceedings, 4th International Conference on Computer Science and Engineering, 2019, pp. 150–154, doi: 10.1109/UBMK.2019.8907050.
  • [10] T.-A. Hoang, K. D. Vo, and W. Nejdl, “W2E: A Worldwide-Event Benchmark Dataset for Topic Detection and Tracking,” in Proceedings of the 27th ACM International Conference on Information and Knowledge Management, 2018, pp. 1847–1850.
  • [11] M. Jin, X. Luo, H. Zhu, and H. H. Zhuo, “Combining deep learning and topic modeling for review understanding in context-aware recommendation,” in Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), 2018, pp. 1605–1614.
  • [12] I. R. Hallac, B. Ay, and G. Aydin, “Experiments on Fine Tuning Deep Learning Models With News Data For Tweet Classification,” in 2018 International Conference on Artificial Intelligence and Data Processing (IDAP), 2018, pp. 1–5.
  • [13] R. Rehurek and P. Sojka, “Gensim--python framework for vector space modelling,” NLP Centre, Fac. Informatics, Masaryk Univ. Brno, Czech Repub., vol. 3, no. 2, 2011.
  • [14] D. Mahapatra, M. Maddukuri, and G. Jayadev, “Topic Modelling,” 2016.
  • [15] Scikit-learn, “sklearn.decomposition.NMF Package.” https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.NMF.html.
  • [16] D. Mimno, H. Wallach, E. Talley, M. Leenders, and A. McCallum, “Optimizing semantic coherence in topic models,” in Proceedings of the 2011 conference on empirical methods in natural language processing, 2011, pp. 262–272.
There are 16 citations in total.

Details

Primary Language Turkish
Journal Section MBD
Authors

Galip Aydın 0000-0002-9564-3329

İbrahim Hallaç 0000-0003-0568-3114

Publication Date September 15, 2021
Submission Date March 19, 2021
Published in Issue Year 2021 Volume: 33 Issue: 2

Cite

APA Aydın, G., & Hallaç, İ. (2021). Türkçe Metinlerde Otomatik Konu Tespiti. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 33(2), 599-606. https://doi.org/10.35234/fumbd.899917
AMA Aydın G, Hallaç İ. Türkçe Metinlerde Otomatik Konu Tespiti. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. September 2021;33(2):599-606. doi:10.35234/fumbd.899917
Chicago Aydın, Galip, and İbrahim Hallaç. “Türkçe Metinlerde Otomatik Konu Tespiti”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 33, no. 2 (September 2021): 599-606. https://doi.org/10.35234/fumbd.899917.
EndNote Aydın G, Hallaç İ (September 1, 2021) Türkçe Metinlerde Otomatik Konu Tespiti. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 33 2 599–606.
IEEE G. Aydın and İ. Hallaç, “Türkçe Metinlerde Otomatik Konu Tespiti”, Fırat Üniversitesi Mühendislik Bilimleri Dergisi, vol. 33, no. 2, pp. 599–606, 2021, doi: 10.35234/fumbd.899917.
ISNAD Aydın, Galip - Hallaç, İbrahim. “Türkçe Metinlerde Otomatik Konu Tespiti”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 33/2 (September 2021), 599-606. https://doi.org/10.35234/fumbd.899917.
JAMA Aydın G, Hallaç İ. Türkçe Metinlerde Otomatik Konu Tespiti. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 2021;33:599–606.
MLA Aydın, Galip and İbrahim Hallaç. “Türkçe Metinlerde Otomatik Konu Tespiti”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, vol. 33, no. 2, 2021, pp. 599-06, doi:10.35234/fumbd.899917.
Vancouver Aydın G, Hallaç İ. Türkçe Metinlerde Otomatik Konu Tespiti. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 2021;33(2):599-606.