Türkçe Metinlerde Otomatik Konu Tespiti
Öz
Bu çalışmada çevrimiçi kullanılabilecek bir konu tespit sistemi önerilmiştir. Gizli Dirichlet Ayırımı ile 4 farklı kategoriye ait toplam 400.000 haber dokümandan oluşan bir Türkçe derlem eğitilmiştir. Model, eğitim verisinde yer almayan, yeni gelen dokümanların konu tespitini yüksek başarı ile gerçekleştirebilmektedir. Konu modellerinin başarı değerlendirmesinde tutarlılık (coherence) değerine ek olarak sınıflandırma yöntemleri için geçerli olan kesinlik (precision), hassasiyet (recall), F-ölçümü gibi skorların elde edilmesine yönelik 2 farklı yaklaşım geliştirilmiştir. Bu yaklaşımlarda, konular ile dokümanların ait olduğu sınıfların eşleştirilmesinden yararlanılmıştır. İlk yaklaşımda, dokümanın ait olduğu sınıfa karşılık gelen konunun mevcut olup olmadığı üzerinden genel bir başarı ölçütü sunulmuştur. İkinci yaklaşımda ise modelin yüksek güven (confidence) ile gerçekleştirmediği tahminleri eleyen, “dokümanın en belirgin konusu, ait olduğu sınıftır” kabulüne göre bir eşik (threshold) değeri üzerinden değerlendirme yapılan bir ölçüt sunulmuştur.
Anahtar Kelimeler
Kaynakça
- [1] D. M. Blei, A. Y. Ng, and M. I. Jordan, “Latent dirichlet allocation,” J. Mach. Learn. Res., vol. 3, no. Jan, pp. 993–1022, 2003.
- [2] Y. Ko and J. Seo, “Automatic text categorization by unsupervised learning,” 2000.
- [3] A. Budiarto, R. Rahutomo, H. N. Putra, T. W. Cenggoro, M. F. Kacamarga, and B. Pardamean, “Unsupervised News Topic Modelling with Doc2Vec and Spherical Clustering,” Procedia Comput. Sci., vol. 179, pp. 40–46, 2021.
- [4] I. R. Hallac, S. Makinist, B. Ay, and G. Aydin, “user2Vec: Social Media User Representation Based on Distributed Document Embeddings,” in 2019 International Artificial Intelligence and Data Processing Symposium (IDAP), 2019, pp. 1–5.
- [5] E. Ekinci, “Dokümanların Anlamsal Benzerliklerine Dayalı Özgün Bir Konu Modelleme Yöntemi,” 2019.
- [6] J. D. Mcauliffe and D. M. Blei, “Supervised topic models,” in Advances in neural information processing systems, 2008, pp. 121–128.
- [7] D. Ramamonjisoa, “Topic modeling on users’s comments,” in 2014 Third ICT International Student Project Conference (ICT-ISPC), 2014, pp. 177–180.
- [8] Z. A. Guven, B. Diri, and T. Cakaloglu, “Classification of TurkishTweet emotions by n- stage Latent Dirichlet Allocation,” in 2018 Electric Electronics, Computer Science, Biomedical Engineerings’ Meeting, EBBT 2018, 2018, pp. 1–4, doi: 10.1109/EBBT.2018.8391454.
Ayrıntılar
Birincil Dil
Türkçe
Konular
-
Bölüm
Araştırma Makalesi
Yayımlanma Tarihi
15 Eylül 2021
Gönderilme Tarihi
19 Mart 2021
Kabul Tarihi
9 Nisan 2021
Yayımlandığı Sayı
Yıl 2021 Cilt: 33 Sayı: 2
APA
Aydın, G., & Hallaç, İ. (2021). Türkçe Metinlerde Otomatik Konu Tespiti. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 33(2), 599-606. https://doi.org/10.35234/fumbd.899917
AMA
1.Aydın G, Hallaç İ. Türkçe Metinlerde Otomatik Konu Tespiti. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 2021;33(2):599-606. doi:10.35234/fumbd.899917
Chicago
Aydın, Galip, ve İbrahim Hallaç. 2021. “Türkçe Metinlerde Otomatik Konu Tespiti”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 33 (2): 599-606. https://doi.org/10.35234/fumbd.899917.
EndNote
Aydın G, Hallaç İ (01 Eylül 2021) Türkçe Metinlerde Otomatik Konu Tespiti. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 33 2 599–606.
IEEE
[1]G. Aydın ve İ. Hallaç, “Türkçe Metinlerde Otomatik Konu Tespiti”, Fırat Üniversitesi Mühendislik Bilimleri Dergisi, c. 33, sy 2, ss. 599–606, Eyl. 2021, doi: 10.35234/fumbd.899917.
ISNAD
Aydın, Galip - Hallaç, İbrahim. “Türkçe Metinlerde Otomatik Konu Tespiti”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 33/2 (01 Eylül 2021): 599-606. https://doi.org/10.35234/fumbd.899917.
JAMA
1.Aydın G, Hallaç İ. Türkçe Metinlerde Otomatik Konu Tespiti. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 2021;33:599–606.
MLA
Aydın, Galip, ve İbrahim Hallaç. “Türkçe Metinlerde Otomatik Konu Tespiti”. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, c. 33, sy 2, Eylül 2021, ss. 599-06, doi:10.35234/fumbd.899917.
Vancouver
1.Galip Aydın, İbrahim Hallaç. Türkçe Metinlerde Otomatik Konu Tespiti. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 01 Eylül 2021;33(2):599-606. doi:10.35234/fumbd.899917
Cited By
Mühendislik alanındaki Türkçe akademik metinler için makine öğrenmesi destekli doğal dil işleme çalışmaları ve bir karar destek sisteminin geliştirilmesi: TÜBİTAK projeleri örneği
Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi
https://doi.org/10.17341/gazimmfd.1132053Extended topic classification utilizing LDA and BERTopic: A call center case study on robot agents and human agents
Applied Intelligence
https://doi.org/10.1007/s10489-024-06106-5User-based topic, word, and sentiment analysis of Turkish tweets on platform X
Balıkesir Üniversitesi Fen Bilimleri Enstitüsü Dergisi
https://doi.org/10.25092/baunfbed.1750569