Research Article
BibTex RIS Cite

Türkçe Köşe Yazılarında Yapay Sinir Ağlarıyla Yazar ve Gazete Tahmin Etme

Year 2019, Volume: 10 Issue: 1, 45 - 56, 15.03.2019
https://doi.org/10.24012/dumf.425754

Abstract

Doğal dil işleme alanı doküman sınıflandırma ve doğrulama işlemleri ile
ilgilenmektedir. Bir metnin yazarı tespit edilmek istenirse kuşkusuz en önemli
unsur kullanılacak özelliklerdir ve bu özellikler doğrudan başarıya etki
edecektir. Bu çalışmada dört farklı Türkçe gazetenin her birinden 10 adet yazar
rastgele olarak seçilmiş ve her bir yazarın da toplam 10 adet köşe yazısı
rastgele tespit edilmiştir. Yazarı tanımaya yönelik olarak belirlenen 30 adet
özellik yazar tanıma için belirlenmiş ve geri yayılımlı yapay sinir ağlarına
girdi olarak verilmiştir. Çıktı olarak ise yazar adı modelinin kurgulandığı bu
çalışmada eğitim ve test verileri altı farklı şekilde k-katlı çapraz doğrulama
yöntemi ile ayrıştırılmıştır. İç katmandaki sinir sayıları da farklı katman ve
değerlerde değiştirilerek denemeler yapılmış ve en iyi modele ulaşmak
hedeflenmiştir. Çalışma sonucunda her bir gazete için farklı doğruluk oranları
elde edilmiştir. En yüksek başarı oranı %86.9 iken, en düşük başarı oranı %75.0
elde edilmiştir. Başarı oranlarının birbirlerinden farklı çıkmasında ise her
gazetedeki yazarın yazarlık özelliklerinin ayırt ediciliği etkili olduğu
düşünülmektedir.

References

  • Amasyalı M.F., Diri B. (2006). Automatic Written Turkish Text Categorization in Terms of Author, Genre and Gender, 11th International Conference on Applications of Natural Language to Information Systems, Austria.
  • Amasyalı, M. F., Diri, B., Türkoğlu, F. (2006). Farklı özellik vektörleri ile Türkçe dokümanların yazarlarının belirlenmesi. In The Fifteenth Turkish Symposium on Artificial Intelligence and Neural Networks (TAINN'2006).
  • Aşlıyan, R., Günel, K. (2011). A Comparison of Syllabifying Algorithms for Turkish. Advanced Research in Computer Science, 3(1): 58-78.
  • Brinegar, C.S. (1963). Mark Twain and the Quintus Curtius Snodgrass Letters: A Statistical Test of Authorship, Journal of the American Statistical Association, 58:85-96.
  • Burrows, J.F. (1992). Not unless you ask nicely: the interpretative nexus between analysis and information, Literary Linguist Comput, 7:91-109.
  • Cavnar, W. B. ve Trenkle, J. M. (1994). N-gram-based text categorization, Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval. Information Systems Project Management, Jolyon E. Hallows, AMACOM Pres.
  • Diri, B., Amasyalı M.F. (2003). Automatic Author Detection for Turkish Texts. Artificial Neural Networks and Neural Information Processing, pp. 138-141.
  • Fung, G., Mangasarian, O. (2003). The Disputed Federalist Papers: SVM Feature Selection via Concave Minimization.In Proceedings of the 2003 Conference of Diversity in Computing, pp. 42-46, Atlanta, Georgia, USA.
  • Holmes, D.I., (1994). Authorship Attribution, Comput Humanities, 28:87-106.
  • Levent, V. E., Diri, B. (2014). Türkçe Dokümanlarda Yapay SinirAğları İle Yazar Tanıma. Akademik Bilişim'14. Mersin Üniversitesi. 5-7.02.2014.
  • Malikoğlu, G.P.S.N. (2002). Artificial Intelligence 1, Birsen Yayınevi, İstanbul.
  • Morton, A.Q. (1965). The Authorship of Greek Prose, Journal of the Royal Statistical Society, Series A, 128:169-233.
  • Öztemel, E. (2012). Yapay Sinir Ağları, Papatya Yayıncılık, Ankara.
  • Peng F., Schuurmans D. (2003). Combining Naive Bayes and N-gram Language Models for Test Classification, School of Computer Science, University of Waterloo.
  • Peng F., Wang S., Schuurmans D. (2003). Language and Task Independent Text Categorization with Simple Language Models, School of Computer Science, University of Waterloo.
  • Sim, J., & Wright, C. C. (2005). The Kappa statistic in reliability studies: Use, interpretation, and sample size requirements. Physical Theraphy, 85(3), 258-268.
  • Soucy, P., Mineau, G.W. (2001). A Simple K-NN Algorithm For Text Categorization. In Proceedings of The First IEEE International Conference On Data Mining (ICDM_01), pp. 647–648, San Jose, CA.
  • Stamatatos E., Fakotakis N., Kokkinakis G. (2000). “Automatic Text Categorization in Terms of Genre and Author”, Computational Linguistics, pp.471-495.
  • Tweedie, F., Baayen, H. (1998). How Variable may a Constantbe Measures of Lexical Richness in Perspective, Computers and the Humanities, 32(5):323-352
Year 2019, Volume: 10 Issue: 1, 45 - 56, 15.03.2019
https://doi.org/10.24012/dumf.425754

Abstract

References

  • Amasyalı M.F., Diri B. (2006). Automatic Written Turkish Text Categorization in Terms of Author, Genre and Gender, 11th International Conference on Applications of Natural Language to Information Systems, Austria.
  • Amasyalı, M. F., Diri, B., Türkoğlu, F. (2006). Farklı özellik vektörleri ile Türkçe dokümanların yazarlarının belirlenmesi. In The Fifteenth Turkish Symposium on Artificial Intelligence and Neural Networks (TAINN'2006).
  • Aşlıyan, R., Günel, K. (2011). A Comparison of Syllabifying Algorithms for Turkish. Advanced Research in Computer Science, 3(1): 58-78.
  • Brinegar, C.S. (1963). Mark Twain and the Quintus Curtius Snodgrass Letters: A Statistical Test of Authorship, Journal of the American Statistical Association, 58:85-96.
  • Burrows, J.F. (1992). Not unless you ask nicely: the interpretative nexus between analysis and information, Literary Linguist Comput, 7:91-109.
  • Cavnar, W. B. ve Trenkle, J. M. (1994). N-gram-based text categorization, Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval. Information Systems Project Management, Jolyon E. Hallows, AMACOM Pres.
  • Diri, B., Amasyalı M.F. (2003). Automatic Author Detection for Turkish Texts. Artificial Neural Networks and Neural Information Processing, pp. 138-141.
  • Fung, G., Mangasarian, O. (2003). The Disputed Federalist Papers: SVM Feature Selection via Concave Minimization.In Proceedings of the 2003 Conference of Diversity in Computing, pp. 42-46, Atlanta, Georgia, USA.
  • Holmes, D.I., (1994). Authorship Attribution, Comput Humanities, 28:87-106.
  • Levent, V. E., Diri, B. (2014). Türkçe Dokümanlarda Yapay SinirAğları İle Yazar Tanıma. Akademik Bilişim'14. Mersin Üniversitesi. 5-7.02.2014.
  • Malikoğlu, G.P.S.N. (2002). Artificial Intelligence 1, Birsen Yayınevi, İstanbul.
  • Morton, A.Q. (1965). The Authorship of Greek Prose, Journal of the Royal Statistical Society, Series A, 128:169-233.
  • Öztemel, E. (2012). Yapay Sinir Ağları, Papatya Yayıncılık, Ankara.
  • Peng F., Schuurmans D. (2003). Combining Naive Bayes and N-gram Language Models for Test Classification, School of Computer Science, University of Waterloo.
  • Peng F., Wang S., Schuurmans D. (2003). Language and Task Independent Text Categorization with Simple Language Models, School of Computer Science, University of Waterloo.
  • Sim, J., & Wright, C. C. (2005). The Kappa statistic in reliability studies: Use, interpretation, and sample size requirements. Physical Theraphy, 85(3), 258-268.
  • Soucy, P., Mineau, G.W. (2001). A Simple K-NN Algorithm For Text Categorization. In Proceedings of The First IEEE International Conference On Data Mining (ICDM_01), pp. 647–648, San Jose, CA.
  • Stamatatos E., Fakotakis N., Kokkinakis G. (2000). “Automatic Text Categorization in Terms of Genre and Author”, Computational Linguistics, pp.471-495.
  • Tweedie, F., Baayen, H. (1998). How Variable may a Constantbe Measures of Lexical Richness in Perspective, Computers and the Humanities, 32(5):323-352
There are 19 citations in total.

Details

Primary Language Turkish
Journal Section Articles
Authors

Emrah Aydemir 0000-0002-8380-7891

Publication Date March 15, 2019
Submission Date May 21, 2018
Published in Issue Year 2019 Volume: 10 Issue: 1

Cite

IEEE E. Aydemir, “Türkçe Köşe Yazılarında Yapay Sinir Ağlarıyla Yazar ve Gazete Tahmin Etme”, DUJE, vol. 10, no. 1, pp. 45–56, 2019, doi: 10.24012/dumf.425754.
DUJE tarafından yayınlanan tüm makaleler, Creative Commons Atıf 4.0 Uluslararası Lisansı ile lisanslanmıştır. Bu, orijinal eser ve kaynağın uygun şekilde belirtilmesi koşuluyla, herkesin eseri kopyalamasına, yeniden dağıtmasına, yeniden düzenlemesine, iletmesine ve uyarlamasına izin verir. 24456