Research Article
BibTex RIS Cite

Testing and Developing Author Identification Method for Short Texts in Turkish

Year 2020, Volume: 37 Issue: 2, 246 - 262, 31.12.2020
https://doi.org/10.32600/huefd.656983

Abstract

Author identification is probably one of the most important applications of forensic linguistics. Considering scientific literature in Turkish language, related studies have been carried out relatively recently and very short texts have not been used in these studies (Amasyalı & Diri, 2006; Taş & Görür, 2007; Doğan & Diri, 2010). However, texts involving only a few words may also be a subject of study in terms of forensic linguistics. In the past, as a result of a study on published texts (tweets) on a micro-blog site “Twitter”, a method in the scientific literature in the Turkish language had been proposed (Tanrıvere, 2018). In the present study, however, that very method has been tested with a new corpus consisting of tweets again, and the markers within the method were developed by increasing the number and making elaborations qualitatively. This method has brought about successful results by comparing texts with known and unknown authors. In the implementation process, there have been some distinctive but unpredicted markers. These were also given in detail and proposed to be added to the relevant marker group within the method. The results of the study have shown in general author identification is possible even in very short texts and the method may also be used in forensic contexts.

References

  • Amasyalı, M. F. ve Diri, B. (2006). Automatic Turkish text categorization in terms of author, genre and gender. C. Kop, G. Fliedl, H. C. Mayr ve E. Métais (Eds.), 11th International Conference on Applications of Natural Language to Information Systems içinde (ss. 221-226). Berlin, Heidelberg: Springer.
  • Bhargava, M., Mehndiratta, P. ve Asawa, K. (2013). Stylometric analysis for authorship attribution on Twitter. BDA 2013 Proceedings of the Second International Conference on Big Data Analytics, 8302, 37-47.
  • Coulthard, M. (1998). Identifying the author. Cahiers de Linguistique Française, 20, 139-161.
  • Coulthard, M. (2004). Author identification, idiolect and linguistic uniqueness. Applied Linguistics, 25 (4), 431-447.
  • Coulthard, M. (2005). Some forensic applications of descriptive linguistics. Veredas - Revista de Estudos Linguísticos, 9, 9-28.
  • Coulthard, M. ve Johnson, A. (2007). An introduction to forensic linguistics: Language in evidence. London, New York: Routledge.
  • Doğan, S. ve Diri, B. (2010). Türkçe dokümanlar için n-gram tabanlı yeni bir sınıflandırma (ng-ind): Yazar, tür ve cinsiyet. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 3 (1), 11-19.
  • Grant, T. (2008). Approaching questions in forensic authorship analysis. J. Gibbons ve M. T. Turell (Ed), Dimensions of Forensic Linguistics içinde (ss. 215-229). Amsterdam, Philadelphia: John Benjamins Publishing Company.
  • Grant, T. ve MacLeod, N. (2018). Resources and constraints in linguistic identity performance: A theory of authorship. Language and Law / Linguagem e Direito, 5 (1), 80-96.
  • MacLeod, N. ve Grant, T. (2012). Whose tweet? Authorship analysis of micro-blogs and other short-form messages. In S. Tomblin, N. MacLeod, R. Sousa-Silva ve M. Coulthard (Eds.), Proceedings of The International Association of Forensic Linguists’ Tenth Biennial Conference (ss. 210-224). Birmingham: Aston University.
  • Mayda, İ. ve Amasyalı, M. F. (2016). Yazar tanımada köşe yazısı ve tweet’lerin çapraz kullanımı. 2. Elektrik-Elektronik, Bilgisayar, Biyomedikal Mühendislikleri Bilimsel Toplantısı’nda sunulan bildiri. İstanbul.
  • McMenamin, G. R. (2002). Linguistic variation. In G. R. McMenamin (Ed.), Forensic linguistics: Advances in forensic stylistics (ss. 44-64). Boca Raton, London, New York, Washington D.C.: CRC Press.
  • Olsson, J. (2008). Forensic linguistics (2. ed.). London, New York: Continuum.
  • Tanrıvere, U. (2018). Kısa metinlerde yazar tanıma: Twitter için bir yöntem önerisi. Humanitas, 6 (12), 177-192. doi:10.20304/humanitas.439458
  • Taş, T. ve Görür, A. K. (2007). Author identification for Turkish texts. Çankaya Üniversitesi Fen-Edebiyat Fakültesi, Journal of Arts and Sciences, 7, 151-161.
  • Twitter. (2018). Privacy Policy. https://twitter.com/en/privacy adresindenerişildi.
  • Wardhaugh, R. (1998). An introduction to sociolinguistics (3. ed.). Massachusetts, Oxford: Blackwell.

Türkçe Kısa Metinlerde Yazar Tanıma Yönteminin Sınanması ve Geliştirilmesi

Year 2020, Volume: 37 Issue: 2, 246 - 262, 31.12.2020
https://doi.org/10.32600/huefd.656983

Abstract

Yazar tanıma, adli dilbilimin belki de en önemli uygulamalarından bir tanesidir. Türkçe alan yazınına bakıldığında ise bu konudaki çalışmaların nispeten kısa bir süredir yapıldığı ve bu çalışmalarda çok kısa metinlerin kullanılmadığı görülmektedir (Amasyalı ve Diri, 2006; Taş ve Görür, 2007; Doğan ve Diri, 2010). Oysaki adli dilbilim çerçevesinde sadece birkaç sözcükten ibaret olan metinler dahi bir inceleme konusu olabilmektedir. Geçmişte, Twitter isimli mikro-blog sitesinde yayınlanan metinler (tweet) üzerinde yapılan bir çalışma neticesinde Türkçe alan yazınında bir yöntem önerilmiştir (Tanrıvere, 2018). Bu çalışma kapsamında ise söz konusu yöntem, yine Twitter iletilerinden oluşan yeni bir bütünce ile sınanmış ve yöntemi oluşturan ölçütler sayıca arttırılıp nitel bağlamda da detaylandırılarak geliştirilmeye çalışılmıştır. Yöntem, yazarının kim olduğu bilinmeyen iletilerin yazarı bilinen iletilerle karşılaştırılması neticesinde olumlu sonuçlar vermiştir. Uygulama sürecinde öngörülmemiş başka birtakım ayırt edici ölçütlerin de varlığı gözlenmiş ve bunlar detaylıca sunularak, yöntemdeki ilgili ölçüt gruplarına dahil edilmeleri önerilmiştir. Elde edilen sonuçlar genel olarak, çok kısa metinlerde dahi yazar tespitinin mümkün olduğunu ve yöntemin adli bağlamlarda da kullanılabileceğini göstermektedir.

References

  • Amasyalı, M. F. ve Diri, B. (2006). Automatic Turkish text categorization in terms of author, genre and gender. C. Kop, G. Fliedl, H. C. Mayr ve E. Métais (Eds.), 11th International Conference on Applications of Natural Language to Information Systems içinde (ss. 221-226). Berlin, Heidelberg: Springer.
  • Bhargava, M., Mehndiratta, P. ve Asawa, K. (2013). Stylometric analysis for authorship attribution on Twitter. BDA 2013 Proceedings of the Second International Conference on Big Data Analytics, 8302, 37-47.
  • Coulthard, M. (1998). Identifying the author. Cahiers de Linguistique Française, 20, 139-161.
  • Coulthard, M. (2004). Author identification, idiolect and linguistic uniqueness. Applied Linguistics, 25 (4), 431-447.
  • Coulthard, M. (2005). Some forensic applications of descriptive linguistics. Veredas - Revista de Estudos Linguísticos, 9, 9-28.
  • Coulthard, M. ve Johnson, A. (2007). An introduction to forensic linguistics: Language in evidence. London, New York: Routledge.
  • Doğan, S. ve Diri, B. (2010). Türkçe dokümanlar için n-gram tabanlı yeni bir sınıflandırma (ng-ind): Yazar, tür ve cinsiyet. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 3 (1), 11-19.
  • Grant, T. (2008). Approaching questions in forensic authorship analysis. J. Gibbons ve M. T. Turell (Ed), Dimensions of Forensic Linguistics içinde (ss. 215-229). Amsterdam, Philadelphia: John Benjamins Publishing Company.
  • Grant, T. ve MacLeod, N. (2018). Resources and constraints in linguistic identity performance: A theory of authorship. Language and Law / Linguagem e Direito, 5 (1), 80-96.
  • MacLeod, N. ve Grant, T. (2012). Whose tweet? Authorship analysis of micro-blogs and other short-form messages. In S. Tomblin, N. MacLeod, R. Sousa-Silva ve M. Coulthard (Eds.), Proceedings of The International Association of Forensic Linguists’ Tenth Biennial Conference (ss. 210-224). Birmingham: Aston University.
  • Mayda, İ. ve Amasyalı, M. F. (2016). Yazar tanımada köşe yazısı ve tweet’lerin çapraz kullanımı. 2. Elektrik-Elektronik, Bilgisayar, Biyomedikal Mühendislikleri Bilimsel Toplantısı’nda sunulan bildiri. İstanbul.
  • McMenamin, G. R. (2002). Linguistic variation. In G. R. McMenamin (Ed.), Forensic linguistics: Advances in forensic stylistics (ss. 44-64). Boca Raton, London, New York, Washington D.C.: CRC Press.
  • Olsson, J. (2008). Forensic linguistics (2. ed.). London, New York: Continuum.
  • Tanrıvere, U. (2018). Kısa metinlerde yazar tanıma: Twitter için bir yöntem önerisi. Humanitas, 6 (12), 177-192. doi:10.20304/humanitas.439458
  • Taş, T. ve Görür, A. K. (2007). Author identification for Turkish texts. Çankaya Üniversitesi Fen-Edebiyat Fakültesi, Journal of Arts and Sciences, 7, 151-161.
  • Twitter. (2018). Privacy Policy. https://twitter.com/en/privacy adresindenerişildi.
  • Wardhaugh, R. (1998). An introduction to sociolinguistics (3. ed.). Massachusetts, Oxford: Blackwell.
There are 17 citations in total.

Details

Primary Language Turkish
Subjects Linguistics
Journal Section Articles
Authors

Utku Tanrıvere 0000-0003-2534-1701

Publication Date December 31, 2020
Submission Date December 9, 2019
Acceptance Date April 4, 2020
Published in Issue Year 2020 Volume: 37 Issue: 2

Cite

APA Tanrıvere, U. (2020). Türkçe Kısa Metinlerde Yazar Tanıma Yönteminin Sınanması ve Geliştirilmesi. Hacettepe Üniversitesi Edebiyat Fakültesi Dergisi, 37(2), 246-262. https://doi.org/10.32600/huefd.656983


Creative Commons License
Bu eser Creative Commons Atıf 4.0 Uluslararası Lisansı ile lisanslanmıştır.