Social media is an important part of the modern life in our era. Users share their ideas, status, photos, life turning points and opinions using instruments of social media.This study will focus on building and usage features of the TweetS corpus build by using 1 million Tweets, under TS Corpus project. The corpus represents 6 new part-of-speech tags, peculiar to Internet, that were never used before in part-of-speech tagging of Turkish texts before. Also a new tokenizer had prepared in order to process the data.The study states the need for the corpora that use social media as a data source
corpus twitter tokenization part-of-speech tagging ts corpus
Sosyal medya, çağımızda yaşamın önemli bir parçası haline gelmiştir. Kullanıcılar düşüncelerini, durumlarını, fotoğraflarını, hayatlarındaki dönüm noktalarını ve fikirlerini sosyal medyanın araçlarını kullanarak paylaşmaktadırlar.Bu çalışmada TS Corpus projesi kapsamında, 1 milyon Tweet ile hazırlanan TweetS derleminin yapım ve kullanım özellikleri incelenecektir. Hazırlanan TweetS derleminde, daha önce Türkçe için sözcük türü etiketlemede hiç kullanılmamış, İnternet diline özgü 6 yeni etiket kullanılmıştır. Veriyi işlemek üzere yeni bir tokenizer (birimlendirici) hazırlanmıştır.Çalışma, sosyal medyayı kaynak olarak kullanan derlemlere olan ihtiyacı göstermiştir
Derlem twitter birimlendirme sözcük türü işaretleme ts corpus
Diğer ID | JA22KP27NB |
---|---|
Bölüm | Araştırma Makalesi |
Yazarlar | |
Yayımlanma Tarihi | 1 Mayıs 2016 |
Yayımlandığı Sayı | Yıl 2016 Cilt: 45 Sayı: 210 |