Temporal expression recognition and disambiguation is a critical stage for natural language processing tasks that require semantic inference. Nowadays, language processing technologies (a subfield of artificial intelligence) require the analysis of temporal expressions in many phases. In this article, a temporal expression recognition and disambiguation system for Turkish is presented for the first time in the literature. Additionally, again for the first time, a Turkish temporal expression test data set has been created and made publicly available for researchers. The introduced system was developed on HeidelTime architecture which is frequently used for other languages. On average, 90 percent performance was achieved for four different types of temporal expressions (date, time, duration, and set) on the introduced data set. The system performance is evaluated under different evaluation criteria and compared with a baseline named entity recognizer and HeidelTime automatically created language resources. It is anticipated that the system fills an important gap in the Turkish natural language studies so far and will benefit future studies.
TimeML TIMEX3 HeidelTime natural language processing temporal expressions
Zamansal ifadelerin yakalanması ve tanımlanması, anlamsal çıkarım gerektiren durumlar için kritik öneme sahip bir doğal dil işleme görevidir. Günümüzde yapay zeka alanında öne çıkan dil işleme teknolojileri pek çok araştırma ve uygulama evresinde zamansal ifadelerin çözümlenmesine ihtiyaç duymaktadır. Bu makalede, Türkçe için literatürde yer alan ilk zamansal ifade yakalama ve tanımlama sistemi tanıtılmaktadır. Yine literatürde ilk kez bu konuda takip eden çalışmalarda kullanılabilecek bir sınama veri kümesi oluşturulmuş ve araştırmacıların hizmetine sunulmuştur. Açık kaynak olarak geliştirilen sistem diğer diller için sıklıkla kullanılan HeidelTime mimarisi üzerine kurulmuş ve oluşturulan veri kümesi üzerinde dört farklı tür (tarih, saat, süre, tekrar belirten zaman ifadeleri) için ortalamada yüzde 90 civarında başarım elde edilmiştir. Sistem farklı literatürde yer alan farklı değerlendirme ölçütleri ile değerlendirilmiş ve temel bir Türkçe varlık ismi tanıma ve otomatik oluşturulmuş HeidelTime dil kaynakları ile karşılaştırılmıştır. Geliştirilen sistemin Türkçe doğal dil araştırmalarında eksik kalan önemli bir yapı taşını tamamladığı ve ileriki çalışmalara fayda sağlayacağı öngörülmektedir.
Birincil Dil | Türkçe |
---|---|
Konular | Bilgisayar Yazılımı |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 31 Temmuz 2021 |
Gönderilme Tarihi | 4 Ocak 2021 |
Yayımlandığı Sayı | Yıl 2021 |