Her geçen gün belge sayısı artan Web'in tam potansiyeliyle kullanılması için anlamsal ağ alanındaki çalışmaların Web'in geleceğini oluşturacağı düşünülmektedir. Belge sayısındaki bu artışa bağlı olarak istenilen metne erişebilmek için bu metni en iyi temsil eden söz öbeklerinin bulunması doğru bir yaklaşım olmaktadır. Tüm metni okumadan o metni en iyi ifade edecek söz öbeklerine erişmek hem kullanıcı açısından hem de tarayıcı açısından büyük önem taşımaktadır. Bu çalışmanın amacı haber metinlerinde, haber metninin öznesi, yüklemi, yer ve zamanını belirtecek söz öbeklerinin metinde bulunup, metnin etiketlenmesidir. Haber metnin öznesi, metindeki en baskın kişi, şey veya süjeyi ifade eder. Metnin yüklemi ise metindeki oluşu ifade eder. Metnin yeri ve zamanı ise metindeki olayın geçtiği zaman ve yeri ifade eder. Bu amaçla, metinde geçen cümleler içerisinden seçilen en baskın özne, yüklem, yer ve zaman bilgilerinin çıkarılması hedeflenmektedir. Kapsam olarak Türkçe haber metinleri seçilmiştir. Elle etiketleme işlemi yapılan metinler otomatik etiketleme işlemi esnasında bir kısmı eğitim ve diğer kısmı ise sınama verisi olarak kullanılmıştır.
Doğal Dil İşleme Bilgi Çıkarımı Koşullu Rastgele Alanlar Varlık İsmi Tanıma
Drastical document increase in Web requires semantic web applications in order to lead the Web to its full potential. Extracting important phrases in a document facilitates finding expected information. In this paper, a new approach that is labelling the main subject, main predicate, main location and main date of an electronic document is introduced. The main subject label tells whom or what the document about. The main predicate label tells what the subject is or does. The main location label tells where the activities passed and the main date label tells when the document passed. With the help of this new methodology, extraction of not only high level description of the content, but also the attribute of a phrase in a document is provided. As an experimental set Turkish news stories are selected. To use as a training and test set, manual labeling is made by human annotators. Then, different models for each label are implemented to extract the labels automatically and they are compared to manually labelled results to evaluation process of this study.
Natural Language Processing Information Extraction Conditional Random Fields Named Entity Recognition
Diğer ID | JA37JZ65RB |
---|---|
Bölüm | Makaleler(Araştırma) |
Yazarlar | |
Yayımlanma Tarihi | 24 Haziran 2016 |
Yayımlandığı Sayı | Yıl 2012 Cilt: 5 Sayı: 2 - Cilt: 5 Sayı: 2 |
https://i.creativecommons.org/l/by-nc/4.0Makale Kabulü | |
Çevrimiçi makale yüklemesi yapmak için kullanıcı kayıt/girişini kullanınız. Dergiye gönderilen makalelerin kabul süreci şu aşamalardan oluşmaktadır: 1. Gönderilen her makale ilk aşamada en az iki hakeme gönderilmektedir. 2. Hakem ataması, dergi editörleri tarafından yapılmaktadır. Derginin hakem havuzunda yaklaşık 200 hakem bulunmaktadır ve bu hakemler ilgi alanlarına göre sınıflandırılmıştır. Her hakeme ilgilendiği konuda makale gönderilmektedir. Hakem seçimi menfaat çatışmasına neden olmayacak biçimde yapılmaktadır. 3. Hakemlere gönderilen makalelerde yazar adları kapatılmaktadır. 4. Hakemlere bir makalenin nasıl değerlendirileceği açıklanmaktadır ve aşağıda görülen değerlendirme formunu doldurmaları istenmektedir. 5. İki hakemin olumlu görüş bildirdiği makaleler editörler tarafından benzerlik incelemesinden geçirilir. Makalelerdeki benzerliğin %25’ten küçük olması beklenir. 6. Tüm aşamaları geçmiş olan bir bildiri dil ve sunuş açısından editör tarafından incelenir ve gerekli düzeltme ve iyileştirmeler yapılır. Gerekirse yazarlara durum bildirilir.
Bu eser Creative Commons Atıf-GayriTicari 4.0 Uluslararası Lisansı ile lisanslanmıştır. |