Son yıllarda, farklı konular için sunulan dijital bilgi kaynaklarının sayısı aşırı miktarda artmaktadır. Bu dijital bilgi kaynaklarına erişim desteği sunan sistemlerin birçoğu tarama, arama ve bilgi geri kazanımı araçlarına odaklanmıştır. Sayısal kütüphaneler, elektronik kitaplıklar ve Web sayfaları, bilgi erişimini iyileştirmek, belge koleksiyonlarını farklı anahtar kriterlere göre hiyerarşik olarak oluşturmak ve düzenlemek için yeni birçok açılım sunmaktadır. Farklı arama araçları, bilgi erişim teknikleri kullanılarak erişilebilen belgeleri düzenlemek, endekslemek ve özetlemek için yazılım tabanlı hizmetleri kullanarak daha kapsamlı bir doküman kapsamı sunulabilmektedir. Dijital kütüphanelerdeki arama mekanizmalarına uygulanan teknolojiler, doküman koleksiyonlarını yönetmek, anlamlı veri çıkarmak ve doküman ilişkilerinin belirlenmesi için farklı yöntem ve teknolojilerin kullanımını zorunlu kılmıştır. Özellikle belgeler arasındaki ilişki ne biçimleri ne de türleri ile açıkça tanımlanamamaktadır. Bu çalışma, sayısal kütüphaneler için belgelerin içeriğinden üst-veri çıkarımı, varlık isimlerinin elde edilmesi, anahtar kelimelerin elde erilmesi ve doküman benzerliklerinin oluşturulması için kullanılan yöntem ve teknikler için kapsamlı bir çalışma sunmaktadır.
Doküman işleme Üst veri çıkarımı Varlık ismi tanıma Anahtar kelime çıkarımı Doküman benzerliği
Türkiye Bilimsel Ve Teknolojik Araştırma Kurumu
5190074
Bu çalışma Türkiye Bilimsel Ve Teknolojik Araştırma Kurumu (TÜBİTAK) tarafından desteklenmiştir (Proje No: 5190074).
In recent years, the number of digital information sources available for different topics has grown enormously. Many of the systems that support access to these digital information resources are focused on scanning, searching and information retrieval tools. Digital libraries, electronic libraries and Web pages bring many new initiatives to improve information access, create and organize document collections hierarchically according to different key criteria. Different search tools; by using software-based services to organize, index and summarize documents that can be accessed using information retrieval techniques, a more comprehensive document coverage can be provided. In digital libraries; the techniques applied to search mechanisms have made it necessary to use different methods and technologies to manage document collections, to extract meaningful data and to determine document relationships. In particular, the relationship between documents cannot be clearly defined neither by their forms nor by their types. This study provides a comprehensive study of methods and techniques used for extracting metadata, named entity recognition, keyword extraction and obtaining document similarities from the content of
the documents for digital libraries.
Document processing Metadata extraction Name entity recognition Keyword extraction Document similarity
5190074
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Articles |
Authors | |
Project Number | 5190074 |
Publication Date | January 31, 2021 |
Published in Issue | Year 2021 Volume: 9 Issue: 1 |