Text line segmentation
is one of the essential stages of historical document analysis applications.
The accuracy of text line segmentation affects directly the success of
following document analysis steps. For
printed documents, lossless text line segmentation can be done readily. But, for
handwritten documents, unfortunately it is still a challenging problem because
of the skewed, curved, fluctuated text lines, narrow gaps between the text
lines, overlapping and touching components. In this paper, a novel superpixel-based
text line segmentation method for handwritten documents is proposed. This
method aims to extract the most reliable boundary to segment consecutive text
lines. This method is implemented HIT-MW
dataset containing 853 Chinese handwritten document images. The most important
feature of this dataset is to be composed of documents having skewed,
overlapping and touching text lines. A detection
rate of 98.03% and a recognition accuracy of 97.66% is obtained and these
results are compared with the ones of existing state of the art methods. With
these results, segmentation success and potential of our method for handwriting
text line segmentation is pointed out.
Superpixel Text Line Segmentation Handwritten Document Document Image Analysis Watershed Segmentation
Satır bölütleme tarihi doküman analizi uygulamalarının en temel
aşamalarından birisidir. Satır bölütleme başarısı, daha sonraki doküman analizi
yöntemlerinin başarısını doğrudan etkilemektedir. Matbu belgelerde kayıpsız satır
bölütleme işlemi kolaylıkla yapılabilmektedir. Ancak, el yazımı belgeler için
satır bölütleme işlemi metin satırlarının eğik, eğri, dalgalı olması, satırlar
arası boşlukların darlığı, örtüşen ve temas eden bileşenlerden dolayı hala zorlayıcı
bir problemdir. Bu çalışmada, el yazımı dokümanlar için süperpiksel tabanlı yeni
bir satır bölütleme yöntemi önerilmiştir. Yöntem ardışık satırları
bölütleyebilen en güvenli sınırın elde edilmesini hedeflemektedir. Önerilen
yöntem 853 adet Çince el yazımı doküman imgesi içeren HIT-MW veri seti üzerinde
uygulanmıştır. Veri setinin en önemli özelliği eğik, temas eden ve örtüşen
satır davranışlarına sahip imgelerden oluşmasıdır. Önerilen yöntem ile % 98.03
tespit oranı, % 97.66 tanıma doğruluğu elde edilmiş ve yöntemin başarısı literatürde
bulunan diğer yöntemlerle karşılaştırılmıştır. Elde edilen sonuçlar ışığında
önerilen yöntemin el yazımı metinlerde satır bölütleme uygulamalarındaki
başarısı ve potansiyeli ortaya konmuştur.
Süperpiksel Satır Bölütleme El Yazısı Belge Doküman İmgesi Analizi Metin Satırı Çıkarımı Havza Bölütleme
Birincil Dil | Türkçe |
---|---|
Konular | Bilgisayar Yazılımı, Elektrik Mühendisliği |
Bölüm | Araştırma Makalesi \ Research Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 19 Aralık 2019 |
Gönderilme Tarihi | 31 Ocak 2019 |
Kabul Tarihi | 16 Haziran 2019 |
Yayımlandığı Sayı | Yıl 2019 |