Text line segmentation is one of the essential stages of historical document analysis applications. The accuracy of text line segmentation affects directly the success of following document analysis steps. For printed documents, lossless text line segmentation can be done readily. But, for handwritten documents, unfortunately it is still a challenging problem because of the skewed, curved, fluctuated text lines, narrow gaps between the text lines, overlapping and touching components. In this paper, a novel superpixel-based text line segmentation method for handwritten documents is proposed. This method aims to extract the most reliable boundary to segment consecutive text lines. This method is implemented HIT-MW dataset containing 853 Chinese handwritten document images. The most important feature of this dataset is to be composed of documents having skewed, overlapping and touching text lines. A detection rate of 98.03% and a recognition accuracy of 97.66% is obtained and these results are compared with the ones of existing state of the art methods. With these results, segmentation success and potential of our method for handwriting text line segmentation is pointed out.
Superpixel, Text Line Segmentation, Handwritten Document, Document Image Analysis, Watershed Segmentation
Satır bölütleme tarihi doküman analizi uygulamalarının en temel aşamalarından birisidir. Satır bölütleme başarısı, daha sonraki doküman analizi yöntemlerinin başarısını doğrudan etkilemektedir. Matbu belgelerde kayıpsız satır bölütleme işlemi kolaylıkla yapılabilmektedir. Ancak, el yazımı belgeler için satır bölütleme işlemi metin satırlarının eğik, eğri, dalgalı olması, satırlar arası boşlukların darlığı, örtüşen ve temas eden bileşenlerden dolayı hala zorlayıcı bir problemdir. Bu çalışmada, el yazımı dokümanlar için süperpiksel tabanlı yeni bir satır bölütleme yöntemi önerilmiştir. Yöntem ardışık satırları bölütleyebilen en güvenli sınırın elde edilmesini hedeflemektedir. Önerilen yöntem 853 adet Çince el yazımı doküman imgesi içeren HIT-MW veri seti üzerinde uygulanmıştır. Veri setinin en önemli özelliği eğik, temas eden ve örtüşen satır davranışlarına sahip imgelerden oluşmasıdır. Önerilen yöntem ile % 98.03 tespit oranı, % 97.66 tanıma doğruluğu elde edilmiş ve yöntemin başarısı literatürde bulunan diğer yöntemlerle karşılaştırılmıştır. Elde edilen sonuçlar ışığında önerilen yöntemin el yazımı metinlerde satır bölütleme uygulamalarındaki başarısı ve potansiyeli ortaya konmuştur.
Süperpiksel, Satır Bölütleme, El Yazısı Belge, Doküman İmgesi Analizi, Metin Satırı Çıkarımı, Havza Bölütleme
Birincil Dil | Türkçe |
---|---|
Konular | Bilgisayar Bilimleri, Bilgi Sistemleri, Mühendislik, Elektrik ve Elektronik |
Yayınlanma Tarihi | 2019 Aralık 7(4) |
Bölüm | Araştırma Makalesi \ Research Makaleler |
Yazarlar |
|
Yayımlanma Tarihi | 19 Aralık 2019 |
Başvuru Tarihi | 31 Ocak 2019 |
Kabul Tarihi | 16 Haziran 2019 |
Yayınlandığı Sayı | Yıl 2019, Cilt 7, Sayı 4 |