Görüntü formatındaki belgelerin içinden karakterlerin veya verilerinin tekrar metin biçimine dönüştürülmesi büyük zaman ve iş gücü kaybı demektir. Günümüzde doküman işlemlerinde, işlem maliyetlerini düşürmek ve verimlilik oranlarını arttırmak istenilmektedir. Okutulacak belgeler üzerinde farklı yazı stilleri, yazı boyutları ve yazı biçimleri olabilmektedir. Ayrıca el yazısı notları da olabilmektedir. Bilgisayar ortamında hazırlanan ve bilinen yazı stilleriyle oluşturulan karakter değerlerinin tekrar düzenlenebilir metin formatına dönüştürme başarısı daha yüksektir ancak el yazısı karakterlerinin dönüştürme başarısı daha düşüktür. Tesseract kütüphanesinin eğitim verilerinin yeterli olmaması sebebiyle bazı yazı biçimlerinde başarı oranı düşük olabilmektedir. Bu çalışmada; OCR teknolojisi için kullanılan Tesseract kütüphanesi yardımıyla farklı yazı stilleri üzerinde, farklı yazı biçimleri uygulanarak, alfabetik karakter ve rakam okutulması gerçekleştirilmiş ve okuma başarı kıyaslaması yapılmıştır. Times New Roman, Calibri ve Arial yazı stilleri üzerinde normal, kalın ve eğik yazı biçimleri uygulanan örnekler kullanılmıştır. Ayrıca Tesseract kütüphanesi kullanımı öncesi, görüntü üzerinde Error Diffusion (Hata Yayılımı) algoritmaları ile iyileştirmeler yapılarak okuma oranları karşılaştırılmıştır. Böylece OCR tanıma yönteminin başarısını arttıran, ön işlem algoritmasının bulunması amaçlanmıştır. Elde edilen değerlere göre; belge üzerinde ön işlem olarak, Floyd Steinberg hata dağılım algoritması kullanımından sonra Tesseract kütüphanesinin daha doğru okuma yaptığı görülmüştür.
Optik karakter tanıma Tesseract görüntü işleme hata yayılımı makine öğrenmesi
Dumlupınar Üniversitesi
Converting characters or data to text through image formats means loss of time and labor. Today, It is desired to reduce transaction costs and increase efficiency rates in document transactions. For reading have been different writing styles, font sizes and writing formats on the documents. Computer-generated prepared character conversion and known writing style with success back into editable text format, the success of the conversion value higher then handwritten characters. The biggest step for reading in character, separating of characters from background. Due to the lack training data of the Tesseract library, the success rate, lows in some writing formats. In this study, reading alphabetical character and numbers was performed with the help of Tesseract library used for OCR technology and was made on different writing styles by applying different writing styles reading success comparison. Samples using normal, bold and italic writing formats were used on Times New Roman, Calibri and Arial font styles. Also on the image before using Tesseract library, Error Diffusion algorithms were compared with read rates by making improvements. Thus, it is aimed to find a pre-processing algorithm that increases the success of the OCR recognition method. According to the obtained values; As a pretreatment on the document, it was observed that the Tesseract library made a more accurate reading after using the Floyd Steinberg error distribution algorithm.
Optical character recognition Tesseract image processing error diffusion machine learning
Birincil Dil | Türkçe |
---|---|
Konular | Bilgisayar Yazılımı |
Bölüm | Bilgisayar Mühendisliği / Computer Engineering |
Yazarlar | |
Yayımlanma Tarihi | 15 Aralık 2020 |
Gönderilme Tarihi | 5 Nisan 2020 |
Kabul Tarihi | 27 Mayıs 2020 |
Yayımlandığı Sayı | Yıl 2020 |