tesseract-ocr その1 動作確認

インストール

sudo apt-get install tesseract-ocr

色々と依存が有った気がします・・。

PATH を通す

.bashrc に以下を追加

export TESSDATA_PREFIX=/usr/share/tesseract-ocr/

バージョンを確認

$ tesseract -v
tesseract 3.03
 leptonica-1.70
  libgif 4.1.6(?) : libjpeg 8d : libpng 1.2.50 : libtiff 4.0.3 : zlib 1.2.8 : webp 0.4.0

画像を準備する

f:id:pongsuke:20170412102816p:plain

動かす

$ tesseract hw.png out -l eng
Tesseract Open Source OCR Engine v3.03 with Leptonica

$ cat out.txt 
Hellow world.

日本語を試す

言語データを追加する

Version 3.04 向けのデータを使ってみる(失敗)

Version 3.04 向けのデータはココ。

GitHub - tesseract-ocr/tessdata at 3.04.00

jpn.traineddata を /usr/share/tesseract-ocr/tessdata/ に入れます。

試す

f:id:pongsuke:20170412103533p:plain

$ tesseract hw.jp.png out -l jpn
Tesseract Open Source OCR Engine v3.03 with Leptonica
read_params_file: parameter not found: allow_blob_division

どうやらこれは、apt-get でインストールされた tesseract のバージョンが 3.03 なのに対し、言語データが 3.04 向けなのが原因の様です。

Version 3.02 向けのデータを使ってみる(動く)

次に、Version 3.02 向けを使う。

tesseract-ocr alternative download - Browse Files at SourceForge.net

$ tesseract hw.jp.png out -l jpn
Tesseract Open Source OCR Engine v3.03 with Leptonica

$ cat out.txt 
こんにちは。