tesseract-ocr その1 動作確認
インストール
sudo apt-get install tesseract-ocr
色々と依存が有った気がします・・。
PATH を通す
.bashrc に以下を追加
export TESSDATA_PREFIX=/usr/share/tesseract-ocr/
バージョンを確認
$ tesseract -v tesseract 3.03 leptonica-1.70 libgif 4.1.6(?) : libjpeg 8d : libpng 1.2.50 : libtiff 4.0.3 : zlib 1.2.8 : webp 0.4.0
画像を準備する
動かす
$ tesseract hw.png out -l eng Tesseract Open Source OCR Engine v3.03 with Leptonica $ cat out.txt Hellow world.
日本語を試す
言語データを追加する
Version 3.04 向けのデータを使ってみる(失敗)
Version 3.04 向けのデータはココ。
GitHub - tesseract-ocr/tessdata at 3.04.00
jpn.traineddata を /usr/share/tesseract-ocr/tessdata/ に入れます。
試す
$ tesseract hw.jp.png out -l jpn
Tesseract Open Source OCR Engine v3.03 with Leptonica
read_params_file: parameter not found: allow_blob_division
どうやらこれは、apt-get でインストールされた tesseract のバージョンが 3.03 なのに対し、言語データが 3.04 向けなのが原因の様です。
Version 3.02 向けのデータを使ってみる(動く)
次に、Version 3.02 向けを使う。
tesseract-ocr alternative download - Browse Files at SourceForge.net
$ tesseract hw.jp.png out -l jpn
Tesseract Open Source OCR Engine v3.03 with Leptonica
$ cat out.txt
こんにちは。