tesseract で OCR 入門
tesseract とは
Googleで開発されているOCRエンジンです。(http://code.google.com/p/tesseract-ocr/)
とある所要で数字画像の認識エンジンが欲しくなったので、使ってみました。
インストール
ports で一発インストール。
# cd /usr/ports/graphics/tesseract/ # make instal clean
Mac なら brewで一発インストール。
% brew install tesseract
使ってみる
今回は、数字に限定して認識したかったので、文字種を0-9だけにすることで認識率を上げてみます。
準備するもの
- 数字の写真
というわけで、とりあえず元素材をぱしゃり。
これを Preview の画像cropを使って、切り取ります。
number.jpg という名前で保存しました。
設定ファイルを作る
以下を、tess.conf として保存します。
tessedit_char_whitelist 0123456789
認識させてみる
では実際に、認識させてみます。今回の元画像は一行のテキストなので、psm で 7 を指定しています。
% tesseract number.tiff out -psm 7 tess.conf Tesseract Open Source OCR Engine v3.01 with Leptonica Page 0 %
認識結果は、out.txt に書かれています。
% cat out.txt 9784798032313 %
んー素晴らしい。