tesseract で OCR 入門

tesseract とは

Googleで開発されているOCRエンジンです。(http://code.google.com/p/tesseract-ocr/)

とある所要で数字画像の認識エンジンが欲しくなったので、使ってみました。

インストール

ports で一発インストール。

# cd /usr/ports/graphics/tesseract/
# make instal clean

Mac なら brewで一発インストール。

% brew install tesseract

使ってみる

今回は、数字に限定して認識したかったので、文字種を0-9だけにすることで認識率を上げてみます。

準備するもの

  • 数字の写真

というわけで、とりあえず元素材をぱしゃり。

f:id:yizawa:20120424124504j:plain

これを Preview の画像cropを使って、切り取ります。

f:id:yizawa:20120424135138j:plain

number.jpg という名前で保存しました。

tiff に変換する

今回は、ImageMagickで変換します。

% convert number.jpg number.tiff

設定ファイルを作る

以下を、tess.conf として保存します。

tessedit_char_whitelist 0123456789

認識させてみる

では実際に、認識させてみます。今回の元画像は一行のテキストなので、psm で 7 を指定しています。

% tesseract number.tiff out -psm 7 tess.conf
Tesseract Open Source OCR Engine v3.01 with Leptonica
Page 0
%

認識結果は、out.txt に書かれています。

% cat out.txt
9784798032313

% 

んー素晴らしい。