Program List OCR 1.1.0のリリースです。
内容はベースとなるTesseractとgImageReaderプログラム本体の更新とOCRの学習済みモデルデータの更新です。
OCRを学習させるための画像を作る際、滲んで文字が太ったケース、かすれて文字が痩せたケース両方のパターンを生成して学習させるのですが、実際のプログラムリストはかすれたケースのほうが圧倒的に多いということで、かすれた文字にフォーカスを移して学習させています。
また、前回のリリースではPiO掲載のBASICリストで3を8と誤認識するケースが頻発したため、PiOのプログラムリストの印字に類似したフォントを作成して学習させています。
全体として認識精度は向上したと思いますが、ユースケースによって逆に精度が悪化するなどのトレードオフがあるかもしれません。
その場合は前のバージョンに戻して使い続けるけるのも1つの方法です。
また今回から64ビット版を提供しています。こちらのほうが処理が高速です。多分。
ダウンロードはこちらからお願いします。
【更新履歴】
1.1.0 2018/06/07
Tesseract,gImageReaderを更新
学習データ生成方法の見直し
にじんだ文字よりかすれた文字を優先して学習するよう画像を生成。
実際のプログラムリストの印刷状態に近づくよう、行間を密着させた画像を生成。
DotMatrixフォントを学習から除外(文字が薄くなりすぎて学習エラーになるため)
- PiOのプログラムリストの印字に類似したフォントを作成して学習