2019年01月03日

Program List OCR 1.3.0 リリース

あけましておめでとうございます。

新年一発目は小粒ですが、Program List OCR 1.3.0のリリースです。
ユーザーの方から一部のフォントで読み取り精度が悪いという報告をいただいており、フォントをいくつか追加して学習をやり直しています。
3と5の誤認識が減っていると思います。
また、学習用のマシンを最新機種に買い替えたので、より学習回数を多く回しています。
学習データに対するエラーレートは下がっていますが、過学習を起こしている可能性は否定できないので、以前より悪くなるケースもあるかと思います。
その場合は旧バージョンに戻すなど、自分のユースケースで一番精度が出るバージョンをお使いください。
そのバージョンを使ってもバグらしいバグはありません。

ダウンロードはこちらからお願いします。

【更新履歴】
1.3.0 2019/1/1
・学習するフォントを追加
posted by eighttails at 01:01| Comment(0) | Program List OCR | このブログの読者になる | 更新情報をチェックする

2018年11月10日

Program List OCR 1.2.0リリース

Program List OCR 1.2.0のリリースです。
長らくアルファ、ベータ版だったTesseract4.0.0が正式版になりましたので、そちらを使ってリビルドしたものになります。
また、プリンタによっては文字の間隔が広めに出力されるものがあり、そういったパターンに対応できるよう学習データのバリエーションを増やしてみましたが、あまり大きな効果は得られませんでした。

ダウンロードはこちらからお願いします。

【更新履歴】
1.2.0 2018/11/10
  • Tesseract4.0.0,gImageReader3.0.0の正式版に更新
  • 学習データ生成方法の見直し
    • 文字間隔が多少開いていても読めるように学習。
posted by eighttails at 14:39| Comment(1) | Program List OCR | このブログの読者になる | 更新情報をチェックする

2018年06月10日

Program List OCR 1.1.0リリース

Program List OCR 1.1.0のリリースです。
内容はベースとなるTesseractとgImageReaderプログラム本体の更新とOCRの学習済みモデルデータの更新です。

OCRを学習させるための画像を作る際、滲んで文字が太ったケース、かすれて文字が痩せたケース両方のパターンを生成して学習させるのですが、実際のプログラムリストはかすれたケースのほうが圧倒的に多いということで、かすれた文字にフォーカスを移して学習させています。
また、前回のリリースではPiO掲載のBASICリストで3を8と誤認識するケースが頻発したため、PiOのプログラムリストの印字に類似したフォントを作成して学習させています。
全体として認識精度は向上したと思いますが、ユースケースによって逆に精度が悪化するなどのトレードオフがあるかもしれません。
その場合は前のバージョンに戻して使い続けるけるのも1つの方法です。

また今回から64ビット版を提供しています。こちらのほうが処理が高速です。多分。
ダウンロードはこちらからお願いします。

【更新履歴】
1.1.0 2018/06/07
  • Tesseract,gImageReaderを更新

  • 学習データ生成方法の見直し

    • にじんだ文字よりかすれた文字を優先して学習するよう画像を生成。

    • 実際のプログラムリストの印刷状態に近づくよう、行間を密着させた画像を生成。

    • DotMatrixフォントを学習から除外(文字が薄くなりすぎて学習エラーになるため)

    • PiOのプログラムリストの印字に類似したフォントを作成して学習

posted by eighttails at 14:25| Comment(0) | Program List OCR | このブログの読者になる | 更新情報をチェックする