2018年11月10日

Program List OCR 1.2.0リリース

Program List OCR 1.2.0のリリースです。
長らくアルファ、ベータ版だったTesseract4.0.0が正式版になりましたので、そちらを使ってリビルドしたものになります。
また、プリンタによっては文字の間隔が広めに出力されるものがあり、そういったパターンに対応できるよう学習データのバリエーションを増やしてみましたが、あまり大きな効果は得られませんでした。

ダウンロードはこちらからお願いします。

【更新履歴】
1.2.0 2018/11/10
  • Tesseract4.0.0,gImageReader3.0.0の正式版に更新
  • 学習データ生成方法の見直し
    • 文字間隔が多少開いていても読めるように学習。
posted by eighttails at 14:39| Comment(1) | Program List OCR | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
PC-8001発掘隊というサイトにリストを提供していた時期があったのですがOCR利用の結果は思わしくなくBASICに関してはほぼ一行ずつ直す感じでした。
PC-6001用とのことでしたがProgram List OCRをざっと使用してみたところ識字率は桁違いに良いです。グラフィック文字の誤認識や斜線の無いゼロのリストだとオーや丸と間違えることが多いですがこれは守備範囲外ですから。
マシン語は文字種を限るためさらに良いです。ただ用意した画像の問題かも知れませんが3(上がまっすぐの)を5と間違えることがありました。
あの当時に出会えていれば…という思いでいっぱいです。素晴らしいソフトをありがとうございます。
Posted by m.shinohara at 2018年12月06日 12:06
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

※ブログオーナーが承認したコメントのみ表示されます。