Twitterではちょくちょく進捗をチラ見せしていたOCRソフトをリリースします。
名付けて「Program List OCR」(そのまんま)
いままではこちらの記事にあるように市販のOCRでP6プログラムの打ち込みをしていましたが、あまりに認識精度と作業効率が良くないので、プログラム打ち込みに特化したOCRを自作することにしました。
自作と言っても、以下のオープンソースソフトウェアの組み合わせです。
Tesseract(OCRエンジン)
gImageReader(GUIフロントエンド)
上記に加えて、独自にOCRに学習させて作成した以下の言語ファイルを含んでいます。
BASIC(PC-6001シリーズ用N6X-Basic)
16進ダンプリスト
BASIC言語に関しては、フォントや単語、かなやグラフィック文字の仕様などPC-6001に合わせて言語ファイルを作ってありますので、他機種のプログラムをそのまま読み込むのは難しいと思われますが、MS系のBASICで英数字のみに割り切ればもしかしたら読めるかもしれません。(MSXのフォントも学習に使っていたりします)
ダンプリストの方はBASICよりは汎用的に使えると思います。こちらは読み取り精度向上のため、16進数+α(0-9,A-F,Sum)以外の文字は使われていないという前提で読み込むようになっています。
ダウンロードはこちらのページからお願いします。
ダウンロードしたらぜひぜひプログラムを打ち込んで報告してください。
本ソフトはまだ開発版のTesseract4.0をベースに構成されています。このバージョンはまだバグが多く、安定するにはもう少し期間を要すると予想されます。
また、読み取りできるプログラムリストは紙面の状態や印字に使われているプリンタ、フォントによりかなり相性があります。その点は割り切ってご利用をお願いします。
また、読み取りできるプログラムリストは紙面の状態や印字に使われているプリンタ、フォントによりかなり相性があります。その点は割り切ってご利用をお願いします。
Oh!FM-7というサイトを運営しています、Laverと申します。
Program List OCRを使わせていただきました。
これはすごいですね。
プログラムポシェットのショートプログラム3本で試してみたのですが、かなりの精度で読み取ってくれました。FM-7用プログラムでも問題ないということですね。
詳しくはブログのほうにも書きましたので、ご参照いただければと思います。
http://fm-7.com/blog/archives/268
これから、いろいろなリストで試して検証してみたいと考えています。
とても有益なソフトをありがとうございました。