Program List OCR 1.7.3のリリースです。
特に何が変わったというわけではないのですが、Tesseract5.3およびgImageReader3.4.1が正式版になったのでその区切りをつける意味での安定版リリースです。
Qt6を使っている関係上、PC6001VXと同様、64ビット版のみのリリースとなります。
ダウンロードはこちらからお願いします。
ダウンロードはこちらからお願いします。
【更新履歴】
1.7.3 2023/01/31
- Tesseract5.3.0, gImageReader3.4.1の正式版に更新
使用してみて気になったことが2つあります。
1つ目はOUTPUTウインドウにあるSAVE outputでテキストファイルを書き出すと改行が標準のCR+LFではなくイレギュラーのLFになることです。
2つ目は文字コードの&HA0-&HDFの1バイト系ANKカタカナ文字が2バイト系全角カタカナで出力されることです。
PC-6001だけのことを考えてTXT2BASでP6テープイメージに変換すればどちらも同じカタカナ文字になるので問題はありませんが、N88-BASIC等で1バイト系ANKカタカナ文字で直接扱う場合はすべて入力をやり直す必要があります。
1バイト系ANKカタカナ文字をWindowsで扱うことは文字化けのリスクがありますが設定でどちらか一方の出力に切り替えできるよう改善していただけるありがたいです。
Program List OCRは独自に作った部分はBASIC、ダンプリスト読み込みのための言語モデルの学習だけで、文字認識部分はTesseract,GUI部分はgImageReaderというオープンソースのツールをそのまま組み込んでいるだけです。
UNIX由来のツールなので、内部的に改行コードはLF,文字コードはUnicodeになっています。
なので既製のツールの機能部分に手を入れて特定のレトロPC向けエンコーディングを組み込むというのはかなり難しいです。
書き出されたテキストファイルを所定のエンコーディングルールに変換するツールを別に作るほうがまだ現実的ではないかと思います。