OCRcleanerマニュアル
OCR処理などで誤字脱字がテキストファイル中に存在し、それを修正するためのソフトウェアです。
左側に変換元のPDFを表示し、右側に修正をするテキストを表示します。
テキスト中の誤字と思われる箇所を赤字で強調します。
誤りである可能性もありますが、赤字を中心に見て作業をすることにより作業スピードが向上すると考えます。
左右のPDFとテキストを見比べ、修正箇所を見つけた場合その箇所をマウスで範囲選択します。
範囲選択後画面上部にテキストボックスが表示されるので、テキストを入力してください。
範囲選択されたテキストがファイル中に複数存在する場合、同時に修正されます。
間違えた箇所を修正した、戻したといった場合は「Ctlキー + zキー」を押してください
5回までの変更を巻き戻すことができます。
作業終了後は画面最下部にある終了ボタンを押してください。自動的に次のファイルが表示
されます。
動作環境
・windows10
・JupiterNoteBookインストール
未インストールの場合以下からDL
https://jupyter.org/
・形態素解析エンジン MeCabを使用可能にすること
以下を参考に導入
https://qiita.com/menon/items/f041b7c46543f38f78f7
・Chormeブラウザ
このソフトはローカルサーバを建てそこで動作するものです。
1.そのためまずはサーバを建てるためのBatファイルを編集します。
「pkl」フォルダ内の「server.bat」をメモ帳などで編集可能な状態にしてください。
1行目の「call C:\ProgramData\Anaconda3\Scripts\activate.bat」を
お使いのpcに導入されているAnaconda3フォルダ内のactivate.batまでのフルパスをコピーし貼り付けしてください。
2.anaconda promptにおいて本ソフトで使うモジュールのインストールを行います
anaconda promptを起動し、
「pip install -U pip」 pipのupdate
「pip install chardet」chardet install
「pip install pandas」 pandas install
「pip install jaconv」jaconv install
「pip install html」html install
と入力してください。コピペで貼り付けでも可能です。
3.work/pre_workフォルダに作業をしたいテキストとPDFのペアを入れる
この時、テキストとPDFは拡張子を除き同名としてください。
4. 起動
1.で編集した「server.bat」をダブルクリックしてchorme起動後画面に表示されましたら成功です。