Skip to content

Hiroki-change/cleaner

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

cleaner

OCRcleanerマニュアル

このソフトについて

OCR処理などで誤字脱字がテキストファイル中に存在し、それを修正するためのソフトウェアです。
左側に変換元のPDFを表示し、右側に修正をするテキストを表示します。
テキスト中の誤字と思われる箇所を赤字で強調します。
誤りである可能性もありますが、赤字を中心に見て作業をすることにより作業スピードが向上すると考えます。

操作方法

左右のPDFとテキストを見比べ、修正箇所を見つけた場合その箇所をマウスで範囲選択します。
範囲選択後画面上部にテキストボックスが表示されるので、テキストを入力してください。
範囲選択されたテキストがファイル中に複数存在する場合、同時に修正されます。
間違えた箇所を修正した、戻したといった場合は「Ctlキー + zキー」を押してください
5回までの変更を巻き戻すことができます。
作業終了後は画面最下部にある終了ボタンを押してください。自動的に次のファイルが表示
されます。

環境設定

動作環境 ・windows10
・JupiterNoteBookインストール
 未インストールの場合以下からDL
 https://jupyter.org/
・形態素解析エンジン MeCabを使用可能にすること
  以下を参考に導入
  https://qiita.com/menon/items/f041b7c46543f38f78f7
・Chormeブラウザ

このソフトはローカルサーバを建てそこで動作するものです。
1.そのためまずはサーバを建てるためのBatファイルを編集します。
  「pkl」フォルダ内の「server.bat」をメモ帳などで編集可能な状態にしてください。
  1行目の「call C:\ProgramData\Anaconda3\Scripts\activate.bat」を
  お使いのpcに導入されているAnaconda3フォルダ内のactivate.batまでのフルパスをコピーし貼り付けしてください。

2.anaconda promptにおいて本ソフトで使うモジュールのインストールを行います
  anaconda promptを起動し、
  「pip install -U pip」 pipのupdate
  「pip install chardet」chardet install
  「pip install pandas」 pandas install
  「pip install jaconv」jaconv install
  「pip install html」html install
 と入力してください。コピペで貼り付けでも可能です。

3.work/pre_workフォルダに作業をしたいテキストとPDFのペアを入れる
  この時、テキストとPDFは拡張子を除き同名としてください。
4. 起動
   1.で編集した「server.bat」をダブルクリックしてchorme起動後画面に表示されましたら成功です。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published