Skip to content
This repository has been archived by the owner on Sep 12, 2020. It is now read-only.

shirayu/eijiro-preprocessor

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

#英辞郎プリプロセッサ

このソフトウェアについて

  • 英辞郎を計算機処理しやすい形式に変換するツール
  • 英辞郎 version.134で検証

使い方

convert.pyに,英辞郎のファイル名と,出力ファイルのプレフィックスを与えるだけです.

mkdir outfolder
python convert.py -i  ~/EIJI-134.TXT -o ./outfolder/eijiro.134.

すると次のようなファイルができます.

  • eijiro.134.word.jsons
  • eijiro.134.phrase.jsons

さらなる後処理が必要ならば, MeCabモジュールとnltkモジュールをインストールした後,

python filter.py -i  ./outfolder/eijiro.134.phrase.jsons -o ./outfolder/eijiro.134.phrase.2

とすることで,eijiro.134.phrase.2.jsonsという後処理済みファイルができます. eijiro.134.phrase.2.excluded.jsonsは除外された行が記録されています.

なお,出力される.jsonsというファイルには,1行ごとにJSONオブジェクトが書かれています.

ライセンス

  • GPL v3
  • Yuta Hayashibe

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages