zh_tok_tagger

chinese tokenizer and POS tagger based on statistical machine translation

$ ./toktagger.py -t tgt_data/sbc4/toktag.phrasetable.h5 -l tgt_data/sbc4/tag.blm -f verbose <<< 我下週要去旅行
我下週要去旅行	我 下 週 要 去 旅行	Nh Nes Nf D D VA	Nh + Nes Nf + D D VA	-36.222996470898366
$ cat infiles | ./toktagger.py -t tgt_data/sbc4/toktag.phrasetable.h5 -l tgt_data/sbc4/tag.blm > outfile

usage

./toktagger.py --help
usage: toktagger.py [-h] --translation-model H5_FILE_PATH --language-model
                    KENLM_BLM_PATH [--format {verbose,tab,/}]
                    [FILE [FILE ...]]

Chinese tokenzier and Part-Of-Speech tagger.

positional arguments:
  FILE                  input file(text in chinese)

optional arguments:
  -h, --help            show this help message and exit
  --translation-model H5_FILE_PATH, -t H5_FILE_PATH
                        Pytables Phrase Table
  --language-model KENLM_BLM_PATH, -l KENLM_BLM_PATH
                        KenLM BLM
  --format {verbose,tab,/}, -f {verbose,tab,/}
                        output format

Name		Name	Last commit message	Last commit date
Latest commit History 74 Commits
Collocation_syntax		Collocation_syntax
smttoktag		smttoktag
.gitignore		.gitignore
README.org		README.org
fbis_tasks.py		fbis_tasks.py
gentask.py		gentask.py
gentask_giza.py		gentask_giza.py
gentask_pattern.py		gentask_pattern.py
gentask_spg.py		gentask_spg.py
lm_tm_luigi.py		lm_tm_luigi.py
luigi.cfg		luigi.cfg
medal_tasks.py		medal_tasks.py
movie_sub_task.py		movie_sub_task.py
pattern.pretty.jq		pattern.pretty.jq
requirements.txt		requirements.txt
sbc4_10fold_zhtag_tasks.py		sbc4_10fold_zhtag_tasks.py
sbc4_tm_lm_tasks.py		sbc4_tm_lm_tasks.py
spg.en2en.jq		spg.en2en.jq
spg.filter.jq		spg.filter.jq
spg.filter2.jq		spg.filter2.jq
spg.flatten.sh		spg.flatten.sh
tasks.py		tasks.py
template.gizacfg		template.gizacfg

d2207197/smttoktag

Folders and files

Latest commit

History

Repository files navigation

zh_tok_tagger

usage

About

Resources

Stars

Watchers

Forks

Languages