Python TaggedCorpusReader.tagged_words 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: nltk.corpus

클래스/타입: TaggedCorpusReader

메소드/함수: tagged_words

hotexamples.com에서의 예제들: 2

Python TaggedCorpusReader.tagged_words - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 nltk.corpus.TaggedCorpusReader.tagged_words에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

TaggedCorpusReader(9)

tagged_sents(7)

sents(3)

tagged_words(2)

fileids(1)

예제 #1

파일 보기

파일: freq_pos.py 프로젝트: rueshyna/Taipei.py_20130425

#!/usr/bin/env python
# -*- coding: utf-8

from nltk.probability import ConditionalFreqDist
from nltk.corpus import TaggedCorpusReader
from nltk.tag import simplify

FIRST = 0
END = 150
POS = "V"
#POS = "N"
#POS = "ADJ"

corpus_root = './data'
fileids = 'tagged_sent'

corpus = TaggedCorpusReader(corpus_root,
    fileids,
    encoding='utf-8')

processing = [(simplify.simplify_wsj_tag(tag), word.lower()) for (word, tag) in corpus.tagged_words()]
cfd_corpus = ConditionalFreqDist(processing)

for term,freq in cfd_corpus[POS].items():
  print term.encode("utf-8"),freq

예제 #2

파일 보기

파일: score_corpus.py 프로젝트: dlaz/gmail-corpus

from gmail_corpus.nltk_util.bigram_score import make_score_dict, save_score_dict
from nltk.corpus import TaggedCorpusReader
import numpy as np
from glob import glob
import os, sys

if __name__ == '__main__':
	corpus_path = sys.argv[1]
	# remove empty files
	files = glob('%s/*.txt' % corpus_path)
	for f in files:
		if os.path.getsize(f) == 0:
			os.remove(f)
			print 'Removed empty file %s' % f

	corpus = TaggedCorpusReader(corpus_path, '.*\.txt')
	score_dict = make_score_dict(corpus.tagged_words())
	save_score_dict(score_dict, 'bigram_scores.pkl')
	print 'saved bigram_scores.pkl'