Python WordListCorpusReader.chunked_paras示例

编程语言: Python

命名空间/包名称: nltk.corpus.reader

方法/功能: chunked_paras

hotexamples.com的示例: 1

Python WordListCorpusReader.chunked_paras - 已找到1个示例。这些是从开源项目中提取的最受好评的nltk.corpus.reader.WordListCorpusReader.chunked_paras现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

WordListCorpusReader(19)

words(14)

fileids(4)

raw(3)

categories(1)

chunked_paras(1)

chunked_sents(1)

chunked_words(1)

paras(1)

sents(1)

tagged_paras(1)

tagged_sents(1)

tagged_words(1)

示例#1

显示文件

文件： custom_corpus_creation.py 项目： IHI-Zittau/pdm_research_python

''' different Tokenizer - works? '''
from nltk.tokenize import SpaceTokenizer
reader = TaggedCorpusReader(path + '/corpora/cookbook/', r'.*\.pos',word_tokenizer=SpaceTokenizer())
reader.words()

''' different Sentence Tokenizer '''
from nltk.tokenize import LineTokenizer
reader = TaggedCorpusReader(path + '/corpora/cookbook/', r'.*\.pos', sent_tokenizer=LineTokenizer())
reader.sents()

''' chunked Corpus Reader '''
from nltk.corpus.reader import ChunkedCorpusReader
reader = ChunkedCorpusReader(path + '/corpora/cookbook/', r'.*\.chunk')
reader.chunked_words()
reader.chunked_sents()
reader.chunked_paras()

''' draw tree '''
reader.chunked_sents()[0].draw()

''' get leaves '''
reader.chunked_words()[0].leaves()
reader.chunked_sents()[0].leaves()
reader.chunked_paras()[0][0].leaves()

''' categorized corpus '''
from nltk.corpus import brown
brown.categories()

from nltk.corpus.reader import CategorizedPlaintextCorpusReader
reader = CategorizedPlaintextCorpusReader(path + '/corpora/cookbook/', r'movie_.*\.txt', cat_pattern=r'movie_(\w+)\.txt')