Python PlaintextCorpusReader.categories示例

编程语言: Python

命名空间/包名称: nltk.corpus.reader

方法/功能: categories

hotexamples.com的示例: 1

Python PlaintextCorpusReader.categories - 已找到1个示例。这些是从开源项目中提取的最受好评的nltk.corpus.reader.PlaintextCorpusReader.categories现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

PlaintextCorpusReader(18)

fileids(9)

raw(6)

sents(5)

words(4)

__init__(3)

paras(2)

categories(1)

chunked_paras(1)

chunked_sents(1)

chunked_words(1)

ensure_loaded(1)

tagged_paras(1)

tagged_sents(1)

tagged_words(1)

示例#1

显示文件

文件： NLTK-corpora.py 项目： atulkakrana/Data-Analytics

                             r'brown.pos',
                             word_tokenizer=SpaceTokenizer())

print(reader.words())
print(reader.sents())
print(reader.tagged_words())
print(reader.tagged_sents())
print(
    reader.tagged_words(tagset='universal')
)  ## Mapping tags to universal format, if tagset is not correct every TAG will have UNK

## Reading chunk corpora #######
reader = ChunkedCorpusReader('/Users/atul/nltk_data',
                             r'treebank.chunk',
                             tagset='en-brown')
print(reader.chunked_words())  ## Word level structure
print(reader.chunked_sents())  ## Sentence level structure
print(reader.chunked_paras())  ## Paragraph level structure

## Reading classifed corpora ##################
## classification extracted using cat_pattern (from file name), or cat_dict or cat_file ######
from nltk.corpus.reader import CategorizedPlaintextCorpusReader

reader = CategorizedPlaintextCorpusReader(
    '/Users/atul/nltk_data', r'movie_.*\.txt', cat_pattern=r'movie_(\w+)\.txt'
)  ## Easiest is to read files for different category
reader.categories()
reader.fileids(categories=['neg'])
reader.fileids(categories=['pos'])
reader.fileids()