Python ChunkedCorpusReader 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: nltk.corpus.reader

클래스/타입: ChunkedCorpusReader

hotexamples.com에서의 예제들: 17

Python ChunkedCorpusReader - 17개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 nltk.corpus.reader.ChunkedCorpusReader에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

ChunkedCorpusReader(3)

chunked_words(3)

chunked_paras(2)

chunked_sents(2)

tagged_paras(2)

tagged_sents(2)

tagged_words(2)

__init__(1)

chunked_para(1)

iob_sents(1)

iob_words(1)

paras(1)

raw(1)

sents(1)

words(1)

예제 #1

파일 보기

파일: MessageTokenizer.py 프로젝트: JCarri14/ScrapingLS-v1

    def readCorpusList(self):
        reader = ChunkedCorpusReader('C:/nltk_data/corpora/cookbook',
                                     r'.*\.chunk')

        for chunk in reader.chunked_words():
            try:
                print(chunk.leaves())
            except:
                print(chunk)

예제 #2

파일 보기

 def chunked_paras(self, fileids=None, categories=None):
     return ChunkedCorpusReader.chunked_paras(
         self, self._resolve(fileids, categories))

예제 #3

파일 보기

 def tagged_sents(self, fileids=None, categories=None):
     return ChunkedCorpusReader.tagged_sents(
         self, self._resolve(fileids, categories))

예제 #4

파일 보기

 def words(self, fileids=None, categories=None):
     return ChunkedCorpusReader.words(self,
                                      self._resolve(fileids, categories))

예제 #5

파일 보기

 def __init__(self, *args, **kwargs):
     CategorizedCorpusReader.__init__(self, kwargs)
     ChunkedCorpusReader.__init__(self, *args, **kwargs)

예제 #6

파일 보기

파일: catchunked.py 프로젝트: andacsafa/nltk_book

 def sents(self, fileids=None, categories=None):
     return ChunkedCorpusReader.sents(self,
                                      self_resolve(fileids, categories))

예제 #7

파일 보기

파일: NLTK-corpora.py 프로젝트: atulkakrana/Data-Analytics

                            tagset='en-brown')
reader1 = TaggedCorpusReader('/Users/atul/nltk_data',
                             r'brown.pos',
                             word_tokenizer=SpaceTokenizer())

print(reader.words())
print(reader.sents())
print(reader.tagged_words())
print(reader.tagged_sents())
print(
    reader.tagged_words(tagset='universal')
)  ## Mapping tags to universal format, if tagset is not correct every TAG will have UNK

## Reading chunk corpora #######
reader = ChunkedCorpusReader('/Users/atul/nltk_data',
                             r'treebank.chunk',
                             tagset='en-brown')
print(reader.chunked_words())  ## Word level structure
print(reader.chunked_sents())  ## Sentence level structure
print(reader.chunked_paras())  ## Paragraph level structure

## Reading classifed corpora ##################
## classification extracted using cat_pattern (from file name), or cat_dict or cat_file ######
from nltk.corpus.reader import CategorizedPlaintextCorpusReader

reader = CategorizedPlaintextCorpusReader(
    '/Users/atul/nltk_data', r'movie_.*\.txt', cat_pattern=r'movie_(\w+)\.txt'
)  ## Easiest is to read files for different category
reader.categories()
reader.fileids(categories=['neg'])
reader.fileids(categories=['pos'])

예제 #8

파일 보기

파일: catchunked.py 프로젝트: andacsafa/nltk_book

 def tagged_sents(self, fileids=None, categories=None):
     return ChunkedCorpusReader.tagged_sents(self,self_resolve(fileids,
         categories))

예제 #9

파일 보기

파일: catchunked.py 프로젝트: RomanZacharia/python_text_processing_w_nltk2_cookbook

	def chunked_paras(self, fileids=None, categories=None):
		return ChunkedCorpusReader.chunked_paras(
			self, self._resolve(fileids, categories))

예제 #10

파일 보기

파일: catchunked.py 프로젝트: RomanZacharia/python_text_processing_w_nltk2_cookbook

	def tagged_paras(self, fileids=None, categories=None, simplify_tags=False):
		return ChunkedCorpusReader.tagged_paras(
			self, self._resolve(fileids, categories), simplify_tags)

예제 #11

파일 보기

파일: catchunked.py 프로젝트: RomanZacharia/python_text_processing_w_nltk2_cookbook

	def sents(self, fileids=None, categories=None):
		return ChunkedCorpusReader.sents(self, self._resolve(fileids, categories))

예제 #12

파일 보기

파일: tutCorpusReader03.py 프로젝트: bindaasamit/pycode

########## CHUNKED CORPUS READER ###############

###Implementing CCR
from nltk.corpus.reader import ChunkedCorpusReader
root="C:\\Users\\Matrix\\AppData\\Roaming\\nltk_data\\corpora\\cookbook\\"

reader=ChunkedCorpusReader(root,r'.*\.chunk')
#Each chunk-represented in braces is considered as a word
print reader.chunked_words()
#Each sentence will be included in a Tree()
print reader.chunked_sents()
print reader.chunked_paras()

#Getting tagged tokens for each chunk (each chunk is a word but each word is not a chunk)
print reader.chunked_words()[0].leaves()
print reader.chunked_sents()[1].leaves()
#Cant apply leaves directly to a para - but we can access a sentence of a given para.
print reader.chunked_para()[0][0].leaves()
###Implementing CCCR
from nltk.corpus.reader import ConllChunkCorpusReader
root="C:\\Users\\Matrix\\AppData\\Roaming\\nltk_data\\corpora\\cookbook\\"

reader=ConllChunkCorpusReader(root,r'.*\.iob',('NP','VP'.'PP'))
print reader.chunked_words()
print reader.chunked_sents()
print reader.iob_words()
print reader.iob_sents()

예제 #13

파일 보기

from nltk.corpus.reader import ChunkedCorpusReader
from nltk.tokenize import SpaceTokenizer
import nltk

d = nltk.data.find('corpora/cookbook')
reader = ChunkedCorpusReader(d, r'.*\.chunk')
print(reader.chunked_words())
print(reader.chunked_sents())
print(reader.chunked_paras())

# reader.chunked_sents()[0].draw()
print(reader.chunked_sents()[0].leaves())

예제 #14

파일 보기

파일: makeModels.py 프로젝트: tccorcoran/intent-recognition

def createChunker():
    chunks = ChunkedCorpusReader('data/chunks/','text_search.pos')
    tagger_classes = [UnigramTagger, BigramTagger]
    train_chunks = chunks.chunked_sents()
    chunker = TagChunker(train_chunks, tagger_classes)
    return chunker

예제 #15

파일 보기

파일: BguCorpusReader.py 프로젝트: jedimonster/nlp

 def __init__(self, directory="",fileids=r"haaretz.bgu",myEncoding="utf-8"):
     ChunkedCorpusReader.__init__(self, directory ,fileids , str2chunktree=self.__str2BguTree,sent_tokenizer=RegexpTokenizer('\n\n', gaps=True),encoding=myEncoding)
     self._format = format

예제 #16

파일 보기

파일: catchunked.py 프로젝트: RomanZacharia/python_text_processing_w_nltk2_cookbook

	def __init__(self, *args, **kwargs):
		CategorizedCorpusReader.__init__(self, kwargs)
		ChunkedCorpusReader.__init__(self, *args, **kwargs)

예제 #17

파일 보기

 def tagged_paras(self, fileids=None, categories=None, simplify_tags=False):
     return ChunkedCorpusReader.tagged_paras(
         self, self._resolve(fileids, categories), simplify_tags)