Python PennTreebankTokenizer 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: stat_parser.tokenizer

hotexamples.com에서의 예제들: 4

Python PennTreebankTokenizer - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 stat_parser.tokenizer.PennTreebankTokenizer에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

PennTreebankTokenizer(2)

tokenize(2)

예제 #1

파일 보기

    def __init__(self, pcfg=None):
        if pcfg is None:
            pcfg = build_model()

        self.pcfg = pcfg
        self.tokenizer = PennTreebankTokenizer()

        if nltk_is_available:
            self.parse = self.nltk_parse
        else:
            self.parse = self.raw_parse

예제 #2

파일 보기

파일: parser.py 프로젝트: atlonxp/Elearning-1

class Parser(object):
    def __init__(self, pcfg=None):
        if pcfg is None:
            pcfg = build_model()
        
        self.pcfg = pcfg
        self.tokenizer = PennTreebankTokenizer()
        
        if nltk_is_available:
            self.parse = self.nltk_parse
        else:
            self.parse = self.raw_parse
    
    def norm_parse(self, sentence):
        words = self.tokenizer.tokenize(sentence)
        if is_cap_word(words[0]):
            words[0] = words[0].lower()
        
        norm_words = []
        for word in words:
            if isinstance(word, tuple):
                # This is already a word normalized to the Treebank conventions
                norm_words.append(word)
            else:
                # rare words normalization
                norm_words.append((self.pcfg.norm_word(word), word))
        return CKY(self.pcfg, norm_words)
    
    def raw_parse(self, sentence):
        tree = self.norm_parse(sentence)
        un_chomsky_normal_form(tree)
        return tree
    
    def nltk_parse(self, sentence):
        return nltk_tree(self.raw_parse(sentence))

예제 #3

파일 보기

파일: parser.py 프로젝트: joshstclair/pyStatParser

 def __init__(self, pcfg=None):
     if pcfg is None:
         pcfg = build_model()
     
     self.pcfg = pcfg
     self.tokenizer = PennTreebankTokenizer()
     
     if nltk_is_available:
         self.parse = self.nltk_parse
     else:
         self.parse = self.raw_parse

예제 #4

파일 보기

 def tokenize_for_parsing(string):
     tokenizer = PennTreebankTokenizer()
     return tokenizer.tokenize(string)