Python TreebankWordTokenizer.tokenize_sents 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: nltk.tokenize.treebank

메소드/함수: tokenize_sents

hotexamples.com에서의 예제들: 5

Python TreebankWordTokenizer.tokenize_sents - 5개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 nltk.tokenize.treebank.TreebankWordTokenizer.tokenize_sents에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

TreebankWordTokenizer(30)

tokenize(30)

span_tokenize(6)

tokenize_sents(2)

__init__(1)

fit_on_texts(1)

texts_to_sequences(1)

예제 #1

파일 보기

 def tokenize(self, text: str):
     """
     :rtype: list
     :param text: text to be tokenized into sentences
     :type text: str
     """
     sents = self.sent_tokenizer.tokenize(text)
     tokenizer = TreebankWordTokenizer()
     return [item for sublist in tokenizer.tokenize_sents(sents) for item in sublist]

예제 #2

파일 보기

파일: word.py 프로젝트: cltk/cltk

 def tokenize(self, text: str):
     """
     :rtype: list
     :param text: text to be tokenized into sentences
     :type text: str
     """
     sents = self.sent_tokenizer.tokenize(text)
     tokenizer = TreebankWordTokenizer()
     return [item for sublist in tokenizer.tokenize_sents(sents) for item in sublist]

예제 #3

파일 보기

 def tokenize(self, text: str):
     """
     :rtype: list
     :param text: text to be tokenized into sentences
     :type text: str
     :param model: tokenizer object to used # Should be in init?
     :type model: object
     """
     sents = self.sent_tokenizer.tokenize(text)
     tokenizer = TreebankWordTokenizer()
     return [item for sublist in tokenizer.tokenize_sents(sents) for item in sublist]

예제 #4

파일 보기

파일: word.py 프로젝트: cltk/cltk

 def tokenize(self, text: str):
     """
     :rtype: list
     :param text: text to be tokenized into sentences
     :type text: str
     :param model: tokenizer object to used # Should be in init?
     :type model: object
     """
     sents = self.sent_tokenizer.tokenize(text)
     tokenizer = TreebankWordTokenizer()
     return [item for sublist in tokenizer.tokenize_sents(sents) for item in sublist]

예제 #5

파일 보기

파일: word.py 프로젝트: cltk/cltk

    def tokenize(self, text: str, split_enclitics:list = ['ne', 'n', 'que', 've', 'ue', 'st'],
                                  split_words:list = []):
        """
        :rtype: list
        :param text: text to be tokenized into sentences
        :type text: str
        :param model: tokenizer object to used # Should be in init?
        :type model: object
        """
        if self._latin_replacements:
            split_words = self._latin_replacements

        if split_words:
            text = self._replace_patterns(text, split_words)
        sents = self.sent_tokenizer.tokenize(text)
        if split_enclitics:
            sents = self._split_enclitics(sents, split_enclitics)
        tokenizer = TreebankWordTokenizer()
        return [item for sublist in tokenizer.tokenize_sents(sents) for item in sublist]