Python nltk_tokenize_words 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: cltk.tokenize.word

메소드/함수: nltk_tokenize_words

hotexamples.com에서의 예제들: 12

Python nltk_tokenize_words - 12개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 cltk.tokenize.word.nltk_tokenize_words에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

 def test_sanskrit_nltk_tokenize_words(self):
     """Test wrapper for NLTK's PunktLanguageVars()"""
     tokens = nltk_tokenize_words("कृपया।",
                                  attached_period=False,
                                  language='sanskrit')
     target = ['कृपया', '।']
     self.assertEqual(tokens, target)

예제 #2

파일 보기

 def test_sanskrit_nltk_tokenize_words_attached(self):
     """Test wrapper for NLTK's PunktLanguageVars(), returning unaltered output."""
     tokens = nltk_tokenize_words("कृपया।",
                                  attached_period=True,
                                  language='sanskrit')
     target = ['कृपया।']
     self.assertEqual(tokens, target)

예제 #3

파일 보기

파일: cltk.py 프로젝트: thePortus/dhelp

    def tokenize(self, mode='word'):
        """Tokenizes the passage into lists of words or sentences.

        Breaks text words into individual tokens (strings) by default. If
        mode is set to sentence, returns lists of sentences.

        Args:
            mode (:obj:`str`) Mode of tokenization, either 'word' or 'sentence'

        Returns:
            :obj:`list` of :obj:`str` Tokenized words (or sentences)

        Example:
            >>> LatinText('Gallia est omnis divisa in partes tres').tokenize()
            ['Gallia', 'est', 'omnis', 'divisa', 'in', 'partes', 'tres']

        """
        from cltk.tokenize.word import nltk_tokenize_words
        from cltk.tokenize.sentence import TokenizeSentence
        if mode == 'sentence':
            return TokenizeSentence(
                self.options['language']
            ).tokenize_sentences(self.data)
        else:
            return nltk_tokenize_words(self.data)

예제 #4

파일 보기

파일: test_tokenize.py 프로젝트: yash-nisar/cltk

 def test_nltk_tokenize_words_assert(self):
     """Test assert error for CLTK's word tokenizer."""
     with self.assertRaises(AssertionError):
         nltk_tokenize_words(['Sentence', '1.'])

예제 #5

파일 보기

파일: test_tokenize.py 프로젝트: yash-nisar/cltk

 def test_nltk_tokenize_words_attached(self):
     """Test wrapper for NLTK's PunktLanguageVars(), returning unaltered output."""
     tokens = nltk_tokenize_words("Sentence 1. Sentence 2.", attached_period=True)
     target = ['Sentence', '1.', 'Sentence', '2.']
     self.assertEqual(tokens, target)

예제 #6

파일 보기

파일: test_tokenize.py 프로젝트: yash-nisar/cltk

 def test_nltk_tokenize_words(self):
     """Test wrapper for NLTK's PunktLanguageVars()"""
     tokens = nltk_tokenize_words("Sentence 1. Sentence 2.", attached_period=False)
     target = ['Sentence', '1', '.', 'Sentence', '2', '.']
     self.assertEqual(tokens, target)

예제 #7

파일 보기

파일: cltk_doc.py 프로젝트: thePortus/arakhne

 def tokenize(self, mode='word'):
     if mode == 'sentence':
         return TokenizeSentence(self.language).tokenize_sentences(
             self.data)
     else:
         return nltk_tokenize_words(self.data)

예제 #8

파일 보기