Python Tokenizer示例

编程语言: Python

命名空间/包名称: tensorflow_datasets.core.deprecated.text.text_encoder

方法/功能: Tokenizer

hotexamples.com的示例: 5

Python Tokenizer - 已找到5个示例。这些是从开源项目中提取的最受好评的tensorflow_datasets.core.deprecated.text.text_encoder.Tokenizer现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

 def test_with_nonalphanum(self):
   text = 'hi world<<>><<>foo!^* bar &&  bye (%s hi)' % ZH_HELLO
   tokens = [
       'hi', ' ', 'world', '<<>><<>', 'foo', '!^* ', 'bar', ' &&  ', 'bye',
       ' (',
       ZH_HELLO.strip(), '  ', 'hi', ')'
   ]
   tokenizer = text_encoder.Tokenizer(alphanum_only=False)
   self.assertEqual(tokens, tokenizer.tokenize(text))
   self.assertEqual(text, tokenizer.join(tokenizer.tokenize(text)))

示例#2

显示文件

文件： text_encoder_test.py 项目： tensorflow/datasets

 def test_reserved_tokens_with_regex_chars(self):
     text = r'hello worldba\)r bar foozoo zoo FOO|<EOS>'
     tokens = [
         'hello', ' ', 'world', r'ba\)r', ' ', 'bar', ' ', 'foozoo', ' ',
         'zoo', ' ', 'FOO|', '<EOS>'
     ]
     tokenizer = text_encoder.Tokenizer(
         alphanum_only=False, reserved_tokens=['<EOS>', 'FOO|', r'ba\)r'])
     self.assertEqual(tokens, tokenizer.tokenize(text))
     self.assertEqual(text, tokenizer.join(tokenizer.tokenize(text)))

示例#3

显示文件

文件： subword_text_encoder.py 项目： mbbessa/datasets

def _token_counts_from_generator(generator, max_chars, reserved_tokens):
    """Builds token counts from generator."""
    reserved_tokens = list(reserved_tokens) + [_UNDERSCORE_REPLACEMENT]
    tokenizer = text_encoder.Tokenizer(alphanum_only=False,
                                       reserved_tokens=reserved_tokens)
    num_chars = 0
    token_counts = collections.defaultdict(int)
    for s in generator:
        s = tf.compat.as_text(s)
        if max_chars and (num_chars + len(s)) >= max_chars:
            s = s[:(max_chars - num_chars)]
        tokens = tokenizer.tokenize(s)
        tokens = _prepare_tokens_for_encode(tokens)
        for t in tokens:
            token_counts[t] += 1
        if max_chars:
            num_chars += len(s)
            if num_chars > max_chars:
                break
    return token_counts

示例#4

显示文件

 def test_whitespace(self, s, exp):
   tokenizer = text_encoder.Tokenizer(alphanum_only=False)
   self.assertEqual(exp, tokenizer.tokenize(s))
   self.assertEqual(s, tokenizer.join(tokenizer.tokenize(s)))

示例#5

显示文件

 def test_default(self):
   text = 'hi<<>><<>foo!^* bar &&  bye (%s hi)' % ZH_HELLO
   self.assertEqual(['hi', 'foo', 'bar', 'bye',
                     ZH_HELLO.strip(), 'hi'],
                    text_encoder.Tokenizer().tokenize(text))