Python SentencepieceTokenizer.string_to_id示例

编程语言: Python

命名空间/包名称: tensorflow_text.python.ops.sentencepiece_tokenizer

方法/功能: string_to_id

hotexamples.com的示例: 3

Python SentencepieceTokenizer.string_to_id - 已找到3个示例。这些是从开源项目中提取的最受好评的tensorflow_text.python.ops.sentencepiece_tokenizer.SentencepieceTokenizer.string_to_id现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

SentencepieceTokenizer(16)

tokenize(6)

detokenize(5)

tokenize_with_offsets(4)

id_to_string(3)

string_to_id(3)

vocab_size(1)

示例#1

显示文件

文件： sentencepiece_tokenizer_test.py 项目： isabella232/text-1

 def testStringToIdVector(self):
     sp = SentencepieceTokenizer(self.model)
     pieces = _utf8([['▁I', '▁l', 'o', 've', '▁c', 'ar', 'pe', 't'],
                     ['▁I', '▁l', 'o', 've', '▁desk', '.'],
                     ['▁I', '▁l', 'o', 've', '▁l', 'amp', '.']])
     ids = [[9, 169, 21, 125, 78, 48, 132, 15], [9, 169, 21, 125, 727, 6],
            [9, 169, 21, 125, 169, 579, 6]]
     result = sp.string_to_id(ragged_factory_ops.constant(pieces))
     self.assertAllEqual(ids, result)

示例#2

显示文件

 def testStringToIdRagged(self):
   sp = SentencepieceTokenizer(self.model)
   pieces = _utf8(
       [[['▁I', '▁l', 'o', 've', '▁c', 'ar', 'pe', 't'],
         ['▁I', '▁l', 'o', 've', '▁desk', '.'],
         ['▁I', '▁l', 'o', 've', '▁l', 'amp', '.']],
        [['▁', 'N', 'ever', '▁tell', '▁me', '▁the', '▁', 'o', 'd', 'd', 's']]])
   ids = [[[9, 169, 21, 125, 78, 48, 132, 15], [9, 169, 21, 125, 727, 6],
           [9, 169, 21, 125, 169, 579, 6]],
          [[4, 199, 363, 310, 33, 7, 4, 21, 17, 17, 8]]]
   result = sp.string_to_id(ragged_factory_ops.constant(pieces, dtypes.string))
   self.assertAllEqual(ids, result)

示例#3

显示文件

文件： sentencepiece_tokenizer_test.py 项目： isabella232/text-1

 def testStringToIdScalar(self):
     sp = SentencepieceTokenizer(self.model)
     result = sp.string_to_id('</s>')
     self.assertAllEqual(2, result)