Python SentencepieceTokenizer.string_to_id 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: tensorflow_text.python.ops.sentencepiece_tokenizer

메소드/함수: string_to_id

hotexamples.com에서의 예제들: 3

Python SentencepieceTokenizer.string_to_id - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 tensorflow_text.python.ops.sentencepiece_tokenizer.SentencepieceTokenizer.string_to_id에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

SentencepieceTokenizer(16)

tokenize(6)

detokenize(5)

tokenize_with_offsets(4)

id_to_string(3)

string_to_id(3)

vocab_size(1)

예제 #1

파일 보기

파일: sentencepiece_tokenizer_test.py 프로젝트: isabella232/text-1

 def testStringToIdVector(self):
     sp = SentencepieceTokenizer(self.model)
     pieces = _utf8([['▁I', '▁l', 'o', 've', '▁c', 'ar', 'pe', 't'],
                     ['▁I', '▁l', 'o', 've', '▁desk', '.'],
                     ['▁I', '▁l', 'o', 've', '▁l', 'amp', '.']])
     ids = [[9, 169, 21, 125, 78, 48, 132, 15], [9, 169, 21, 125, 727, 6],
            [9, 169, 21, 125, 169, 579, 6]]
     result = sp.string_to_id(ragged_factory_ops.constant(pieces))
     self.assertAllEqual(ids, result)

예제 #2

파일 보기

 def testStringToIdRagged(self):
   sp = SentencepieceTokenizer(self.model)
   pieces = _utf8(
       [[['▁I', '▁l', 'o', 've', '▁c', 'ar', 'pe', 't'],
         ['▁I', '▁l', 'o', 've', '▁desk', '.'],
         ['▁I', '▁l', 'o', 've', '▁l', 'amp', '.']],
        [['▁', 'N', 'ever', '▁tell', '▁me', '▁the', '▁', 'o', 'd', 'd', 's']]])
   ids = [[[9, 169, 21, 125, 78, 48, 132, 15], [9, 169, 21, 125, 727, 6],
           [9, 169, 21, 125, 169, 579, 6]],
          [[4, 199, 363, 310, 33, 7, 4, 21, 17, 17, 8]]]
   result = sp.string_to_id(ragged_factory_ops.constant(pieces, dtypes.string))
   self.assertAllEqual(ids, result)

예제 #3

파일 보기

파일: sentencepiece_tokenizer_test.py 프로젝트: isabella232/text-1

 def testStringToIdScalar(self):
     sp = SentencepieceTokenizer(self.model)
     result = sp.string_to_id('</s>')
     self.assertAllEqual(2, result)