Python SentencePieceTokenizer.ids_to_tokens示例

编程语言: Python

命名空间/包名称: nemo.collections.common.tokenizers.sentencepiece_tokenizer

方法/功能: ids_to_tokens

hotexamples.com的示例: 2

Python SentencePieceTokenizer.ids_to_tokens - 已找到2个示例。这些是从开源项目中提取的最受好评的nemo.collections.common.tokenizers.sentencepiece_tokenizer.SentencePieceTokenizer.ids_to_tokens现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

SentencePieceTokenizer(12)

text_to_tokens(7)

add_special_tokens(4)

text_to_ids(4)

token_to_id(3)

ids_to_text(2)

ids_to_tokens(2)

示例#1

显示文件

文件： test_spc_tokenizer.py 项目： titu1994/NeMo

    def test_ids_to_tokens(self, test_data_dir):
        tokenizer = SentencePieceTokenizer(test_data_dir + self.model_name)
        special_tokens = MODEL_SPECIAL_TOKENS
        tokenizer.add_special_tokens(special_tokens)

        text = "[CLS] a b c [MASK] e f [SEP] g h i [SEP]"
        tokens = tokenizer.text_to_tokens(text)
        ids = tokenizer.tokens_to_ids(tokens)
        result = tokenizer.ids_to_tokens(ids)

        assert len(result) == len(tokens)

        for i in range(len(result)):
            assert result[i] == tokens[i]

示例#2

显示文件

    def test_ids_to_tokens(self, test_data_dir):
        tokenizer = SentencePieceTokenizer(test_data_dir + self.model_name)

        tokens = [
            "<cls>", "a", "b", "c", "<sep>", "e", "f", "<sep>", "g", "h", "i",
            "</s>"
        ]
        ids = tokenizer.tokens_to_ids(tokens)
        result = tokenizer.ids_to_tokens(ids)

        assert len(result) == len(tokens)

        for i in range(len(result)):
            assert result[i] == tokens[i]