Python AlbertTokenizer.convert_ids_to_tokens示例

编程语言: Python

命名空间/包名称: transformers.tokenization_albert

类/类型: AlbertTokenizer

方法/功能: convert_ids_to_tokens

hotexamples.com的示例: 2

Python AlbertTokenizer.convert_ids_to_tokens - 已找到2个示例。这些是从开源项目中提取的最受好评的transformers.tokenization_albert.AlbertTokenizer.convert_ids_to_tokens现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

from_pretrained(12)

AlbertTokenizer(5)

tokenize(3)

convert_ids_to_tokens(2)

convert_tokens_to_ids(2)

build_inputs_with_special_tokens(1)

encode(1)

save_pretrained(1)

示例#1

显示文件

    def test_full_tokenizer(self):
        tokenizer = AlbertTokenizer(SAMPLE_VOCAB, keep_accents=True)

        tokens = tokenizer.tokenize("This is a test")
        self.assertListEqual(tokens, ["▁this", "▁is", "▁a", "▁test"])

        self.assertListEqual(tokenizer.convert_tokens_to_ids(tokens),
                             [48, 25, 21, 1289])

        tokens = tokenizer.tokenize("I was born in 92000, and this is falsé.")
        self.assertListEqual(tokens, [
            "▁i", "▁was", "▁born", "▁in", "▁9", "2000", ",", "▁and", "▁this",
            "▁is", "▁fal", "s", "é", "."
        ])
        ids = tokenizer.convert_tokens_to_ids(tokens)
        self.assertListEqual(
            ids, [31, 23, 386, 19, 561, 3050, 15, 17, 48, 25, 8256, 18, 1, 9])

        back_tokens = tokenizer.convert_ids_to_tokens(ids)
        self.assertListEqual(
            back_tokens,
            [
                "▁i", "▁was", "▁born", "▁in", "▁9", "2000", ",", "▁and",
                "▁this", "▁is", "▁fal", "s", "<unk>", "."
            ],
        )

示例#2

显示文件

文件： tokenization_albert_test.py 项目： dnmarch/mrc

    def test_full_tokenizer(self):
        tokenizer = AlbertTokenizer(SAMPLE_VOCAB, keep_accents=True)

        tokens = tokenizer.tokenize(u'This is a test')
        self.assertListEqual(tokens, [u'▁this', u'▁is', u'▁a', u'▁test'])

        self.assertListEqual(tokenizer.convert_tokens_to_ids(tokens),
                             [48, 25, 21, 1289])

        tokens = tokenizer.tokenize(u"I was born in 92000, and this is falsé.")
        self.assertListEqual(tokens, [
            u'▁i', u'▁was', u'▁born', u'▁in', u'▁9', u'2000', u',', u'▁and',
            u'▁this', u'▁is', u'▁fal', u's', u'é', u'.'
        ])
        ids = tokenizer.convert_tokens_to_ids(tokens)
        self.assertListEqual(
            ids, [31, 23, 386, 19, 561, 3050, 15, 17, 48, 25, 8256, 18, 1, 9])

        back_tokens = tokenizer.convert_ids_to_tokens(ids)
        self.assertListEqual(back_tokens, [
            '▁i', '▁was', '▁born', '▁in', '▁9', '2000', ',', '▁and', '▁this',
            '▁is', '▁fal', 's', '<unk>', '.'
        ])