Python CharDictTokenizer.special_tokensの例

プログラミング言語: Python

名前空間/パッケージ名: lmp.tokenizer

クラス/型: CharDictTokenizer

メソッド/関数: special_tokens

hotexamples.comのコード掲載数: 2

Python CharDictTokenizer.special_tokens - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのlmp.tokenizer.CharDictTokenizer.special_tokensの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

CharDictTokenizer(4)

build_vocab(4)

load(3)

detokenize(2)

special_tokens(2)

tokenize(2)

batch_decode(1)

decode(1)

normalize(1)

コード例 #1

ファイルを表示

ファイル: test_vocab_size.py プロジェクト: nail1021734/language-model-playground

    def test_reset_vocab_size(self):
        r"""Reset vocabulary size after `reset_vocab`."""
        msg = 'Must reset vocabulary size after `reset_vocab`.'
        examples = (
            ('HeLlO WoRlD!', 'I aM a LeGeNd.'),
            ('y = f(x)',),
            ('',),
        )

        sp_tokens_size = len(list(CharDictTokenizer.special_tokens()))

        for batch_sequences in examples:
            for tokenizer in self.tokenizers:
                tokenizer.build_vocab(batch_sequences)
                tokenizer.reset_vocab()
                self.assertEqual(
                    tokenizer.vocab_size,
                    sp_tokens_size,
                    msg=msg
                )

コード例 #2

ファイルを表示

ファイル: test_vocab_size.py プロジェクト: nail1021734/language-model-playground

    def test_increase_vocab_size(self):
        r"""Increase vocabulary size after `build_vocab`."""
        msg = 'Must increase vocabulary size after `build_vocab`.'
        examples = (
            (('HeLlO WoRlD!', 'I aM a LeGeNd.'), 18, 15),
            (('y = f(x)',), 24, 21),
            (('',), 24, 21),
        )

        sp_tokens_size = len(list(CharDictTokenizer.special_tokens()))

        for batch_sequences, cased_vocab_size, uncased_vocab_size in examples:
            self.cased_tokenizer.build_vocab(batch_sequences)
            self.assertEqual(
                self.cased_tokenizer.vocab_size,
                cased_vocab_size + sp_tokens_size,
                msg=msg
            )
            self.uncased_tokenizer.build_vocab(batch_sequences)
            self.assertEqual(
                self.uncased_tokenizer.vocab_size,
                uncased_vocab_size + sp_tokens_size,
                msg=msg
            )