Python Tokenizer.decodeの例

プログラミング言語: Python

名前空間/パッケージ名: keras_bert

クラス/型: Tokenizer

メソッド/関数: decode

hotexamples.comのコード掲載数: 3

Python Tokenizer.decode - 3件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのkeras_bert.Tokenizer.decodeの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

Tokenizer(30)

encode(30)

tokenize(21)

_convert_tokens_to_ids(6)

decode(3)

__init__(1)

_pack(1)

_tokenize(1)

_truncate(1)

fit_on_texts(1)

texts_to_sequences(1)

コード例 #1

ファイルを表示

ファイル: test_tokenizer.py プロジェクト: Gamemaster-007/VATC

    def test_padding(self):
        tokens = ['[PAD]', '[UNK]', '[CLS]', '[SEP]']
        token_dict = {token: i for i, token in enumerate(tokens)}
        tokenizer = Tokenizer(token_dict)
        text = '\u535A\u63A8'

        # single
        indices, segments = tokenizer.encode(first=text, max_len=100)
        expected = [2, 1, 1, 3] + [0] * 96
        self.assertEqual(expected, indices)
        expected = [0] * 100
        self.assertEqual(expected, segments)
        decoded = tokenizer.decode(indices)
        self.assertEqual(['[UNK]', '[UNK]'], decoded)
        indices, segments = tokenizer.encode(first=text, max_len=3)
        self.assertEqual([2, 1, 3], indices)
        self.assertEqual([0, 0, 0], segments)

        # paired
        indices, segments = tokenizer.encode(first=text, second=text, max_len=100)
        expected = [2, 1, 1, 3, 1, 1, 3] + [0] * 93
        self.assertEqual(expected, indices)
        expected = [0, 0, 0, 0, 1, 1, 1] + [0] * 93
        self.assertEqual(expected, segments)
        decoded = tokenizer.decode(indices)
        self.assertEqual((['[UNK]', '[UNK]'], ['[UNK]', '[UNK]']), decoded)
        indices, segments = tokenizer.encode(first=text, second=text, max_len=4)
        self.assertEqual([2, 1, 3, 3], indices)
        self.assertEqual([0, 0, 0, 1], segments)

コード例 #2

ファイルを表示

ファイル: test_tokenizer.py プロジェクト: Gamemaster-007/VATC

    def test_uncased(self):
        tokens = [
            '[PAD]', '[UNK]', '[CLS]', '[SEP]', 'want', '##want',
            '##ed', 'wa', 'un', 'runn', '##ing', ',',
            '\u535A', '\u63A8',
        ]
        token_dict = {token: i for i, token in enumerate(tokens)}
        tokenizer = Tokenizer(token_dict)
        text = u"UNwant\u00E9d, running  \nah\u535A\u63A8zzz\u00AD"
        tokens = tokenizer.tokenize(text)
        expected = [
            '[CLS]', 'un', '##want', '##ed', ',', 'runn', '##ing',
            'a', '##h', '\u535A', '\u63A8', 'z', '##z', '##z',
            '[SEP]',
        ]
        self.assertEqual(expected, tokens)
        indices, segments = tokenizer.encode(text)
        expected = [2, 8, 5, 6, 11, 9, 10, 1, 1, 12, 13, 1, 1, 1, 3]
        self.assertEqual(expected, indices)
        expected = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
        self.assertEqual(expected, segments)

        decoded = tokenizer.decode(indices)
        expected = [
            'un', '##want', '##ed', ',', 'runn', '##ing',
            '[UNK]', '[UNK]', '\u535A', '\u63A8', '[UNK]', '[UNK]', '[UNK]',
        ]
        self.assertEqual(expected, decoded)

コード例 #3

ファイルを表示

ファイル: test_tokenizer.py プロジェクト: Gamemaster-007/VATC

 def test_empty(self):
     tokens = ['[PAD]', '[UNK]', '[CLS]', '[SEP]']
     token_dict = {token: i for i, token in enumerate(tokens)}
     tokenizer = Tokenizer(token_dict)
     text = u''
     self.assertEqual(['[CLS]', '[SEP]'], tokenizer.tokenize(text))
     indices, segments = tokenizer.encode(text)
     self.assertEqual([2, 3], indices)
     self.assertEqual([0, 0], segments)
     decoded = tokenizer.decode(indices)
     self.assertEqual([], decoded)