Python PhobertTokenizerの例

プログラミング言語: Python

名前空間/パッケージ名: transformers.models.phobert.tokenization_phobert

クラス/型: PhobertTokenizer

hotexamples.comのコード掲載数: 2

Python PhobertTokenizer - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのtransformers.models.phobert.tokenization_phobert.PhobertTokenizerの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

PhobertTokenizer(1)

convert_tokens_to_ids(1)

from_pretrained(1)

tokenize(1)

コード例 #1

ファイルを表示

ファイル: test_tokenization_phobert.py プロジェクト: aiinnova/huggingface_transformers

    def test_full_tokenizer(self):
        tokenizer = PhobertTokenizer(self.vocab_file, self.merges_file, **self.special_tokens_map)
        text = "Tôi là VinAI Research"
        bpe_tokens = "T@@ ô@@ i l@@ à V@@ i@@ n@@ A@@ I R@@ e@@ s@@ e@@ a@@ r@@ c@@ h".split()
        tokens = tokenizer.tokenize(text)
        print(tokens)
        self.assertListEqual(tokens, bpe_tokens)

        input_tokens = tokens + [tokenizer.unk_token]

        input_bpe_tokens = [4, 3, 5, 3, 3, 3, 3, 3, 3, 6, 7, 9, 3, 9, 3, 3, 3, 3, 3]
        self.assertListEqual(tokenizer.convert_tokens_to_ids(input_tokens), input_bpe_tokens)

コード例 #2

ファイルを表示

ファイル: test_tokenization_phobert.py プロジェクト: aiinnova/huggingface_transformers

 def get_tokenizer(self, **kwargs):
     kwargs.update(self.special_tokens_map)
     return PhobertTokenizer.from_pretrained(self.tmpdirname, **kwargs)