Python SentencePieceTokenizer.text_to_idsの例

プログラミング言語: Python

名前空間/パッケージ名: nemo.collections.nlp.data

メソッド/関数: text_to_ids

hotexamples.comのコード掲載数: 4

Python SentencePieceTokenizer.text_to_ids - 4件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのnemo.collections.nlp.data.SentencePieceTokenizer.text_to_idsの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

SentencePieceTokenizer(11)

add_special_tokens(8)

text_to_tokens(5)

text_to_ids(4)

tokens_to_ids(4)

ids_to_text(2)

ids_to_tokens(2)

token_to_id(1)

tokens_to_text(1)

コード例 #1

ファイルを表示

ファイル: test_spc_tokenizer.py プロジェクト: joehoeller/NVIDIA-Rapids-NeMo-PyTorch-Tensorboard

    def test_ids_to_text(self):
        tokenizer = SentencePieceTokenizer("./tests/data/m_common.model")
        special_tokens = nemo_nlp.data.tokenizers.MODEL_SPECIAL_TOKENS['bert']
        tokenizer.add_special_tokens(special_tokens)

        text = "[CLS] a b c [MASK] e f [SEP] g h i [SEP]"
        ids = tokenizer.text_to_ids(text)
        result = tokenizer.ids_to_text(ids)

        self.assertTrue(text == result)

コード例 #2

ファイルを表示

ファイル: test_spc_tokenizer.py プロジェクト: phymucs/NeMo

    def test_ids_to_text(self):
        tokenizer = SentencePieceTokenizer("./tests/data/m_common.model")

        special_tokens = ["[CLS]", "[MASK]", "[SEP]"]
        tokenizer.add_special_tokens(special_tokens)

        text = "[CLS] a b c [MASK] e f [SEP] g h i [SEP]"
        ids = tokenizer.text_to_ids(text)
        result = tokenizer.ids_to_text(ids)

        self.assertTrue(text == result)

コード例 #3

ファイルを表示

ファイル: test_spc_tokenizer.py プロジェクト: joehoeller/NVIDIA-Rapids-NeMo-PyTorch-Tensorboard

    def test_text_to_ids(self):
        tokenizer = SentencePieceTokenizer("./tests/data/m_common.model")
        special_tokens = nemo_nlp.data.tokenizers.MODEL_SPECIAL_TOKENS['bert']
        tokenizer.add_special_tokens(special_tokens)

        text = "[CLS] a b c [MASK] e f [SEP] g h i [SEP]"
        ids = tokenizer.text_to_ids(text)

        self.assertTrue(len(ids) == len(text.split()))
        self.assertTrue(ids.count(tokenizer.token_to_id("[CLS]")) == 1)
        self.assertTrue(ids.count(tokenizer.token_to_id("[MASK]")) == 1)
        self.assertTrue(ids.count(tokenizer.token_to_id("[SEP]")) == 2)

コード例 #4

ファイルを表示

ファイル: test_spc_tokenizer.py プロジェクト: phymucs/NeMo

    def test_text_to_ids(self):
        tokenizer = SentencePieceTokenizer("./tests/data/m_common.model")

        special_tokens = ["[CLS]", "[MASK]", "[SEP]"]
        tokenizer.add_special_tokens(special_tokens)

        text = "[CLS] a b c [MASK] e f [SEP] g h i [SEP]"
        ids = tokenizer.text_to_ids(text)

        self.assertTrue(len(ids) == len(text.split()))
        self.assertTrue(ids.count(tokenizer.special_tokens["[CLS]"]) == 1)
        self.assertTrue(ids.count(tokenizer.special_tokens["[MASK]"]) == 1)
        self.assertTrue(ids.count(tokenizer.special_tokens["[SEP]"]) == 2)