Python SentencePieceTokenizer.ids_to_tokens 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: nemo.collections.nlp.data

메소드/함수: ids_to_tokens

hotexamples.com에서의 예제들: 2

Python SentencePieceTokenizer.ids_to_tokens - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 nemo.collections.nlp.data.SentencePieceTokenizer.ids_to_tokens에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

SentencePieceTokenizer(11)

add_special_tokens(8)

text_to_tokens(5)

text_to_ids(4)

tokens_to_ids(4)

ids_to_text(2)

ids_to_tokens(2)

token_to_id(1)

tokens_to_text(1)

예제 #1

파일 보기

파일: test_spc_tokenizer.py 프로젝트: joehoeller/NVIDIA-Rapids-NeMo-PyTorch-Tensorboard

    def test_ids_to_tokens(self):
        tokenizer = SentencePieceTokenizer("./tests/data/m_common.model")
        special_tokens = nemo_nlp.data.tokenizers.MODEL_SPECIAL_TOKENS['bert']
        tokenizer.add_special_tokens(special_tokens)

        text = "[CLS] a b c [MASK] e f [SEP] g h i [SEP]"
        tokens = tokenizer.text_to_tokens(text)
        ids = tokenizer.tokens_to_ids(tokens)
        result = tokenizer.ids_to_tokens(ids)

        self.assertTrue(len(result) == len(tokens))

        for i in range(len(result)):
            self.assertTrue(result[i] == tokens[i])

예제 #2

파일 보기

파일: test_spc_tokenizer.py 프로젝트: phymucs/NeMo

    def test_ids_to_tokens(self):
        tokenizer = SentencePieceTokenizer("./tests/data/m_common.model")

        special_tokens = ["[CLS]", "[MASK]", "[SEP]"]
        tokenizer.add_special_tokens(special_tokens)

        text = "[CLS] a b c [MASK] e f [SEP] g h i [SEP]"
        tokens = tokenizer.text_to_tokens(text)
        ids = tokenizer.tokens_to_ids(tokens)
        result = tokenizer.ids_to_tokens(ids)

        self.assertTrue(len(result) == len(tokens))

        for i in range(len(result)):
            self.assertTrue(result[i] == tokens[i])