Ejemplos de SentencePieceTokenizer en Python

Lenguaje de programación: Python

Namespace/Package Name: nemo.collections.nlp.data

Ejemplos en hotexamples.com: 11

Python SentencePieceTokenizer - 11 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de nemo.collections.nlp.data.SentencePieceTokenizer extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

SentencePieceTokenizer(11)

add_special_tokens(8)

text_to_tokens(5)

text_to_ids(4)

tokens_to_ids(4)

ids_to_text(2)

ids_to_tokens(2)

token_to_id(1)

tokens_to_text(1)

Ejemplo n.º 1

Mostrar archivo

Archivo: test_spc_tokenizer.py Proyecto: joehoeller/NVIDIA-Rapids-NeMo-PyTorch-Tensorboard

    def test_tokens_to_text(self):
        tokenizer = SentencePieceTokenizer("./tests/data/m_common.model")

        text = "[CLS] a b c [MASK] e f [SEP] g h i [SEP]"
        tokens = tokenizer.text_to_tokens(text)
        result = tokenizer.tokens_to_text(tokens)

        self.assertTrue(text == result)

Ejemplo n.º 2

Mostrar archivo

Archivo: test_spc_tokenizer.py Proyecto: phymucs/NeMo

    def test_add_special_tokens(self):
        tokenizer = SentencePieceTokenizer("./tests/data/m_common.model")

        special_tokens = ["[CLS]", "[MASK]", "[SEP]"]
        tokenizer.add_special_tokens(special_tokens)

        self.assertTrue(tokenizer.vocab_size == tokenizer.original_vocab_size +
                        len(special_tokens))

Ejemplo n.º 3

Mostrar archivo

Archivo: test_spc_tokenizer.py Proyecto: joehoeller/NVIDIA-Rapids-NeMo-PyTorch-Tensorboard

    def test_text_to_tokens(self):
        tokenizer = SentencePieceTokenizer("./tests/data/m_common.model")
        special_tokens = nemo_nlp.data.tokenizers.MODEL_SPECIAL_TOKENS['bert']
        tokenizer.add_special_tokens(special_tokens)

        text = "[CLS] a b c [MASK] e f [SEP] g h i [SEP]"
        tokens = tokenizer.text_to_tokens(text)

        self.assertTrue(len(tokens) == len(text.split()))
        self.assertTrue(tokens.count("[CLS]") == 1)
        self.assertTrue(tokens.count("[MASK]") == 1)
        self.assertTrue(tokens.count("[SEP]") == 2)

Ejemplo n.º 4

Mostrar archivo

Archivo: test_spc_tokenizer.py Proyecto: phymucs/NeMo

    def test_text_to_ids(self):
        tokenizer = SentencePieceTokenizer("./tests/data/m_common.model")

        special_tokens = ["[CLS]", "[MASK]", "[SEP]"]
        tokenizer.add_special_tokens(special_tokens)

        text = "[CLS] a b c [MASK] e f [SEP] g h i [SEP]"
        ids = tokenizer.text_to_ids(text)

        self.assertTrue(len(ids) == len(text.split()))
        self.assertTrue(ids.count(tokenizer.special_tokens["[CLS]"]) == 1)
        self.assertTrue(ids.count(tokenizer.special_tokens["[MASK]"]) == 1)
        self.assertTrue(ids.count(tokenizer.special_tokens["[SEP]"]) == 2)

Ejemplo n.º 5

Mostrar archivo

Archivo: test_spc_tokenizer.py Proyecto: joehoeller/NVIDIA-Rapids-NeMo-PyTorch-Tensorboard

    def test_ids_to_text(self):
        tokenizer = SentencePieceTokenizer("./tests/data/m_common.model")
        special_tokens = nemo_nlp.data.tokenizers.MODEL_SPECIAL_TOKENS['bert']
        tokenizer.add_special_tokens(special_tokens)

        text = "[CLS] a b c [MASK] e f [SEP] g h i [SEP]"
        ids = tokenizer.text_to_ids(text)
        result = tokenizer.ids_to_text(ids)

        self.assertTrue(text == result)

Ejemplo n.º 6

Mostrar archivo

Archivo: test_spc_tokenizer.py Proyecto: joehoeller/NVIDIA-Rapids-NeMo-PyTorch-Tensorboard

    def test_ids_to_tokens(self):
        tokenizer = SentencePieceTokenizer("./tests/data/m_common.model")
        special_tokens = nemo_nlp.data.tokenizers.MODEL_SPECIAL_TOKENS['bert']
        tokenizer.add_special_tokens(special_tokens)

        text = "[CLS] a b c [MASK] e f [SEP] g h i [SEP]"
        tokens = tokenizer.text_to_tokens(text)
        ids = tokenizer.tokens_to_ids(tokens)
        result = tokenizer.ids_to_tokens(ids)

        self.assertTrue(len(result) == len(tokens))

        for i in range(len(result)):
            self.assertTrue(result[i] == tokens[i])

Ejemplo n.º 7

Mostrar archivo

Archivo: test_spc_tokenizer.py Proyecto: phymucs/NeMo

    def test_ids_to_text(self):
        tokenizer = SentencePieceTokenizer("./tests/data/m_common.model")

        special_tokens = ["[CLS]", "[MASK]", "[SEP]"]
        tokenizer.add_special_tokens(special_tokens)

        text = "[CLS] a b c [MASK] e f [SEP] g h i [SEP]"
        ids = tokenizer.text_to_ids(text)
        result = tokenizer.ids_to_text(ids)

        self.assertTrue(text == result)

Ejemplo n.º 8

Mostrar archivo

Archivo: test_spc_tokenizer.py Proyecto: phymucs/NeMo

    def test_ids_to_tokens(self):
        tokenizer = SentencePieceTokenizer("./tests/data/m_common.model")

        special_tokens = ["[CLS]", "[MASK]", "[SEP]"]
        tokenizer.add_special_tokens(special_tokens)

        text = "[CLS] a b c [MASK] e f [SEP] g h i [SEP]"
        tokens = tokenizer.text_to_tokens(text)
        ids = tokenizer.tokens_to_ids(tokens)
        result = tokenizer.ids_to_tokens(ids)

        self.assertTrue(len(result) == len(tokens))

        for i in range(len(result)):
            self.assertTrue(result[i] == tokens[i])

Ejemplo n.º 9

Mostrar archivo

Archivo: test_spc_tokenizer.py Proyecto: joehoeller/NVIDIA-Rapids-NeMo-PyTorch-Tensorboard

 def test_add_special_tokens(self):
     tokenizer = SentencePieceTokenizer("./tests/data/m_common.model")
     special_tokens = nemo_nlp.data.tokenizers.MODEL_SPECIAL_TOKENS['bert']
     tokenizer.add_special_tokens(special_tokens)
     self.assertTrue(tokenizer.vocab_size == tokenizer.original_vocab_size + len(set(special_tokens.values())))

Ejemplo n.º 10

Mostrar archivo

Archivo: token_classification.py Proyecto: joehoeller/NVIDIA-Rapids-NeMo-PyTorch-Tensorboard

output_file = f'{nf.work_dir}/output.txt'

if args.bert_checkpoint is None:
    """ Use this if you're using a standard BERT model.
    To see the list of pretrained models, call:
    nemo_nlp.nm.trainables.huggingface.BERT.list_pretrained_models()
    """
    tokenizer = NemoBertTokenizer(args.pretrained_bert_model)
    model = nemo_nlp.nm.trainables.huggingface.BERT(pretrained_model_name=args.pretrained_bert_model)
else:
    """ Use this if you're using a BERT model that you pre-trained yourself.
    """
    if args.tokenizer == "sentencepiece":
        special_tokens = nemo_nlp.utils.MODEL_SPECIAL_TOKENS['bert']
        tokenizer = SentencePieceTokenizer(model_path=args.tokenizer_model)
    elif args.tokenizer == "nemobert":
        tokenizer = NemoBertTokenizer(args.pretrained_bert_model)
    else:
        raise ValueError(f"received unexpected tokenizer '{args.tokenizer}'")
    if args.bert_config is not None:
        with open(args.bert_config) as json_file:
            config = json.load(json_file)
        model = nemo_nlp.nm.trainables.huggingface.BERT(**config)
    else:
        model = nemo_nlp.nm.trainables.huggingface.BERT(pretrained_model_name=args.pretrained_bert_model)

    model.restore_from(args.bert_checkpoint)
    logging.info(f"Model restored from {args.bert_checkpoint}")

hidden_size = model.hidden_size

Ejemplo n.º 11

Mostrar archivo

output_file = f'{nf.work_dir}/output.txt'

if args.bert_checkpoint is None:
    """ Use this if you're using a standard BERT model.
    To see the list of pretrained models, call:
    nemo_nlp.huggingface.BERT.list_pretrained_models()
    """
    tokenizer = NemoBertTokenizer(args.pretrained_bert_model)
    model = nemo_nlp.nm.trainables.huggingface.BERT(
        pretrained_model_name=args.pretrained_bert_model)
else:
    """ Use this if you're using a BERT model that you pre-trained yourself.
    """
    if args.tokenizer == "sentencepiece":
        special_tokens = nemo_nlp.utils.MODEL_SPECIAL_TOKENS['bert']
        tokenizer = SentencePieceTokenizer(model_path=args.tokenizer_model,
                                           special_tokens=special_tokens)
    elif args.tokenizer == "nemobert":
        tokenizer = NemoBertTokenizer(args.pretrained_bert_model)
    else:
        raise ValueError(f"received unexpected tokenizer '{args.tokenizer}'")
    if args.bert_config is not None:
        with open(args.bert_config) as json_file:
            config = json.load(json_file)
        model = nemo_nlp.nm.trainables.huggingface.BERT(**config)
    else:
        model = nemo_nlp.nm.trainables.huggingface.BERT(
            pretrained_model_name=args.pretrained_bert_model)

    model.restore_from(args.bert_checkpoint)
    logging.info(f"Model restored from {args.bert_checkpoint}")