Exemplos de Vocabulary.add_transformer_vocab em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: allennlp.data.vocabulary

Classe / Tipo: Vocabulary

Método / Função: add_transformer_vocab

Exemplos em hotexamples.com: 2

Vocabulary.add_transformer_vocab em Python - 2 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de allennlp.data.vocabulary.Vocabulary.add_transformer_vocab em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

Vocabulary(30)

add_token_to_namespace(30)

get_vocab_size(30)

get_token_index(30)

from_files(30)

from_instances(30)

from_params(30)

get_index_to_token_vocabulary(24)

add_tokens_to_namespace(19)

get_token_from_index(13)

get_token_to_index_vocabulary(12)

save_to_files(10)

set_from_file(6)

from_dataset(5)

extend_from_instances(4)

from_pretrained_transformer_and_instances(3)

from_pretrained_transformer(2)

add_transformer_vocab(2)

_extend(1)

get_index_to_token(1)

get_namespaces(1)

extend_from_vocab(1)

get_token_to_index(1)

print_statistics(1)

register(1)

_padding_token(1)

Métodos Frequentes

Vocabulary (30)

add_token_to_namespace (30)

get_vocab_size (30)

get_token_index (30)

from_files (30)

from_instances (30)

from_params (30)

get_index_to_token_vocabulary (24)

add_tokens_to_namespace (19)

get_token_from_index (13)

Métodos Frequentes

get_token_to_index_vocabulary (12)

save_to_files (10)

set_from_file (6)

from_dataset (5)

extend_from_instances (4)

from_pretrained_transformer_and_instances (3)

from_pretrained_transformer (2)

add_transformer_vocab (2)

_extend (1)

get_index_to_token (1)

get_namespaces (1)

extend_from_vocab (1)

get_token_to_index (1)

print_statistics (1)

register (1)

_padding_token (1)

Métodos Frequentes

get_namespaces (1)

extend_from_vocab (1)

get_token_to_index (1)

print_statistics (1)

register (1)

_padding_token (1)

Exemplo n.º 1

0

Exibir arquivo

def _add_encoding_to_vocabulary_if_needed(self, vocab: Vocabulary) -> None: """ Copies tokens from ```transformers``` model's vocab to the specified namespace. """ if self._added_to_vocabulary: return vocab.add_transformer_vocab(self._tokenizer, self._namespace) self._added_to_vocabulary = True

Exemplo n.º 2

0

Exibir arquivo

Arquivo: bert_backbone.py Projeto: lgessler/embur

def __init__( self, vocab: Vocabulary, embedding_dim: int, feedforward_dim: int, num_layers: int, num_attention_heads: int, position_embedding_dim: int, tokenizer_path: str, position_embedding_type: str = "absolute", activation: str = "gelu", hidden_dropout: float = 0.1, ) -> None: super().__init__() # TODO: # - Need to apply corrections in pretrained_transformer_mismatched_embedder tokenizer = BertTokenizer.from_pretrained(tokenizer_path) vocab.add_transformer_vocab(tokenizer, "tokens") # "tokens" is padded by default--undo that del vocab._token_to_index["tokens"]["@@PADDING@@"] del vocab._token_to_index["tokens"]["@@UNKNOWN@@"] assert len(vocab._token_to_index["tokens"]) == len(vocab._index_to_token["tokens"]) cfg = BertConfig( vocab_size=vocab.get_vocab_size("tokens"), hidden_size=embedding_dim, num_hidden_layers=num_layers, num_attention_heads=num_attention_heads, intermediate_size=feedforward_dim, hidden_act=activation, hidden_dropout_prob=hidden_dropout, max_position_embeddings=position_embedding_dim, position_embedding_type=position_embedding_type, use_cache=True, ) self.cfg = cfg self._vocab = vocab self._namespace = "tokens" self.bert = BertModel(cfg) self.masking_collator = DataCollatorForWholeWordMask( tokenizer=tokenizer, mlm=True, mlm_probability=0.15 )