Python Vocabulary.add_transformer_vocab 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: allennlp.data.vocabulary

클래스/타입: Vocabulary

메소드/함수: add_transformer_vocab

hotexamples.com에서의 예제들: 2

Python Vocabulary.add_transformer_vocab - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 allennlp.data.vocabulary.Vocabulary.add_transformer_vocab에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Vocabulary(30)

add_token_to_namespace(30)

get_vocab_size(30)

get_token_index(30)

from_files(30)

from_instances(30)

from_params(30)

get_index_to_token_vocabulary(24)

add_tokens_to_namespace(19)

get_token_from_index(13)

get_token_to_index_vocabulary(12)

save_to_files(10)

set_from_file(6)

from_dataset(5)

extend_from_instances(4)

from_pretrained_transformer_and_instances(3)

from_pretrained_transformer(2)

add_transformer_vocab(2)

_extend(1)

get_index_to_token(1)

get_namespaces(1)

extend_from_vocab(1)

get_token_to_index(1)

print_statistics(1)

_padding_token(1)

예제 #1

파일 보기

    def _add_encoding_to_vocabulary_if_needed(self, vocab: Vocabulary) -> None:
        """
        Copies tokens from ```transformers``` model's vocab to the specified namespace.
        """
        if self._added_to_vocabulary:
            return

        vocab.add_transformer_vocab(self._tokenizer, self._namespace)

        self._added_to_vocabulary = True

예제 #2

파일 보기

파일: bert_backbone.py 프로젝트: lgessler/embur

    def __init__(
        self,
        vocab: Vocabulary,
        embedding_dim: int,
        feedforward_dim: int,
        num_layers: int,
        num_attention_heads: int,
        position_embedding_dim: int,
        tokenizer_path: str,
        position_embedding_type: str = "absolute",
        activation: str = "gelu",
        hidden_dropout: float = 0.1,
    ) -> None:
        super().__init__()
        # TODO:
        # - Need to apply corrections in pretrained_transformer_mismatched_embedder

        tokenizer = BertTokenizer.from_pretrained(tokenizer_path)
        vocab.add_transformer_vocab(tokenizer, "tokens")
        # "tokens" is padded by default--undo that
        del vocab._token_to_index["tokens"]["@@PADDING@@"]
        del vocab._token_to_index["tokens"]["@@UNKNOWN@@"]
        assert len(vocab._token_to_index["tokens"]) == len(vocab._index_to_token["tokens"])

        cfg = BertConfig(
            vocab_size=vocab.get_vocab_size("tokens"),
            hidden_size=embedding_dim,
            num_hidden_layers=num_layers,
            num_attention_heads=num_attention_heads,
            intermediate_size=feedforward_dim,
            hidden_act=activation,
            hidden_dropout_prob=hidden_dropout,
            max_position_embeddings=position_embedding_dim,
            position_embedding_type=position_embedding_type,
            use_cache=True,
        )
        self.cfg = cfg
        self._vocab = vocab
        self._namespace = "tokens"
        self.bert = BertModel(cfg)
        self.masking_collator = DataCollatorForWholeWordMask(
            tokenizer=tokenizer, mlm=True, mlm_probability=0.15
        )