Python Vocabulary.from_pretrained_transformer 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: allennlp.data.vocabulary

클래스/타입: Vocabulary

메소드/함수: from_pretrained_transformer

hotexamples.com에서의 예제들: 2

Python Vocabulary.from_pretrained_transformer - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 allennlp.data.vocabulary.Vocabulary.from_pretrained_transformer에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Vocabulary(30)

add_token_to_namespace(30)

get_vocab_size(30)

get_token_index(30)

from_files(30)

from_instances(30)

from_params(30)

get_index_to_token_vocabulary(24)

add_tokens_to_namespace(19)

get_token_from_index(13)

get_token_to_index_vocabulary(12)

save_to_files(10)

set_from_file(6)

from_dataset(5)

extend_from_instances(4)

from_pretrained_transformer_and_instances(3)

from_pretrained_transformer(2)

add_transformer_vocab(2)

_extend(1)

get_index_to_token(1)

get_namespaces(1)

extend_from_vocab(1)

get_token_to_index(1)

print_statistics(1)

_padding_token(1)

예제 #1

파일 보기

파일: vocabulary_test.py 프로젝트: himkt/allennlp

 def _get_expected_vocab(dataset, namespace, model_name):
     vocab_from_instances = Vocabulary.from_instances(dataset)
     instance_tokens = set(
         vocab_from_instances._token_to_index[namespace].keys())
     transformer_tokens = set(
         Vocabulary.from_pretrained_transformer(
             model_name, namespace)._token_to_index[namespace].keys())
     return instance_tokens.union(transformer_tokens)

예제 #2

파일 보기

    def test_from_pretrained_transformer(self, model_name):
        namespace = "tokens"
        from allennlp.common import cached_transformers

        tokenizer = cached_transformers.get_tokenizer(model_name)

        vocab = Vocabulary.from_pretrained_transformer(model_name,
                                                       namespace=namespace)
        assert vocab._token_to_index[namespace] == tokenizer.get_vocab()
        vocab.save_to_files(self.TEST_DIR / "vocab")

        vocab1 = Vocabulary.from_files(self.TEST_DIR / "vocab")
        assert vocab1._token_to_index[namespace] == tokenizer.get_vocab()