Exemplos de Vocabulary.from_dataset em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: allennlp.data.vocabulary

Classe / Tipo: Vocabulary

Método / Função: from_dataset

Exemplos em hotexamples.com: 5

Vocabulary.from_dataset em Python - 5 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de allennlp.data.vocabulary.Vocabulary.from_dataset em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

Vocabulary(30)

add_token_to_namespace(30)

get_vocab_size(30)

get_token_index(30)

from_files(30)

from_instances(30)

from_params(30)

get_index_to_token_vocabulary(24)

add_tokens_to_namespace(19)

get_token_from_index(13)

get_token_to_index_vocabulary(12)

save_to_files(10)

set_from_file(6)

from_dataset(5)

extend_from_instances(4)

from_pretrained_transformer_and_instances(3)

from_pretrained_transformer(2)

add_transformer_vocab(2)

_extend(1)

get_index_to_token(1)

get_namespaces(1)

extend_from_vocab(1)

get_token_to_index(1)

print_statistics(1)

register(1)

_padding_token(1)

Métodos Frequentes

Vocabulary (30)

add_token_to_namespace (30)

get_vocab_size (30)

get_token_index (30)

from_files (30)

from_instances (30)

from_params (30)

get_index_to_token_vocabulary (24)

add_tokens_to_namespace (19)

get_token_from_index (13)

Métodos Frequentes

get_token_to_index_vocabulary (12)

save_to_files (10)

set_from_file (6)

from_dataset (5)

extend_from_instances (4)

from_pretrained_transformer_and_instances (3)

from_pretrained_transformer (2)

add_transformer_vocab (2)

_extend (1)

get_index_to_token (1)

get_namespaces (1)

extend_from_vocab (1)

get_token_to_index (1)

print_statistics (1)

register (1)

_padding_token (1)

Métodos Frequentes

get_namespaces (1)

extend_from_vocab (1)

get_token_to_index (1)

print_statistics (1)

register (1)

_padding_token (1)

Exemplo n.º 1

0

Exibir arquivo

def test_from_dataset_respects_inclusive_embedding_file(self): embeddings_filename = self.TEST_DIR + "embeddings.gz" with gzip.open(embeddings_filename, 'wb') as embeddings_file: embeddings_file.write("a 1.0 2.3 -1.0\n".encode('utf-8')) embeddings_file.write("b 0.1 0.4 -4.0\n".encode('utf-8')) vocab = Vocabulary.from_dataset( self.dataset, min_count=4, pretrained_files={'tokens': embeddings_filename}, only_include_pretrained_words=False) words = vocab.get_index_to_token_vocabulary().values() assert 'a' in words assert 'b' in words assert 'c' not in words vocab = Vocabulary.from_dataset( self.dataset, min_count=-1, pretrained_files={'tokens': embeddings_filename}, only_include_pretrained_words=False) words = vocab.get_index_to_token_vocabulary().values() assert 'a' in words assert 'b' in words assert 'c' in words

Exemplo n.º 2

0

Exibir arquivo

Arquivo: vocabulary_test.py Projeto: Taekyoon/allennlp

def test_from_dataset_respects_min_count(self): vocab = Vocabulary.from_dataset(self.dataset, min_count=4) words = vocab.get_index_to_token_vocabulary().values() assert 'a' in words assert 'b' not in words assert 'c' not in words vocab = Vocabulary.from_dataset(self.dataset, min_count=1) words = vocab.get_index_to_token_vocabulary().values() assert 'a' in words assert 'b' in words assert 'c' in words

Exemplo n.º 3

0

Exibir arquivo

def ensure_model_saves_and_loads(self, model: Model, dataset_reader: DatasetReader, iterator: DataIterator = None): data_iterator = iterator or BasicIterator() dataset = dataset_reader.read(self.TRAIN_FILE) vocab = Vocabulary.from_dataset(dataset) dataset.index_instances(vocab) single_batch = next(data_iterator(dataset)) single_batch = arrays_to_variables(single_batch) model_predictions = model.forward(**single_batch) torch.save(model.state_dict(), self.MODEL_FILE) loaded_model = model loaded_model.load_state_dict(torch.load(self.MODEL_FILE)) loaded_model_predictions = loaded_model.forward(**single_batch) # Both outputs should have the same keys and the values # for these keys should be close. for key in model_predictions.keys(): assert_allclose(model_predictions[key].data.numpy(), loaded_model_predictions[key].data.numpy()) return model, loaded_model

Exemplo n.º 4

0

Exibir arquivo

Arquivo: simple_tagger.py Projeto: panyang/allennlp

def simple_tagger_model() -> Model: """create a simple tagger model.""" # this is a bad hack to get the same data as the test case # TODO(joelgrus): replace this test_case = AllenNlpTestCase() test_case.setUp() test_case.write_sequence_tagging_data() dataset = SequenceTaggingDatasetReader().read(test_case.TRAIN_FILE) vocab = Vocabulary.from_dataset(dataset) dataset.index_instances(vocab) params = Params({ "text_field_embedder": { "tokens": { "type": "embedding", "embedding_dim": 5 } }, "hidden_size": 7, "num_layers": 2 }) model = SimpleTagger.from_params(vocab, params) tokenizer = WordTokenizer() def run(blob: JSON): sentence = blob.get("input", "") tokens = tokenizer.tokenize(sentence) text = TextField(tokens, token_indexers={"tokens": SingleIdTokenIndexer()}) output = model.tag(text) # convert np array to serializable list output['class_probabilities'] = output['class_probabilities'].tolist() possible_tags = list( vocab.get_index_to_token_vocabulary("tags").values()) return { 'model_name': 'simple_tagger', 'input': sentence, 'output': output, 'tokens': tokens, 'possible_tags': possible_tags } return run

Exemplo n.º 5

0

Exibir arquivo

Arquivo: vocabulary_test.py Projeto: mguo001/allennlp

def test_saving_and_loading_works_with_byte_encoding(self): # We're going to set a vocabulary from a TextField using byte encoding, index it, save the # vocab, load the vocab, then index the text field again, and make sure we get the same # result. tokenizer = CharacterTokenizer(byte_encoding='utf-8') token_indexer = TokenCharactersIndexer(character_tokenizer=tokenizer) tokens = [Token(t) for t in ["Øyvind", "für", "汉字"]] text_field = TextField(tokens, {"characters": token_indexer}) dataset = Dataset([Instance({"sentence": text_field})]) vocab = Vocabulary.from_dataset(dataset) text_field.index(vocab) indexed_tokens = deepcopy(text_field._indexed_tokens) # pylint: disable=protected-access vocab_dir = os.path.join(self.TEST_DIR, 'vocab_save') vocab.save_to_files(vocab_dir) vocab2 = Vocabulary.from_files(vocab_dir) text_field2 = TextField(tokens, {"characters": token_indexer}) text_field2.index(vocab2) indexed_tokens2 = deepcopy(text_field2._indexed_tokens) # pylint: disable=protected-access assert indexed_tokens == indexed_tokens2