Python Vocab.extend Exemples

Langage de programmation: Python

Espace de nommage/Pack: utils.vocab

Class/Type: Vocab

Méthode/Fonction: extend

Exemples au hotexamples.com: 2

Python Vocab.extend - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de utils.vocab.Vocab.extend extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

Vocab(30)

load(22)

add(10)

from_file(8)

save(7)

add_word(5)

add_tokenized_sentence(3)

tokens2ids(3)

size(3)

tokens2indices(3)

finish(3)

set_freeze(2)

extend(2)

token2id(2)

process(2)

load_pretrained_emb(2)

__dict__(2)

get_freeze(2)

__get_index__(2)

__get_word__(2)

__len__(2)

build_vocab(2)

encode_sequence_batch(1)

build(1)

unmap(1)

top_words(1)

add_documents(1)

add_pad_token(1)

sequence_2_id(1)

add_unk_token(1)

randomly_init_embeddings(1)

add_words(1)

load_vocab(1)

load_from_pickle(1)

embeddings(1)

load_from_file(1)

load_embeddings(1)

inst2idx(1)

init_embed(1)

get_token(1)

get_size(1)

get_index(1)

contains(1)

from_iterable(1)

convert_tokens_to_ids(1)

create(1)

filter_tokens_by_cnt(1)

word_2_id(1)

Méthodes fréquemment utilisées

Vocab (30)

load (22)

add (10)

from_file (8)

save (7)

add_word (5)

add_tokenized_sentence (3)

tokens2ids (3)

size (3)

tokens2indices (3)

Méthodes fréquemment utilisées

finish (3)

set_freeze (2)

extend (2)

token2id (2)

process (2)

load_pretrained_emb (2)

__dict__ (2)

get_freeze (2)

__get_index__ (2)

__get_word__ (2)

__len__ (2)

build_vocab (2)

encode_sequence_batch (1)

build (1)

unmap (1)

top_words (1)

add_documents (1)

add_pad_token (1)

sequence_2_id (1)

add_unk_token (1)

Méthodes fréquemment utilisées

__len__ (2)

build_vocab (2)

encode_sequence_batch (1)

build (1)

unmap (1)

top_words (1)

add_documents (1)

add_pad_token (1)

sequence_2_id (1)

add_unk_token (1)

randomly_init_embeddings (1)

add_words (1)

load_vocab (1)

load_from_pickle (1)

embeddings (1)

load_from_file (1)

load_embeddings (1)

inst2idx (1)

init_embed (1)

get_token (1)

get_size (1)

get_index (1)

contains (1)

from_iterable (1)

convert_tokens_to_ids (1)

create (1)

filter_tokens_by_cnt (1)

word_2_id (1)

Méthodes fréquemment utilisées

randomly_init_embeddings (1)

add_words (1)

load_vocab (1)

load_from_pickle (1)

embeddings (1)

load_from_file (1)

load_embeddings (1)

inst2idx (1)

init_embed (1)

get_token (1)

get_size (1)

get_index (1)

contains (1)

from_iterable (1)

convert_tokens_to_ids (1)

create (1)

filter_tokens_by_cnt (1)

word_2_id (1)

Exemple #1

0

Afficher le fichier

class CharField(Field): def __init__(self, *args, **kwargs): self.fix_len = kwargs.pop('fix_len') if 'fix_len' in kwargs else -1 super(CharField, self).__init__(*args, **kwargs) def build(self, corpus, min_freq=1, embed=None): sequences = getattr(corpus, self.name) counter = Counter(char for sequence in sequences for token in sequence for char in self.transform(token)) self.vocab = Vocab(counter, min_freq, self.specials) if not embed: self.embed = None else: tokens = self.transform(embed.tokens) # if the `unk` token has existed in the pretrained, # then replace it with a self-defined one if embed.unk: tokens[embed.unk_index] = self.unk self.vocab.extend(tokens) self.embed = torch.zeros(len(self.vocab), embed.dim) self.embed[self.vocab.token2id(tokens)] = embed.vectors def numericalize(self, sequences): sequences = [[self.transform(token) for token in sequence] for sequence in sequences] if self.fix_len <= 0: self.fix_len = max(len(token) for sequence in sequences for token in sequence) if self.use_vocab: sequences = [[self.vocab.token2id(token) for token in sequence] for sequence in sequences] if self.bos: sequences = [[self.vocab.token2id(self.bos)] + sequence for sequence in sequences] if self.eos: sequences = [sequence + [self.vocab.token2id(self.eos)] for sequence in sequences] sequences = [ torch.tensor([ids[:self.fix_len] + [0] * (self.fix_len - len(ids)) for ids in sequence]) for sequence in sequences ] return sequences

Exemple #2

0

Afficher le fichier

class Field(object): def __init__(self, name, pad=None, unk=None, bos=None, eos=None, lower=False, use_vocab=True, tokenize=None, fn=None): self.name = name self.pad = pad self.unk = unk self.bos = bos self.eos = eos self.lower = lower self.use_vocab = use_vocab self.tokenize = tokenize self.fn = fn self.specials = [token for token in [pad, unk, bos, eos] if token is not None] def __repr__(self): s, params = f"({self.name}): {self.__class__.__name__}(", [] if self.pad is not None: params.append(f"pad={self.pad}") if self.unk is not None: params.append(f"unk={self.unk}") if self.bos is not None: params.append(f"bos={self.bos}") if self.eos is not None: params.append(f"eos={self.eos}") if self.lower: params.append(f"lower={self.lower}") if not self.use_vocab: params.append(f"use_vocab={self.use_vocab}") s += f", ".join(params) s += f")" return s @property def pad_index(self): return self.specials.index(self.pad) if self.pad is not None else 0 @property def unk_index(self): return self.specials.index(self.unk) if self.unk is not None else 0 @property def bos_index(self): return self.specials.index(self.bos) @property def eos_index(self): return self.specials.index(self.eos) def transform(self, sequence): if self.tokenize is not None: sequence = self.tokenize(sequence) if self.lower: sequence = [str.lower(token) for token in sequence] if self.fn is not None: sequence = [self.fn(token) for token in sequence] return sequence def build(self, corpus, min_freq=1, embed=None): sequences = getattr(corpus, self.name) counter = Counter(token for sequence in sequences for token in self.transform(sequence)) self.vocab = Vocab(counter, min_freq, self.specials) if not embed: self.embed = None else: tokens = self.transform(embed.tokens) # if the `unk` token has existed in the pretrained, # then replace it with a self-defined one if embed.unk: tokens[embed.unk_index] = self.unk self.vocab.extend(tokens) self.embed = torch.zeros(len(self.vocab), embed.dim) self.embed[self.vocab.token2id(tokens)] = embed.vectors self.embed /= torch.std(self.embed) def numericalize(self, sequences): sequences = [self.transform(sequence) for sequence in sequences] if self.use_vocab: sequences = [self.vocab.token2id(sequence) for sequence in sequences] if self.bos: sequences = [[self.bos_index] + sequence for sequence in sequences] if self.eos: sequences = [sequence + [self.eos_index] for sequence in sequences] sequences = [torch.tensor(sequence) for sequence in sequences] return sequences