Exemplos de CharBPETokenizer.id_to_token em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: tokenizers

Classe / Tipo: CharBPETokenizer

Método / Função: id_to_token

Exemplos em hotexamples.com: 2

CharBPETokenizer.id_to_token em Python - 2 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de tokenizers.CharBPETokenizer.id_to_token em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

CharBPETokenizer(30)

train(22)

encode(19)

save(14)

get_vocab_size(6)

token_to_id(6)

decode(5)

from_file(4)

add_special_tokens(3)

add_tokens(3)

save_model(3)

id_to_token(2)

get_vocab(1)

pad_token_id(1)

train_from_iterator(1)

Métodos Frequentes

CharBPETokenizer (30)

train (22)

encode (19)

save (14)

get_vocab_size (6)

token_to_id (6)

decode (5)

from_file (4)

add_special_tokens (3)

add_tokens (3)

Métodos Frequentes

save_model (3)

id_to_token (2)

get_vocab (1)

pad_token_id (1)

train_from_iterator (1)

Exemplo n.º 1

0

Exibir arquivo

class SubwordEncoder: "Subword tokenization" def __init__(self, path='subword/'): """ Args: path: str, a path to vocab file. """ # Load vocab self.subword_tokenizer = CharBPETokenizer(vocab_file=path+"/bpe-vocab.json", merges_file=path+"/bpe-merges.txt") self.encode = self._encode_subwords self.id_to_token = self._id_to_subword() self.token_to_id = self._subword_to_id() def get_vocab_size(self): return self.subword_tokenizer.get_vocab_size() def _encode_subwords(self, sentence, with_eos): """ Args: sentence: str, texts to be encoded. with_eos: end with <EOS> token. Returns: tokens: list, encoded sequence. """ tokens = self.subword_tokenizer.encode(sentence).ids if with_eos: tokens += [2] # 2 is the id of <EOS> token return tokens def _id_to_subword(self): id2subword = {} for i in range(self.get_vocab_size()): id2subword[i] = self.subword_tokenizer.id_to_token(i) return id2subword def _subword_to_id(self): subword2id = {} for i in range(self.get_vocab_size()): subword2id[self.subword_tokenizer.id_to_token(i)] = i return subword2id

Exemplo n.º 2

0

Exibir arquivo

class BPETokenizer: def __init__(self, text_list, vocab_size, lazy=False): if not lazy: self.tokenizer = CharBPETokenizer() self.tokenizer.train(text_list, vocab_size=vocab_size, special_tokens=[PAD, BOS, EOS, "<unk>"]) self.tokenizer.add_special_tokens([PAD, BOS, EOS]) else: self.tokenizer = None def tokens_to_ids(self, tokens): return [self.tokenizer.token_to_id(t) for t in tokens] def ids_to_tokens(self, ids): return [self.tokenizer.id_to_token(i) for i in ids] def encode(self, text): encodes = self.tokenizer.encode(text) return encodes.ids def decode(self, ids, skip_special=True): return self.tokenizer.decode(ids, skip_special_tokens=skip_special) def save(self, path, file_name): self.tokenizer.save(path, file_name) @classmethod def load(cls, vocab, merges): tkz = cls(None, None, lazy=True) tkz.tokenizer = CharBPETokenizer(vocab, merges) tkz.tokenizer.add_special_tokens([PAD, BOS, EOS]) return tkz def __len__(self): return self.tokenizer.get_vocab_size()