Exemplos de SentencePieceBPETokenizer.save_model em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: tokenizers

Classe / Tipo: SentencePieceBPETokenizer

Método / Função: save_model

Exemplos em hotexamples.com: 2

SentencePieceBPETokenizer.save_model em Python - 2 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de tokenizers.SentencePieceBPETokenizer.save_model em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

SentencePieceBPETokenizer(30)

train(14)

encode(13)

save(11)

token_to_id(7)

from_file(6)

decode(4)

raise_error(2)

save_model(2)

get_vocab_size(2)

id_to_token(2)

add_special_tokens(2)

encode_batch(2)

enable_padding(2)

mask_token_id(1)

enable_truncation(1)

train_from_iterator(1)

Métodos Frequentes

SentencePieceBPETokenizer (30)

train (14)

encode (13)

save (11)

token_to_id (7)

from_file (6)

decode (4)

raise_error (2)

save_model (2)

get_vocab_size (2)

Métodos Frequentes

id_to_token (2)

add_special_tokens (2)

encode_batch (2)

enable_padding (2)

mask_token_id (1)

enable_truncation (1)

train_from_iterator (1)

Exemplo n.º 1

0

Exibir arquivo

def train(corpus_list, vocab_size, output, output_name=None): print("create tokenizer...") tokenizer = SentencePieceBPETokenizer() print("load corpus list...") corpus_list = open(corpus_list).read().split('\n')[:-1] print("train tokenizer...") tokenizer.train( corpus_list, vocab_size=vocab_size, special_tokens=["<s>", "<pad>", "</s>", "<unk>", "<mask>"]) print("save model...") tokenizer.save_model(output, output_name)

Exemplo n.º 2

0

Exibir arquivo

from pathlib import Path from omegaconf import OmegaConf from tokenizers import SentencePieceBPETokenizer root_dir = Path("../..") config_dir = root_dir / "configs" dataset_config = OmegaConf.load(config_dir / "data" / "wmt14.en-de.yaml") tokenizer_config = OmegaConf.load(config_dir / "tokenizer" / "sentencepiece_bpe_wmt14_en-de.yaml") tokenizer = SentencePieceBPETokenizer() tokenizer.train( [ str(root_dir / dataset_config.path.source_train), str(root_dir / dataset_config.path.target_train), ], vocab_size=tokenizer_config.vocab_size, min_frequency=tokenizer_config.min_frequency, special_tokens=list(tokenizer_config.special_tokens), limit_alphabet=tokenizer_config.limit_alphabet, ) tokenizer.save_model(directory=".", name=tokenizer_config.tokenizer_name)