Python SentencePieceBPETokenizer.save_model Beispiele

Programmiersprache: Python

Namespace / Paketname: tokenizers

Methode / Funktion: save_model

Beispiele auf hotexamples.com: 2

Python SentencePieceBPETokenizer.save_model - 2 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die tokenizers.SentencePieceBPETokenizer.save_model, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

SentencePieceBPETokenizer(30)

train(14)

encode(13)

save(11)

token_to_id(7)

from_file(6)

decode(4)

raise_error(2)

save_model(2)

get_vocab_size(2)

id_to_token(2)

add_special_tokens(2)

encode_batch(2)

enable_padding(2)

mask_token_id(1)

enable_truncation(1)

train_from_iterator(1)

Beispiel #1

Datei anzeigen

 def train(corpus_list, vocab_size, output, output_name=None):
     print("create tokenizer...")
     tokenizer = SentencePieceBPETokenizer()
     print("load corpus list...")
     corpus_list = open(corpus_list).read().split('\n')[:-1]
     print("train tokenizer...")
     tokenizer.train(
         corpus_list,
         vocab_size=vocab_size,
         special_tokens=["<s>", "<pad>", "</s>", "<unk>", "<mask>"])
     print("save model...")
     tokenizer.save_model(output, output_name)

Beispiel #2

Datei anzeigen

from pathlib import Path

from omegaconf import OmegaConf
from tokenizers import SentencePieceBPETokenizer

root_dir = Path("../..")
config_dir = root_dir / "configs"
dataset_config = OmegaConf.load(config_dir / "data" / "wmt14.en-de.yaml")
tokenizer_config = OmegaConf.load(config_dir / "tokenizer" /
                                  "sentencepiece_bpe_wmt14_en-de.yaml")

tokenizer = SentencePieceBPETokenizer()
tokenizer.train(
    [
        str(root_dir / dataset_config.path.source_train),
        str(root_dir / dataset_config.path.target_train),
    ],
    vocab_size=tokenizer_config.vocab_size,
    min_frequency=tokenizer_config.min_frequency,
    special_tokens=list(tokenizer_config.special_tokens),
    limit_alphabet=tokenizer_config.limit_alphabet,
)
tokenizer.save_model(directory=".", name=tokenizer_config.tokenizer_name)