Python ByteLevelBPETokenizer.saveの例

プログラミング言語: Python

名前空間/パッケージ名: tokenizers.implementations

メソッド/関数: save

hotexamples.comのコード掲載数: 2

Python ByteLevelBPETokenizer.save - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのtokenizers.implementations.ByteLevelBPETokenizer.saveの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

ByteLevelBPETokenizer(24)

token_to_id(9)

train(9)

enable_truncation(8)

encode(8)

save_model(5)

encode_batch(3)

get_vocab(3)

enable_padding(2)

save(2)

コード例 #1

ファイルを表示

ファイル: pretrain.py プロジェクト: AlexanderFalk/nlpproject

    def pretrain_tokenization(self):
        paths = [str(x) for x in Path("handler/datadir/").glob("*-train.txt")]
        print(paths)
        tokenizer = ByteLevelBPETokenizer()

        tokenizer.train(files=paths, vocab_size=52_000, min_frequency=2, special_tokens=["<s>", "<pad>", "</s>", "<unk>", "<mask>"])

        tokenizer.save(".", "danbert-small")

コード例 #2

ファイルを表示

ファイル: train.py プロジェクト: jamiekang/sagemaker-aihub

paths = [str(x) for x in Path(args.data_dir).glob("**/*.txt")]
print("data files")
print(paths)

# Initialize a tokenizer
tokenizer = ByteLevelBPETokenizer()

# Customize training
tokenizer.train(files=paths,
                vocab_size=52_000,
                min_frequency=2,
                special_tokens=["<s>", "<pad>", "</s>", "<unk>", "<mask>"])

# Need to save it to model dir for inference
tokenizer.save(args.model_dir)

tokenizer = ByteLevelBPETokenizer(os.path.join(args.model_dir, "vocab.json"),
                                  os.path.join(args.model_dir, "merges.txt"))

tokenizer._tokenizer.post_processor = BertProcessing(
    ("</s>", tokenizer.token_to_id("</s>")),
    ("<s>", tokenizer.token_to_id("<s>")))
tokenizer.enable_truncation(max_length=args.token_max_len)

print(tokenizer.encode("Nay, but speak not."))
print(tokenizer.encode("Nay, but speak not.").tokens)

from transformers import RobertaConfig

config = RobertaConfig(vocab_size=args.vocab_size,