Python FSMTTokenizer.from_pretrained示例

编程语言: Python

命名空间/包名称: transformers

类/类型: FSMTTokenizer

方法/功能: from_pretrained

hotexamples.com的示例: 5

Python FSMTTokenizer.from_pretrained - 已找到5个示例。这些是从开源项目中提取的最受好评的transformers.FSMTTokenizer.from_pretrained现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

from_pretrained(5)

prepare_seq2seq_batch(2)

FSMTTokenizer(1)

save_pretrained(1)

示例#1

显示文件

    def setup(self):
        # called on every GPU
        self.dataset = load_dataset("wmt14", "de-en", "val")
        self.tokenizer = FSMTTokenizer.from_pretrained("facebook/wmt19-de-en")

        self.vocab_size = self.tokenizer.vocab_size

        val_len = len(self.dataset["validation"])
        n_val = int(val_len*self.val_fraction)
        n_train = val_len - n_val

        for key in ["validation", "test"]:
            self.dataset[key] = self.dataset[key].map(self.tokenize)
        self.dataset["train"], self.dataset["validation"] = random_split(self.dataset["validation"], [n_train, n_val])

示例#2

显示文件

 def get_tokenizer(self, mname):
     if mname not in self.tokenizers_cache:
         self.tokenizers_cache[mname] = FSMTTokenizer.from_pretrained(mname)
     return self.tokenizers_cache[mname]

示例#3

显示文件

# This script creates a super tiny model that is useful inside tests, when we just want to test that
# the machinery works, without needing to the check the quality of the outcomes.
#
# This version creates a tiny model through reduction of a normal pre-trained model, but keeping the
# full vocab, merges file, and thus also resulting in a larger model due to a large vocab size.
# This gives ~3MB in total for all files.
#
# If you want a 50 times smaller than this see `fsmt-make-super-tiny-model.py`, which is slightly more complicated
#
#
# It will be used then as "stas/tiny-wmt19-en-de"

# Build
from transformers import FSMTTokenizer, FSMTConfig, FSMTForConditionalGeneration
mname = "facebook/wmt19-en-de"
tokenizer = FSMTTokenizer.from_pretrained(mname)
# get the correct vocab sizes, etc. from the master model
config = FSMTConfig.from_pretrained(mname)
config.update(dict(
    d_model=4,
    encoder_layers=1, decoder_layers=1,
    encoder_ffn_dim=4, decoder_ffn_dim=4,
    encoder_attention_heads=1, decoder_attention_heads=1))

tiny_model = FSMTForConditionalGeneration(config)
print(f"num of params {tiny_model.num_parameters()}")

# Test
batch = tokenizer(["Making tiny model"], return_tensors="pt")
outputs = tiny_model(**batch)

示例#4

显示文件

文件： test_fsmt_bleu_score.py 项目： mozhgans/transformers-1

 def get_tokenizer(self, mname):
     return FSMTTokenizer.from_pretrained(mname)

示例#5

显示文件

 def prepare_data(self):
     # called only on 1 GPU
     load_dataset("wmt14", "de-en", "val")
     FSMTTokenizer.from_pretrained("facebook/wmt19-de-en")