Exemplos de FSMTTokenizer.from_pretrained em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: transformers.tokenization_fsmt

Classe / Tipo: FSMTTokenizer

Método / Função: from_pretrained

Exemplos em hotexamples.com: 7

FSMTTokenizer.from_pretrained em Python - 7 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de transformers.tokenization_fsmt.FSMTTokenizer.from_pretrained em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

from_pretrained(7)

FSMTTokenizer(1)

convert_tokens_to_ids(1)

tokenize(1)

Métodos Frequentes

from_pretrained (7)

FSMTTokenizer (1)

convert_tokens_to_ids (1)

tokenize (1)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: test_tokenization_fsmt.py Projeto: zoe9698/transformers

def test_online_tokenizer_config(self): """this just tests that the online tokenizer files get correctly fetched and loaded via its tokenizer_config.json and it's not slow so it's run by normal CI """ tokenizer = FSMTTokenizer.from_pretrained(FSMT_TINY2) self.assertListEqual([tokenizer.src_lang, tokenizer.tgt_lang], ["en", "ru"]) self.assertEqual(tokenizer.src_vocab_size, 21) self.assertEqual(tokenizer.tgt_vocab_size, 21)

Exemplo n.º 2

0

Exibir arquivo

def test_tokenizer_lower(self): tokenizer = FSMTTokenizer.from_pretrained("facebook/wmt19-ru-en", do_lower_case=True) tokens = tokenizer.tokenize("USA is United States of America") expected = [ "us", "a</w>", "is</w>", "un", "i", "ted</w>", "st", "ates</w>", "of</w>", "am", "er", "ica</w>" ] self.assertListEqual(tokens, expected)

Exemplo n.º 3

0

Exibir arquivo

Arquivo: fsmt-paraphrase.py Projeto: stjordanis/porting

def translate(src, tgt, text): # to switch to local model #mname = "/code/huggingface/transformers-fair-wmt/data/wmt19-{src}-{tgt}" # s3 uploaded model mname = f"stas/wmt19-{src}-{tgt}" tokenizer = FSMTTokenizer.from_pretrained(mname) model = FSMTForConditionalGeneration.from_pretrained(mname) encoded = tokenizer.encode(text, return_tensors='pt') # print(encoded) output = model.generate(encoded, num_beams=5, early_stopping=True)[0] # print(output) decoded = tokenizer.decode(output, skip_special_tokens=True) #print(decoded) return decoded

Exemplo n.º 4

0

Exibir arquivo

Arquivo: test_tokenization_fsmt.py Projeto: sshleifer/transformers_fork

def tokenizer_en_ru(self): return FSMTTokenizer.from_pretrained("facebook/wmt19-en-ru")

Exemplo n.º 5

0

Exibir arquivo

Arquivo: test_tokenization_fsmt.py Projeto: sshleifer/transformers_fork

def tokenizer_ru_en(self): return FSMTTokenizer.from_pretrained("facebook/wmt19-ru-en")

Exemplo n.º 6

0

Exibir arquivo

if k in d1 and k in d2: if not cmp_func(d1[k], d2[k]): ok = 0 print(f"! Key {k} mismatches:") if d1[k].shape != d2[k].shape: print(f"- Shapes: \n{d1[k].shape}\n{d2[k].shape}") print(f"- Values:\n{d1[k]}\n{d2[k]}\n") else: ok = 0 which = "1st" if k in d2 else "2nd" print(f"{which} dict doesn't have key {k}\n") if ok: print('Models match') tokenizer = FSMTTokenizer.from_pretrained(mname) model = FSMTForConditionalGeneration.from_pretrained(mname) # this fixes the problem import torch d2 = torch.load("/tmp/new.pt") compare_state_dicts(model.state_dict(), d2) #model.load_state_dict(d2) #model.load_state_dict(torch.load("/tmp/new.pt")) print("Wrong shape?", model.state_dict()['model.decoder.embed_tokens.weight'].shape) sentence = "Машинное обучение - это здорово! Ты молодец." input_ids = tokenizer.encode(sentence, return_tensors='pt') print(input_ids)

Exemplo n.º 7

0

Exibir arquivo

Arquivo: fsmt-decode.py Projeto: stjordanis/porting

#!/usr/bin/env python # coding: utf-8 # this script just does a decode of outputs codes import sys sys.path.insert(0, "/code/huggingface/transformers-fair-wmt/src") from transformers.tokenization_fsmt import FSMTTokenizer tokenizer = FSMTTokenizer.from_pretrained('stas/wmt19-ru-en') outputs = [[ 2, 5494, 3221, 21, 1054, 427, 739, 4952, 11, 700, 18128, 7, 2]] decoded = tokenizer.decode(outputs[0], skip_special_tokens=True) print(decoded)