Exemplos de CharBPETokenizer.from_file em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: tokenizers

Classe / Tipo: CharBPETokenizer

Método / Função: from_file

Exemplos em hotexamples.com: 4

CharBPETokenizer.from_file em Python - 4 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de tokenizers.CharBPETokenizer.from_file em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

CharBPETokenizer(30)

train(22)

encode(19)

save(14)

get_vocab_size(6)

token_to_id(6)

decode(5)

from_file(4)

add_special_tokens(3)

add_tokens(3)

save_model(3)

id_to_token(2)

get_vocab(1)

pad_token_id(1)

train_from_iterator(1)

Métodos Frequentes

CharBPETokenizer (30)

train (22)

encode (19)

save (14)

get_vocab_size (6)

token_to_id (6)

decode (5)

from_file (4)

add_special_tokens (3)

add_tokens (3)

Métodos Frequentes

save_model (3)

id_to_token (2)

get_vocab (1)

pad_token_id (1)

train_from_iterator (1)

Exemplo n.º 1

0

Exibir arquivo

def test_basic_encode(self, openai_files): tokenizer = CharBPETokenizer.from_file(openai_files["vocab"], openai_files["merges"]) output = tokenizer.encode("My name is John", "pair") assert output.ids == [0, 253, 1362, 544, 0, 7, 12662, 2688] assert output.tokens == [ "<unk>", "y</w>", "name</w>", "is</w>", "<unk>", "o", "hn</w>", "pair</w>", ] assert output.offsets == [ (0, 1), (1, 2), (3, 7), (8, 10), (11, 12), (12, 13), (13, 15), (0, 4), ] assert output.type_ids == [0, 0, 0, 0, 0, 0, 0, 1]

Exemplo n.º 2

0

Exibir arquivo

def test_lowercase(self, openai_files): tokenizer = CharBPETokenizer.from_file(openai_files["vocab"], openai_files["merges"], lowercase=True) output = tokenizer.encode("My name is John", "pair", add_special_tokens=False) assert output.ids == [547, 1362, 544, 2476, 2688] assert output.tokens == [ "my</w>", "name</w>", "is</w>", "john</w>", "pair</w>" ] assert output.offsets == [(0, 2), (3, 7), (8, 10), (11, 15), (0, 4)] assert output.type_ids == [0, 0, 0, 0, 1]

Exemplo n.º 3

0

Exibir arquivo

def test_multiprocessing_with_parallelism(self, openai_files): tokenizer = CharBPETokenizer.from_file(openai_files["vocab"], openai_files["merges"]) multiprocessing_with_parallelism(tokenizer, False) multiprocessing_with_parallelism(tokenizer, True)

Exemplo n.º 4

0

Exibir arquivo

def test_decoding(self, openai_files): tokenizer = CharBPETokenizer.from_file(openai_files["vocab"], openai_files["merges"], lowercase=True) decoded = tokenizer.decode(tokenizer.encode("my name is john").ids) assert decoded == "my name is john"