Exemplos de PreTrainedTokenizerFast.sep_token em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: transformers

Método / Função: sep_token

Exemplos em hotexamples.com: 2

PreTrainedTokenizerFast.sep_token em Python - 2 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de transformers.PreTrainedTokenizerFast.sep_token em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

PreTrainedTokenizerFast(28)

from_pretrained(25)

encode(6)

add_special_tokens(5)

pad_token(5)

encode_plus(4)

mask_token(4)

decode(3)

tokenize(3)

batch_decode(2)

cls_token(2)

convert_ids_to_tokens(2)

convert_tokens_to_ids(2)

save_pretrained(2)

sep_token(2)

unk_token(2)

get_vocab(1)

num_special_tokens_to_add(1)

Métodos Frequentes

PreTrainedTokenizerFast (28)

from_pretrained (25)

encode (6)

add_special_tokens (5)

pad_token (5)

encode_plus (4)

mask_token (4)

decode (3)

tokenize (3)

batch_decode (2)

Métodos Frequentes

cls_token (2)

convert_ids_to_tokens (2)

convert_tokens_to_ids (2)

save_pretrained (2)

sep_token (2)

unk_token (2)

get_vocab (1)

num_special_tokens_to_add (1)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: preprocess.py Projeto: antklen/data_fusion_solution

def preprocess(texts, tokenizer_path, max_len=32): input_ids, input_masks = [], [] tokenizer = PreTrainedTokenizerFast(tokenizer_file=tokenizer_path) tokenizer.mask_token = '[MASK]' tokenizer.pad_token = "[PAD]" tokenizer.sep_token = "[SEP]" tokenizer.cls_token = "[CLS]" tokenizer.unk_token = "[UNK]" for text in tqdm(texts): encoded = tokenizer.encode_plus(text, max_length=max_len, pad_to_max_length=True, truncation=True) input_ids.append(encoded['input_ids']) input_masks.append(encoded['attention_mask']) return [np.array(input_ids), np.array(input_masks)]

Exemplo n.º 2

0

Exibir arquivo

Arquivo: train_lm.py Projeto: antklen/data_fusion_solution

DATA_PATH = 'data/item_name.txt' parser = argparse.ArgumentParser(description='Training language model') parser.add_argument('--config_path', type=str, default='src/configs/train_lm1.yaml', help='path to config file') args = parser.parse_args() config = OmegaConf.load(args.config_path) print(OmegaConf.to_yaml(config)) os.environ['WANDB_DISABLED'] = 'true' tokenizer = PreTrainedTokenizerFast(tokenizer_file=config.tokenizer_path) tokenizer.mask_token = '[MASK]' tokenizer.pad_token = "[PAD]" tokenizer.sep_token = "[SEP]" tokenizer.cls_token = "[CLS]" tokenizer.unk_token = "[UNK]" distilbert_config = DistilBertConfig(vocab_size=config.vocab_size, n_heads=8, dim=512, hidden_dim=2048) model = DistilBertForMaskedLM(distilbert_config) dataset = LineByLineTextDataset( tokenizer=tokenizer, file_path=DATA_PATH, block_size=64) data_collator = DataCollatorForLanguageModeling( tokenizer=tokenizer, mlm=True, mlm_probability=config.mlm_probability)