Python Tokenizer.build_inputs_with_special_tokens Beispiele

Programmiersprache: Python

Namespace / Paketname: tokenizers

Klasse / Typ: Tokenizer

Methode / Funktion: build_inputs_with_special_tokens

Beispiele auf hotexamples.com: 1

Python Tokenizer.build_inputs_with_special_tokens - 1 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die tokenizers.Tokenizer.build_inputs_with_special_tokens, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

Tokenizer(30)

decoder(30)

save(30)

normalizer(30)

from_file(30)

train(30)

post_processor(30)

encode(30)

pre_tokenizer(30)

add_special_tokens(26)

token_to_id(24)

encode_batch(18)

train_from_iterator(17)

add_tokens(17)

enable_padding(13)

enable_truncation(12)

normalize(8)

model(8)

decode_batch(6)

decode(5)

get_vocab(5)

from_str(4)

get_vocab_size(3)

_process_all_1(3)

decoders(3)

save_pretrained(2)

save_model(2)

with_pre_tokenizer(2)

with_padding(2)

with_decoder(2)

with_truncation(2)

from_pretrained(2)

convert_tokens_to_ids(2)

post_process(1)

raise_error(1)

pad_token(1)

mask_token(1)

get_special_tokens_mask(1)

save_tokenizer(1)

to_str(1)

tokenize(1)

tokenize_and_pad_training_data(1)

encode_plus(1)

convert_ids_to_tokens(1)

build_inputs_with_special_tokens(1)

batch_encode_plus(1)

load_tokenizer(1)

Beispiel #1

Datei anzeigen

# We need to create the model and tokenizer
model = AutoModel.from_pretrained(MODEL_NAME)
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)

# Tokens comes from a process that splits the input into sub-entities with interesting linguistic properties.
tokens = tokenizer.tokenize("This is an input example")
print("Tokens: {}".format(tokens))

# This is not sufficient for the model, as it requires integers as input,
# not a problem, let's convert tokens to ids.
tokens_ids = tokenizer.convert_tokens_to_ids(tokens)
print("Tokens id: {}".format(tokens_ids))

# Add the required special tokens
tokens_ids = tokenizer.build_inputs_with_special_tokens(tokens_ids)

# We need to convert to a Deep Learning framework specific format, let's use PyTorch for now.
tokens_pt = torch.tensor([tokens_ids])
print("Tokens PyTorch: {}".format(tokens_pt))

# Now we're ready to go through BERT with out input
outputs, pooled = model(tokens_pt)
print("Token wise output: {}, Pooled output: {}".format(
    outputs.shape, pooled.shape))

# Same thing factored into one-line as follow
tokens_pt2 = tokenizer.encode_plus("This is an input example",
                                   return_tensors="pt")

for key, value in tokens_pt2.items():