Python Tokenizer.batch_encode_plus Beispiele

Programmiersprache: Python

Namespace / Paketname: tokenizers

Klasse / Typ: Tokenizer

Methode / Funktion: batch_encode_plus

Beispiele auf hotexamples.com: 1

Python Tokenizer.batch_encode_plus - 1 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die tokenizers.Tokenizer.batch_encode_plus, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

Tokenizer(30)

decoder(30)

save(30)

normalizer(30)

from_file(30)

train(30)

post_processor(30)

encode(30)

pre_tokenizer(30)

add_special_tokens(26)

token_to_id(24)

encode_batch(18)

train_from_iterator(17)

add_tokens(17)

enable_padding(13)

enable_truncation(12)

normalize(8)

model(8)

decode_batch(6)

decode(5)

get_vocab(5)

from_str(4)

get_vocab_size(3)

_process_all_1(3)

decoders(3)

save_pretrained(2)

save_model(2)

with_pre_tokenizer(2)

with_padding(2)

with_decoder(2)

with_truncation(2)

from_pretrained(2)

convert_tokens_to_ids(2)

post_process(1)

raise_error(1)

pad_token(1)

mask_token(1)

get_special_tokens_mask(1)

save_tokenizer(1)

to_str(1)

tokenize(1)

tokenize_and_pad_training_data(1)

encode_plus(1)

convert_ids_to_tokens(1)

build_inputs_with_special_tokens(1)

batch_encode_plus(1)

load_tokenizer(1)

Beispiel #1

Datei anzeigen

print("Single segment token (int): {}".format(single_seg_input['input_ids']))
print("Single segment type       : {}".format(
    single_seg_input['token_type_ids']))

# Segments are concatened in the input to the model, with
print()
print("Multi segment token (str): {}".format(
    tokenizer.convert_ids_to_tokens(multi_seg_input['input_ids'])))
print("Multi segment token (int): {}".format(multi_seg_input['input_ids']))
print("Multi segment type       : {}".format(
    multi_seg_input['token_type_ids']))

# Padding highlight
tokens = tokenizer.batch_encode_plus(
    ["This is a sample", "This is another longer sample text"],
    pad_to_max_length=
    True  # First sentence will have some PADDED tokens to match second sequence length
)

for i in range(2):
    print("Tokens (int)      : {}".format(tokens['input_ids'][i]))
    print("Tokens (str)      : {}".format(
        [tokenizer.convert_ids_to_tokens(s) for s in tokens['input_ids'][i]]))
    print("Tokens (attn_mask): {}".format(tokens['attention_mask'][i]))
    print()

from transformers import TFBertModel, BertModel

# Let's load a BERT model for TensorFlow and PyTorch
model_tf = TFBertModel.from_pretrained('bert-base-cased')
model_pt = BertModel.from_pretrained('bert-base-cased')