Python Tokenizer.save_tokenizer Beispiele

Programmiersprache: Python

Namespace / Paketname: tokenizers

Klasse / Typ: Tokenizer

Methode / Funktion: save_tokenizer

Beispiele auf hotexamples.com: 1

Python Tokenizer.save_tokenizer - 1 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die tokenizers.Tokenizer.save_tokenizer, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

Tokenizer(30)

decoder(30)

save(30)

normalizer(30)

from_file(30)

train(30)

post_processor(30)

encode(30)

pre_tokenizer(30)

add_special_tokens(26)

token_to_id(24)

encode_batch(18)

train_from_iterator(17)

add_tokens(17)

enable_padding(13)

enable_truncation(12)

normalize(8)

model(8)

decode_batch(6)

decode(5)

get_vocab(5)

from_str(4)

get_vocab_size(3)

_process_all_1(3)

decoders(3)

save_pretrained(2)

save_model(2)

with_pre_tokenizer(2)

with_padding(2)

with_decoder(2)

with_truncation(2)

from_pretrained(2)

convert_tokens_to_ids(2)

post_process(1)

raise_error(1)

pad_token(1)

mask_token(1)

get_special_tokens_mask(1)

save_tokenizer(1)

to_str(1)

tokenize(1)

tokenize_and_pad_training_data(1)

encode_plus(1)

convert_ids_to_tokens(1)

build_inputs_with_special_tokens(1)

batch_encode_plus(1)

load_tokenizer(1)

Beispiel #1

Datei anzeigen

                    EPOCHS,
                    SAVE_AT,
                    LEARNING_RATE,
                    BATCH_SIZE,
                    VERBOSE,
                    LOSS)

tokenizer = Tokenizer()

encoder_input_data, decoder_input_data, decoder_output_data = create_training_data()  # parsing the dataset and creating conversation pairs

encoder_input_data, decoder_input_data, decoder_output_data = tokenizer.tokenize_and_pad_training_data(encoder_input_data,
                                                                                                        decoder_input_data,
                                                                                                        decoder_output_data)  # tokenizing and padding those pairs

tokenizer.save_tokenizer(f'tokenizer-vocab_size-{VOCAB_SIZE}')  # saving tokenizer for layer use

Seq2SeqModel = seq2seq()  # creating the seq2seq model

optimizer = tf.keras.optimizers.Adam(learning_rate=LEARNING_RATE, clipnorm=1.0, clipvalue=0.5)
Seq2SeqModel.compile(optimizer=optimizer, loss=LOSS, metrics=['accuracy'])
Seq2SeqModel.summary()

def train(model, encoder_input_data, decoder_input_data, decoder_output_data, epochs, batch_size, verbose, save_at):
    with tf.device('/device:GPU:0' if utils.check_cuda else '/cpu:0'):
        for epoch in range(1, epochs+1):
            print(f'Epochs {epoch}/{epochs}')
            model.fit([encoder_input_data, decoder_input_data], decoder_output_data, batch_size=batch_size, epochs=1, verbose=verbose)
            if epoch % SAVE_AT == 0:
                model.save_weights(f'seq2seq-weights-{epochs}-epochs-{LEARNING_RATE}-learning_rate.h5')