Ejemplos de BertWordPieceTokenizer.pre_tokenizer en Python

Lenguaje de programación: Python

Namespace/Package Name: tokenizers

Método / Función: pre_tokenizer

Ejemplos en hotexamples.com: 2

Python BertWordPieceTokenizer.pre_tokenizer - 2 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de tokenizers.BertWordPieceTokenizer.pre_tokenizer extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

BertWordPieceTokenizer(30)

encode(30)

train(30)

save(30)

save_model(25)

enable_truncation(23)

enable_padding(20)

decode(16)

encode_batch(12)

token_to_id(11)

get_vocab_size(11)

from_file(8)

get_vocab(3)

id_to_token(3)

train_from_iterator(3)

add_special_tokens(2)

pre_tokenizer(2)

do_lower_case(1)

to_str(1)

add_tokens(1)

tokenize(1)

convert_ids_to_tokens(1)

pad_token_id(1)

convert_tokens_to_ids(1)

decode_batch(1)

fit(1)

normalizer(1)

no_truncation(1)

no_padding(1)

with_truncation(1)

Ejemplo n.º 1

Mostrar archivo

        print(v)

    # Start vocabulary with all standard special tokens. (PAD=0!)
    vocab = {}
    for special_token in ["[PAD]", "[CLS]", "[SEP]", "[UNK]", "[MASK]", "[BOS]", "[EOS]"]:
        vocab[special_token] = len(vocab)
    # Add other words - if not already present.
    for w in words:
        if w not in vocab:
            vocab[w] = len(vocab)
    print(vocab)

    # New tokenizer.
    init_tokenizer = BertWordPieceTokenizer(vocab=vocab) 
    init_tokenizer.normalizer = Sequence([Replace("(", " ( "), Replace(")", " ) "), BertNormalizer()])
    init_tokenizer.pre_tokenizer = Whitespace()
    #init_tokenizer.pad_token_id = vocab["[PAD]"]
    #print("Created tokenizer: ", init_tokenizer)

    # Save the created tokenizer.
    init_tokenizer.save(decoder_tokenizer_path)
    print("Tokenizer saved to: ", decoder_tokenizer_path)

# Load from tokenizer file.
tokenizer = PreTrainedTokenizerFast(tokenizer_file=decoder_tokenizer_path)
tokenizer.add_special_tokens({'pad_token': '[PAD]', 'cls_token': '[CLS]', 'sep_token': '[SEP]',
    'unk_token': '[UNK]', 'mask_token': '[MASK]', 'bos_token': '[BOS]', 'eos_token': '[EOS]'
    })

print(f"\nLoaded tokenizer vocabulary ({len(tokenizer.get_vocab())}):\n" + "-"*50)
for k, v in tokenizer.get_vocab().items():

Ejemplo n.º 2

Mostrar archivo

Archivo: create_pretrained_tokenizer_vocabulary.py Proyecto: mbencherif/SFUTranslate

    def pre_tokenize(self, text):
        return self.moses_tokenizer.tokenize(self.mpn.normalize(text.lower() if self.do_lowercase else text))


if __name__ == '__main__':
    lang = 'fr'
    clean_text = False
    handle_chinese_chars = True
    strip_accents = False
    lowercase = True
    vocab_size = 30000
    min_frequency = 2
    spt = ["<s>", "<pad>", "</s>", "<unk>", "<mask>", "[UNK]", "[SEP]", "[CLS]", "[PAD]", "[MASK]"]
    if lang == "fr":
        train_data = "../.data/wmt19_de_fr/train.fr"
    elif lang == "en":
        train_data = "../.data/wmt19_en_de/train.en"
    else:
        raise ValueError("Undefined language {}".format(lang))

    tokenizer = BertWordPieceTokenizer(clean_text=clean_text, lowercase=lowercase,
                                       handle_chinese_chars=handle_chinese_chars, strip_accents=strip_accents)
    tokenizer.pre_tokenizer = MosesPreTokenizer(lang, lowercase)

    # Customize training
    print("Starting to train ...")
    tokenizer.train(files=train_data, vocab_size=vocab_size, show_progress=True, min_frequency=min_frequency, special_tokens=spt)
    # Save files to disk
    tokenizer.save_model(".", "moses-pre-tokenized-wmt-uncased-{}".format(lang))