Python ByteLevelBPETokenizer.enable_padding примеры использования

Язык программирования: Python

Пространство имен/Пакет: tokenizers

Класс/Тип: ByteLevelBPETokenizer

Метод/Функция: enable_padding

Примеров на hotexamples.com: 4

Python ByteLevelBPETokenizer.enable_padding - 4 примера найдено. Это лучшие примеры Python кода для tokenizers.ByteLevelBPETokenizer.enable_padding, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

ByteLevelBPETokenizer(30)

train(30)

save_model(30)

save(30)

encode(30)

token_to_id(23)

decode(19)

enable_truncation(13)

add_special_tokens(10)

get_vocab_size(10)

encode_batch(9)

from_file(5)

id_to_token(5)

pre_tokenizer(4)

enable_padding(4)

save_pretrained(3)

get_vocab(2)

add_tokens(2)

train_from_iterator(2)

model_max_length(1)

mask_token(1)

do_lower_case(1)

convert_tokens_to_ids(1)

cache_id(1)

to_str(1)

build_inputs_with_special_tokens(1)

tokenize(1)

Пример #1

Показать файл

def Tok_Train(input_file_path,vocab_size,output_path):
    """Train a Simple BPE Tokenizer"""
    GPTToken = ByteLevelBPETokenizer(lowercase=True)
    GPTToken.enable_padding()
    GPTToken.train([input_file_path],vocab_size=vocab_size,min_frequency=2,special_tokens=["PAD"])
    GPTToken.save_model(output_path)
    return None

Пример #2

Показать файл

    def __init__(self, max_tokens=512):

        ## RoBERTa uses BPE tokenizer similar to GPT
        t = ByteLevelBPETokenizer("tokenizer/vocab.json",
                                  "tokenizer/merges.txt")
        t._tokenizer.post_processor = BertProcessing(
            ("</s>", t.token_to_id("</s>")),
            ("<s>", t.token_to_id("<s>")),
        )
        t.enable_truncation(max_tokens)
        t.enable_padding(length=max_tokens, pad_id=t.token_to_id("<pad>"))
        self.tokenizer = t

Пример #3

Показать файл

Файл: ByteLevelBPETokenizer.py Проект: hemanths933/Transformers

def inference():

    from tokenizers import ByteLevelBPETokenizer
    from tokenizers.processors import BertProcessing
    '''
    initialize tokenizer with saved model files
    '''
    tokenizer = ByteLevelBPETokenizer(
        "./tok_checkpoints/tokenizer_model-vocab.json",
        "./tok_checkpoints/tokenizer_model-merges.txt",
    )
    '''
    optional step : preprocess the strings
    Ex: add <s> and </s> as BOS and EOS tokens to the string
        pad string to some max length and truncate string to some max length
    '''
    tokenizer._tokenizer.post_processor = BertProcessing(
        ("</s>", tokenizer.token_to_id("</s>")),
        ("<s>", tokenizer.token_to_id("<s>")),
    )
    tokenizer.enable_padding(pad_token='<pad>',
                             pad_id=tokenizer.get_vocab()['<pad>'],
                             length=20)
    tokenizer.enable_truncation(max_length=20)
    '''
    tokenize/encode strings
    '''
    input_ids = tokenizer.encode("Hello World, Whats up!!!").ids
    print("input ids", input_ids)
    tokens = tokenizer.encode("Hello World, Whats up!!!").tokens
    print("tokens", tokens)
    '''
    tokenize/encode batch of string
    '''
    batch_tokenized = tokenizer.encode_batch(
        ["Hello World, Whats up!!!", "Whata whata wa wada wada"])
    input_ids = [i.ids for i in batch_tokenized]
    print("input ids", input_ids)
    tokens = [i.tokens for i in batch_tokenized]
    print("tokens", tokens)

Пример #4

Показать файл

Файл: vocab_gen.py Проект: aatifjiwani/yelp-rating-predictor

class ByteBPETokenizer:
    def __init__(self, vocab_json, merge_txt, max_length=750):
        self.tokenizer = ByteLevelBPETokenizer(vocab_json, merge_txt)
        self.tokenizer.enable_truncation(max_length=max_length)
        self.tokenizer.enable_padding(max_length=max_length)
        self.tokenizer.add_special_tokens(["[PAD]", "[CLS]"])
        # self.tokenizer.post_processor = RobertaProcessing(("</s>", 2), ("<s>", 1))
        # self.tokenizer = RobertaTokenizer.from_pretrained('roberta-base')

    def encode(self, review):
        review = clean_sentence(review)
        encoded = self.tokenizer.encode(review.lower())
        # pp_encoded = self.tokenizer.post_process(encoded)
        return encoded

    def tokenize2Index(self, review, should_stem=False):
        encoded = self.encode(review)

        return encoded.ids

    def trainBPE(self, paths, vocab_size=30000, min_frequency=10, special_tokens=["[PAD]", "[CLS]"]):
        tokenizer = ByteLevelBPETokenizer()
        tokenizer.train(files=paths, vocab_size=vocab_size, min_frequency=min_frequency, special_tokens=special_tokens)
        tokenizer.save("yelp_bpe/", "yelp-bpe")