Python BertWordPieceTokenizer.train_from_iterator Examples

Programming Language: Python

Namespace/Package Name: tokenizers

Method/Function: train_from_iterator

Examples at hotexamples.com: 3

Python BertWordPieceTokenizer.train_from_iterator - 3 examples found. These are the top rated real world Python examples of tokenizers.BertWordPieceTokenizer.train_from_iterator extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

BertWordPieceTokenizer(30)

encode(30)

train(30)

save(30)

save_model(25)

enable_truncation(23)

enable_padding(20)

decode(16)

encode_batch(12)

token_to_id(11)

get_vocab_size(11)

from_file(8)

get_vocab(3)

id_to_token(3)

train_from_iterator(3)

add_special_tokens(2)

pre_tokenizer(2)

do_lower_case(1)

to_str(1)

add_tokens(1)

tokenize(1)

convert_ids_to_tokens(1)

pad_token_id(1)

convert_tokens_to_ids(1)

decode_batch(1)

fit(1)

normalizer(1)

no_truncation(1)

no_padding(1)

with_truncation(1)

Example #1

Show file

File: test_bert_wordpiece.py Project: nicholaswellens/tokenizersFork

    def test_train_from_iterator(self):
        text = ["A first sentence", "Another sentence", "And a last one"]
        tokenizer = BertWordPieceTokenizer()
        tokenizer.train_from_iterator(text, show_progress=False)

        output = tokenizer.encode("A sentence")
        assert output.tokens == ["a", "sentence"]

Example #2

Show file

def load_from_dataset_bert_tokenizer(
    dataset_name="wikitext",
    dataset_config_name="wikitext-2-raw-v1",
    vocab_size=30000
):
    """
    Adapted from:
    https://github.com/huggingface/tokenizers/tree/master/bindings/python/examples
    If used frequently, save the model to avoid reloading

    tokenizer 0.10.0 required to train from dataset, but not supported by stable version
    of hugging face or datasets yet
    """

    from datasets import load_dataset

    tokenizer = BertWordPieceTokenizer(
        strip_accents=True,
        # following arguments are all same as default, listed for clarity
        clean_text=True,
        handle_chinese_chars=True,
        lowercase=True,
    )

    dataset = load_dataset(dataset_name, dataset_config_name)

    # Build an iterator over this dataset
    def batch_iterator():
        batch_length = 1000
        for i in range(0, len(dataset["train"]), batch_length):
            yield dataset["train"][i : i + batch_length]["text"]

    # Train
    tokenizer.train_from_iterator(
        batch_iterator(),
        length=len(dataset["train"]),
        # following arguments are all same as default, listed for clarity
        vocab_size=vocab_size,
        min_frequency=2,
        show_progress=True,
        special_tokens=["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"],
        limit_alphabet=1000,
        wordpieces_prefix="##",
    )

    return tokenizer

Example #3

Show file

File: train_wordpiece.py Project: kjhenner/bert_poetic

def train_tokenizer(file_iterator):

    # Initialize an empty tokenizer
    tokenizer = BertWordPieceTokenizer(
        clean_text=True,
        handle_chinese_chars=True,
        strip_accents=True,
        lowercase=True,
    )

    # And then train
    #tokenizer.train_from_iterator(
    tokenizer.train_from_iterator(
        file_iterator,
        vocab_size=1000,
        min_frequency=2,
        show_progress=True,
        special_tokens=["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"],
        limit_alphabet=1000,
        wordpieces_prefix="##",
    )

    # Save the files
    tokenizer.save_model(args.out, args.name)