Python BertWordPieceTokenizer.train_from_iterator 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: tokenizers

메소드/함수: train_from_iterator

hotexamples.com에서의 예제들: 3

Python BertWordPieceTokenizer.train_from_iterator - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 tokenizers.BertWordPieceTokenizer.train_from_iterator에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

BertWordPieceTokenizer(30)

encode(30)

train(30)

save(30)

save_model(25)

enable_truncation(23)

enable_padding(20)

decode(16)

encode_batch(12)

token_to_id(11)

get_vocab_size(11)

from_file(8)

get_vocab(3)

id_to_token(3)

train_from_iterator(3)

add_special_tokens(2)

pre_tokenizer(2)

do_lower_case(1)

to_str(1)

add_tokens(1)

tokenize(1)

convert_ids_to_tokens(1)

pad_token_id(1)

convert_tokens_to_ids(1)

decode_batch(1)

fit(1)

normalizer(1)

no_truncation(1)

no_padding(1)

with_truncation(1)

예제 #1

파일 보기

파일: test_bert_wordpiece.py 프로젝트: nicholaswellens/tokenizersFork

    def test_train_from_iterator(self):
        text = ["A first sentence", "Another sentence", "And a last one"]
        tokenizer = BertWordPieceTokenizer()
        tokenizer.train_from_iterator(text, show_progress=False)

        output = tokenizer.encode("A sentence")
        assert output.tokens == ["a", "sentence"]

예제 #2

파일 보기

def load_from_dataset_bert_tokenizer(
    dataset_name="wikitext",
    dataset_config_name="wikitext-2-raw-v1",
    vocab_size=30000
):
    """
    Adapted from:
    https://github.com/huggingface/tokenizers/tree/master/bindings/python/examples
    If used frequently, save the model to avoid reloading

    tokenizer 0.10.0 required to train from dataset, but not supported by stable version
    of hugging face or datasets yet
    """

    from datasets import load_dataset

    tokenizer = BertWordPieceTokenizer(
        strip_accents=True,
        # following arguments are all same as default, listed for clarity
        clean_text=True,
        handle_chinese_chars=True,
        lowercase=True,
    )

    dataset = load_dataset(dataset_name, dataset_config_name)

    # Build an iterator over this dataset
    def batch_iterator():
        batch_length = 1000
        for i in range(0, len(dataset["train"]), batch_length):
            yield dataset["train"][i : i + batch_length]["text"]

    # Train
    tokenizer.train_from_iterator(
        batch_iterator(),
        length=len(dataset["train"]),
        # following arguments are all same as default, listed for clarity
        vocab_size=vocab_size,
        min_frequency=2,
        show_progress=True,
        special_tokens=["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"],
        limit_alphabet=1000,
        wordpieces_prefix="##",
    )

    return tokenizer

예제 #3

파일 보기

파일: train_wordpiece.py 프로젝트: kjhenner/bert_poetic

def train_tokenizer(file_iterator):

    # Initialize an empty tokenizer
    tokenizer = BertWordPieceTokenizer(
        clean_text=True,
        handle_chinese_chars=True,
        strip_accents=True,
        lowercase=True,
    )

    # And then train
    #tokenizer.train_from_iterator(
    tokenizer.train_from_iterator(
        file_iterator,
        vocab_size=1000,
        min_frequency=2,
        show_progress=True,
        special_tokens=["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"],
        limit_alphabet=1000,
        wordpieces_prefix="##",
    )

    # Save the files
    tokenizer.save_model(args.out, args.name)