Python BertWordPieceTokenizer.save_model示例

编程语言: Python

命名空间/包名称: tokenizers.implementations

方法/功能: save_model

hotexamples.com的示例: 3

Python BertWordPieceTokenizer.save_model - 已找到3个示例。这些是从开源项目中提取的最受好评的tokenizers.implementations.BertWordPieceTokenizer.save_model现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

BertWordPieceTokenizer(9)

train(4)

encode(3)

save_model(3)

enable_truncation(1)

encode_batch(1)

save(1)

train_from_iterator(1)

示例#1

显示文件

文件： tokenizers.py 项目： lgessler/embur

def train_bert_tokenizer(sentences: List[str],
                         serialize_path: str,
                         vocab_size: int = 6000) -> BertWordPieceTokenizer:
    tokenizer = BertWordPieceTokenizer(
        clean_text=True,
        handle_chinese_chars=False,
        strip_accents=False,
        lowercase=False,
    )
    tokenizer.train_from_iterator(
        sentences,
        vocab_size=vocab_size,
        min_frequency=2,
        show_progress=True,
        special_tokens=["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"],
        limit_alphabet=500,
        wordpieces_prefix="##",
    )

    # Save the files--first write out the vocab, then use BertTokenizer's save_pretrained
    tokenizer.save_model(serialize_path)
    bert_tokenizer = BertTokenizer.from_pretrained(serialize_path + os.sep +
                                                   "vocab.txt")
    bert_tokenizer.save_pretrained(serialize_path)
    os.rename(serialize_path + os.sep + "tokenizer_config.json",
              serialize_path + os.sep + "config.json")
    return bert_tokenizer

示例#2

显示文件

文件： tokenizer.py 项目： tndls9304/nlp_torch_study

 def training_WordPiece(self):
     tokenizer = BertWordPieceTokenizer(vocab=None,
                                        clean_text=True,
                                        handle_chinese_chars=True,
                                        strip_accents=True,
                                        lowercase=True,
                                        wordpieces_prefix='##')
     tokenizer.train([
         os.path.join(self.corpus_dir_path, file_path)
         for file_path in os.listdir(self.corpus_dir_path)
         if 'mecab' in file_path
     ],
                     limit_alphabet=self.config['limit_alphabet'],
                     vocab_size=self.config['vocab_size'],
                     special_tokens=self.get_special_tokens())
     print('training WordPiece is finished!')
     tokenizer.save_model(self.config['tokenizer_path'], prefix='tokenizer')
     print('tokenizer is saved in {}'.format(
         os.path.join(self.config['tokenizer_path'],
                      'tokenizer-vocab.txt')))

示例#3

显示文件

文件： train_tokenizer.py 项目： cybo1112/cantoformer

import tokenizers
from transformers import BertTokenizer
import glob
from tokenizers.implementations import BertWordPieceTokenizer

tokenizer = BertWordPieceTokenizer()
tokenizer = BertWordPieceTokenizer(
    clean_text=True,
    handle_chinese_chars=True,
    strip_accents=True,
    lowercase=True,
)
files = glob.glob("./corpus_for_tokenization/*.txt")

tokenizer.train(files,
                vocab_size=50000,
                min_frequency=3,
                show_progress=True,
                special_tokens=["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"],
                limit_alphabet=15000,
                wordpieces_prefix="##")
tokenizer.save_model("./")