Python BertTokenizerFast.add_special_tokens示例

编程语言: Python

命名空间/包名称: transformers

方法/功能: add_special_tokens

hotexamples.com的示例: 2

Python BertTokenizerFast.add_special_tokens - 已找到2个示例。这些是从开源项目中提取的最受好评的transformers.BertTokenizerFast.add_special_tokens现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

from_pretrained(30)

BertTokenizerFast(30)

tokenize(11)

convert_tokens_to_ids(7)

encode_plus(5)

encode(4)

batch_encode_plus(3)

convert_ids_to_tokens(3)

get_vocab(3)

add_special_tokens(2)

decode(2)

save_pretrained(2)

batch_decode(1)

convert_tokens_to_string(1)

sanitize_special_tokens(1)

示例#1

显示文件

文件： __init__.py 项目： coooold/gpt2-haim-chinese

def get_tokenizer(vocab_file):
    tokenizer = BertTokenizerFast(
        vocab_file=vocab_file,
        do_basic_tokenize=True
    )

    special_tokens_dict = {'additional_special_tokens': ["<end>", "<begin>"]}
    tokenizer.add_special_tokens(special_tokens_dict)
    return tokenizer

示例#2

显示文件

文件： KBOBERT_pre-training.py 项目： baseballChatbot7/KBOBERT

        files='/opt/ml/code/KBOBERT/KBOBERT_Data.txt',
        vocab_size=32000,
        min_frequency=2,
        show_progress=True,
        special_tokens=["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"],
        wordpieces_prefix="##")

    wp_tokenizer.save_model('./')

    tokenizer = BertTokenizerFast(
        vocab_file="/opt/ml/code/KBOBERT/vocab.txt",
        max_len=512,
        do_lower_case=False,
    )

    tokenizer.add_special_tokens({'mask_token': '[MASK]'})

    # https://huggingface.co/transformers/model_doc/bert.html#bertconfig

    config = BertConfig(vocab_size=32000,
                        hidden_size=256,
                        num_hidden_layers=6,
                        num_attention_heads=4,
                        intermediate_size=3072,
                        hidden_act="gelu",
                        hidden_dropout_prob=0.1,
                        attention_probs_dropout_prob=0.1,
                        max_position_embeddings=512,
                        type_vocab_size=2,
                        pad_token_id=0,
                        position_embedding_type="absolute")