Python BigBirdTokenizer示例

编程语言: Python

命名空间/包名称: paddlenlp.transformers

类/类型: BigBirdTokenizer

hotexamples.com的示例: 6

Python BigBirdTokenizer - 已找到6个示例。这些是从开源项目中提取的最受好评的paddlenlp.transformers.BigBirdTokenizer现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

from_pretrained(5)

BigBirdTokenizer(1)

示例#1

显示文件

def main():
    # Initialization for the parallel enviroment
    assert args.device in [
        "cpu", "gpu", "xpu"
    ], "Invalid device! Available device should be cpu, gpu, or xpu."

    paddle.set_device(args.device)
    set_seed(args)
    # Define the model and metric
    model = BigBirdForSequenceClassification.from_pretrained(
        args.model_name_or_path)
    criterion = nn.CrossEntropyLoss()
    metric = paddle.metric.Accuracy()

    # Define the tokenizer and dataloader
    tokenizer = BigBirdTokenizer.from_pretrained(args.model_name_or_path)
    global config
    config = getattr(model,
                     BigBirdForSequenceClassification.base_model_prefix).config
    train_data_loader, test_data_loader = \
            create_dataloader(args.batch_size, args.max_encoder_length, tokenizer)

    # Define the Adam optimizer
    optimizer = paddle.optimizer.Adam(parameters=model.parameters(),
                                      learning_rate=args.learning_rate,
                                      epsilon=1e-6)

    # Finetune the classification model
    do_train(model, criterion, metric, optimizer, train_data_loader, tokenizer)

    # Evaluate the finetune model
    do_evalute(model, criterion, metric, test_data_loader)

示例#2

显示文件

def main():
    # Initialization for the parallel enviroment
    paddle.set_device(args.device)
    set_seed(args)
    # Define the model and metric
    # In finetune task, bigbird performs better when setting dropout to zero.
    model = BigBirdForSequenceClassification.from_pretrained(
        args.model_name_or_path,
        attn_dropout=args.attn_dropout,
        hidden_dropout_prob=args.hidden_dropout_prob)

    criterion = nn.CrossEntropyLoss()
    metric = paddle.metric.Accuracy()

    # Define the tokenizer and dataloader
    tokenizer = BigBirdTokenizer.from_pretrained(args.model_name_or_path)
    config = getattr(model,
                     BigBirdForSequenceClassification.base_model_prefix).config
    train_data_loader, test_data_loader = \
            create_dataloader(args.batch_size, args.max_encoder_length, tokenizer, config)

    # Define the Adam optimizer
    optimizer = paddle.optimizer.Adam(parameters=model.parameters(),
                                      learning_rate=args.learning_rate,
                                      epsilon=1e-6)

    # Finetune the classification model
    do_train(model, criterion, metric, optimizer, train_data_loader, tokenizer)

    # Evaluate the finetune model
    do_evalute(model, criterion, metric, test_data_loader)

示例#3

显示文件

 def setUp(self):
     np.random.seed(102)
     self.tokenizer = BigBirdTokenizer.from_pretrained(
         'bigbird-base-uncased')
     self.set_text()
     self.set_input()
     self.set_output()

示例#4

显示文件

文件： run_classifier.py 项目： dot23/PaddleNLP

def main():
    # Initialization for the parallel enviroment
    paddle.set_device(args.device)
    set_seed(args)
    # Define the model and metric
    model = BigBirdForSequenceClassification.from_pretrained(
        args.model_name_or_path)
    criterion = nn.CrossEntropyLoss()
    metric = paddle.metric.Accuracy()

    # Define the tokenizer and dataloader
    tokenizer = BigBirdTokenizer.from_pretrained(args.model_name_or_path)
    global config
    config = BigBirdModel.pretrained_init_configuration[
        args.model_name_or_path]
    train_data_loader, test_data_loader = \
            create_dataloader(args.batch_size, args.max_encoder_length, tokenizer)

    # Define the Adam optimizer
    optimizer = paddle.optimizer.Adam(parameters=model.parameters(),
                                      learning_rate=args.learning_rate,
                                      epsilon=1e-6)

    # Finetune the classification model
    do_train(model, criterion, metric, optimizer, train_data_loader,
             test_data_loader)

    # Evaluate the finetune model
    do_evalute(model, criterion, metric, test_data_loader)

示例#5

显示文件

 def setUp(self):
     self.tokenizer = BigBirdTokenizer.from_pretrained(
         'bigbird-base-uncased')

示例#6

显示文件

 def test_not_exist_file(self):
     self.tokenizer = BigBirdTokenizer(sentencepiece_model_file='')