Python create_pretrain_dataset 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: official.nlp.bert.input_pipeline

메소드/함수: create_pretrain_dataset

hotexamples.com에서의 예제들: 4

Python create_pretrain_dataset - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 official.nlp.bert.input_pipeline.create_pretrain_dataset에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

 def _dataset_fn(ctx=None):
     """Returns tf.data.Dataset for distributed BERT pretraining."""
     input_patterns = input_file_pattern.split(',')
     train_dataset = input_pipeline.create_pretrain_dataset(
         input_patterns,
         seq_length,
         max_predictions_per_seq,
         batch_size,
         is_training=True,
         input_pipeline_context=ctx)
     return train_dataset

예제 #2

파일 보기

 def _dataset_fn(ctx=None):
     """Returns tf.data.Dataset for distributed BERT pretraining."""
     input_patterns = input_file_pattern.split(',')
     batch_size = ctx.get_per_replica_batch_size(global_batch_size)
     train_dataset = input_pipeline.create_pretrain_dataset(
         input_patterns,
         seq_length,
         max_predictions_per_seq,
         batch_size,
         is_training=True,
         input_pipeline_context=ctx,
         use_next_sentence_label=use_next_sentence_label)
     return train_dataset

예제 #3

파일 보기

 def _dataset_fn(ctx=None):
     """Returns tf.data.Dataset for distributed BERT pretraining."""
     input_files = []
     for input_pattern in input_file_pattern.split(','):
         input_files.extend(tf.io.gfile.glob(input_pattern))
     batch_size = ctx.get_per_replica_batch_size(global_batch_size)
     train_dataset = input_pipeline.create_pretrain_dataset(
         input_files,
         seq_length,
         max_predictions_per_seq,
         batch_size,
         is_training=True,
         input_pipeline_context=ctx)
     return train_dataset

예제 #4

파일 보기

파일: run_pretrain.py 프로젝트: sivabuddi/covid-twitter-bert

 def _dataset_fn(ctx=None):
     """Returns tf.data.Dataset for distributed BERT pretraining."""
     input_data = [f'gs://{args.bucket_name}/{args.project_name}/pretrain/pretrain_data/{args.pretrain_data}/tfrecords/{_type}/*.tfrecords']
     per_replica_batch_size = ctx.get_per_replica_batch_size(batch_size)
     dataset = input_pipeline.create_pretrain_dataset(
         input_data,
         args.max_seq_length,
         args.max_predictions_per_seq,
         per_replica_batch_size,
         is_training=is_training,
         input_pipeline_context=ctx)
     if _type == 'dev':
         # added here so that eval_steps can be arbitraily large
         dataset = dataset.repeat()
     return dataset