Python PPO示例

编程语言: Python

命名空间/包名称: tensor2tensor.trax.rl.ppo_trainer

方法/功能: PPO

hotexamples.com的示例: 3

Python PPO - 已找到3个示例。这些是从开源项目中提取的最受好评的tensor2tensor.trax.rl.ppo_trainer.PPO现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： ppo_trainer_test.py 项目： dhruvramani/rl-car-safety

 def _make_trainer(self, train_env, eval_env, output_dir, model=None):
     if model is None:
         model = lambda: [layers.Dense(1)]
     return ppo_trainer.PPO(
         train_env=train_env,
         eval_env=eval_env,
         policy_and_value_model=model,
         n_optimizer_steps=1,
         output_dir=output_dir,
         random_seed=0,
         boundary=2,
     )

示例#2

显示文件

文件： ppo_trainer_test.py 项目： wgfi110/tensor2tensor

 def _run_training_loop(self, train_env, eval_env, output_dir, model=None):
   if model is None:
     model = lambda: [layers.Dense(1)]
   n_epochs = 2
   # Run the training loop.
   trainer = ppo_trainer.PPO(
       train_env=train_env,
       eval_env=eval_env,
       policy_and_value_model=model,
       n_optimizer_steps=1,
       output_dir=output_dir,
       random_seed=0,
       boundary=2,
   )
   trainer.training_loop(n_epochs=n_epochs)

示例#3

显示文件

 def _make_trainer(self,
                   train_env,
                   eval_env,
                   output_dir,
                   model=None,
                   **kwargs):
     if model is None:
         model = lambda: layers.Serial(layers.Dense(1))
     return ppo_trainer.PPO(train_env=train_env,
                            eval_env=eval_env,
                            policy_and_value_model=model,
                            n_optimizer_steps=1,
                            output_dir=output_dir,
                            random_seed=0,
                            max_timestep=3,
                            boundary=2,
                            save_every_n=1,
                            **kwargs)