Python train示例

编程语言: Python

命名空间/包名称: google3.robotics.reinforcement_learning.agents.scripts.train

方法/功能: train

hotexamples.com的示例: 6

Python train - 已找到6个示例。这些是从开源项目中提取的最受好评的google3.robotics.reinforcement_learning.agents.scripts.train.train现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： train_ppo_test.py 项目： AndrewMeadows/bullet3

 def test_no_crash_variable_duration(self):
   config = self._define_config()
   with config.unlocked:
     config.env = functools.partial(
         tools.MockEnvironment, observ_shape=(2, 3), action_shape=(3,),
         min_duration=5, max_duration=25)
     config.max_length = 25
     config.steps = 200
     config.network = networks.RecurrentGaussianPolicy
   for score in train.train(config, env_processes=False):
     float(score)

示例#2

显示文件

文件： train_ppo_test.py 项目： AndrewMeadows/bullet3

 def test_no_crash_ant(self):
   nets = networks.ForwardGaussianPolicy, networks.RecurrentGaussianPolicy
   for network in nets:
     config = self._define_config()
     with config.unlocked:
       config.env = 'Ant-v1'
       config.max_length = 200
       config.steps = 1000
       config.network = network
     for score in train.train(config, env_processes=True):
       float(score)

示例#3

显示文件

 def test_no_crash_ant(self):
     nets = networks.ForwardGaussianPolicy, networks.RecurrentGaussianPolicy
     for network in nets:
         config = self._define_config()
         with config.unlocked:
             config.env = 'Ant-v1'
             config.max_length = 200
             config.steps = 1000
             config.network = network
         for score in train.train(config, env_processes=True):
             float(score)

示例#4

显示文件

 def test_no_crash_variable_duration(self):
     config = self._define_config()
     with config.unlocked:
         config.env = functools.partial(tools.MockEnvironment,
                                        observ_shape=(2, 3),
                                        action_shape=(3, ),
                                        min_duration=5,
                                        max_duration=25)
         config.max_length = 25
         config.steps = 200
         config.network = networks.RecurrentGaussianPolicy
     for score in train.train(config, env_processes=False):
         float(score)

示例#5

显示文件

文件： train_ppo_test.py 项目： AndrewMeadows/bullet3

 def test_no_crash_observation_shape(self):
   nets = networks.ForwardGaussianPolicy, networks.RecurrentGaussianPolicy
   observ_shapes = (1,), (2, 3), (2, 3, 4)
   for network, observ_shape in itertools.product(nets, observ_shapes):
     config = self._define_config()
     with config.unlocked:
       config.env = functools.partial(
           tools.MockEnvironment, observ_shape, action_shape=(3,),
           min_duration=15, max_duration=15)
       config.max_length = 20
       config.steps = 100
       config.network = network
     for score in train.train(config, env_processes=False):
       float(score)

示例#6

显示文件

 def test_no_crash_observation_shape(self):
     nets = networks.ForwardGaussianPolicy, networks.RecurrentGaussianPolicy
     observ_shapes = (1, ), (2, 3), (2, 3, 4)
     for network, observ_shape in itertools.product(nets, observ_shapes):
         config = self._define_config()
         with config.unlocked:
             config.env = functools.partial(tools.MockEnvironment,
                                            observ_shape,
                                            action_shape=(3, ),
                                            min_duration=15,
                                            max_duration=15)
             config.max_length = 20
             config.steps = 100
             config.network = network
         for score in train.train(config, env_processes=False):
             float(score)