Python DmControlEnv.from_suite示例

编程语言: Python

命名空间/包名称: garage.envs.dm_control

类/类型: DmControlEnv

方法/功能: from_suite

hotexamples.com的示例: 9

Python DmControlEnv.from_suite - 已找到9个示例。这些是从开源项目中提取的最受好评的garage.envs.dm_control.DmControlEnv.from_suite现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

from_suite(9)

DmControlEnv(6)

reset(1)

step(1)

示例#1

显示文件

    def test_dm_control_tf_policy(self):
        task = ALL_TASKS[0]

        with self.graph.as_default():
            env = TfEnv(DmControlEnv.from_suite(*task))

            policy = GaussianMLPPolicy(
                env_spec=env.spec,
                hidden_sizes=(32, 32),
            )

            baseline = LinearFeatureBaseline(env_spec=env.spec)

            algo = TRPO(
                env=env,
                policy=policy,
                baseline=baseline,
                batch_size=10,
                max_path_length=5,
                n_itr=1,
                discount=0.99,
                step_size=0.01,
            )
            algo.train()
            env.close()

示例#2

显示文件

文件： test_dm_control_tf_policy.py 项目： JoleProject/Jole

    def test_dm_control_tf_policy(self):
        task = ALL_TASKS[0]

        with LocalTFRunner(snapshot_config, sess=self.sess) as runner:
            env = TfEnv(DmControlEnv.from_suite(*task))

            policy = GaussianMLPPolicy(
                env_spec=env.spec,
                hidden_sizes=(32, 32),
            )

            baseline = LinearFeatureBaseline(env_spec=env.spec)

            algo = TRPO(
                env_spec=env.spec,
                policy=policy,
                baseline=baseline,
                max_path_length=5,
                discount=0.99,
                max_kl_step=0.01,
            )

            runner.setup(algo, env)
            runner.train(n_epochs=1, batch_size=10)

            env.close()

示例#3

显示文件

文件： test_dm_control_tf_policy.py 项目： edrya/garage

    def test_dm_control_tf_policy(self):
        task = ALL_TASKS[0]

        env = TfEnv(DmControlEnv.from_suite(*task))

        policy = GaussianMLPPolicy(
            env_spec=env.spec,
            hidden_sizes=(32, 32),
        )

        baseline = LinearFeatureBaseline(env_spec=env.spec)

        algo = TRPO(
            env=env,
            policy=policy,
            baseline=baseline,
            batch_size=10,
            max_path_length=5,
            n_itr=1,
            discount=0.99,
            step_size=0.01,
        )

        runner = LocalRunner(self.sess)
        runner.setup(algo, env)
        runner.train(n_epochs=1, batch_size=10)

        env.close()

示例#4

显示文件

文件： test_dm_control_env.py 项目： fangqyi/garage

 def test_all_pickleable(self, domain_name, task_name):
     env = DmControlEnv.from_suite(domain_name, task_name)
     round_trip = pickle.loads(pickle.dumps(env))
     assert round_trip
     # Skip rendering because it causes TravisCI to run out of memory
     step_env(round_trip, render=False)
     round_trip.close()
     env.close()

示例#5

显示文件

文件： test_dm_control_env.py 项目： fangqyi/garage

 def test_all_does_not_modify_actions(self, domain_name, task_name):
     env = DmControlEnv.from_suite(domain_name, task_name)
     a = env.action_space.sample()
     a_copy = copy(a)
     env.step(a)
     if isinstance(a, collections.Iterable):
         assert a.all() == a_copy.all()
     else:
         assert a == a_copy
     env.close()

示例#6

显示文件

文件： test_dm_control_env.py 项目： fangqyi/garage

 def test_all_can_step(self, domain_name, task_name):
     env = DmControlEnv.from_suite(domain_name, task_name)
     ob_space = env.observation_space
     act_space = env.action_space
     ob = env.reset()
     assert ob_space.contains(ob)
     a = act_space.sample()
     assert act_space.contains(a)
     # Skip rendering because it causes TravisCI to run out of memory
     step_env(env, render=False)
     env.close()

示例#7

显示文件

 def test_does_not_modify_actions(self):
     domain_name, task_name = dm_control.suite.ALL_TASKS[0]
     env = DmControlEnv.from_suite(domain_name, task_name)
     a = env.action_space.sample()
     a_copy = copy(a)
     env.step(a)
     if isinstance(a, collections.Iterable):
         self.assertEqual(a.all(), a_copy.all())
     else:
         self.assertEqual(a, a_copy)
     env.close()

示例#8

显示文件

文件： trpo_dm_control_cartpole.py 项目： zhanpenghe/embed2learn

def run_task(*_):

    with LocalRunner() as runner:
        env = normalize(DmControlEnv.from_suite('cartpole', 'balance'))

        policy = GaussianMLPPolicy(
            env_spec=env.spec,
            hidden_sizes=(32, 32),
        )

        baseline = LinearFeatureBaseline(env_spec=env.spec)

        algo = TRPO(
            env=env,
            policy=policy,
            baseline=baseline,
            max_path_length=100,
            discount=0.99,
            max_kl_step=0.01,
        )

        runner.setup(algo, env)
        runner.train(n_epochs=400, batch_size=4000, plot=True)

示例#9

显示文件

文件： step_dm_control_env.py 项目： yus-nas/garage

"""Example of how to load, step, and visualize an environment.

This example requires that garage[dm_control] be installed.
"""
import argparse

from garage.envs.dm_control import DmControlEnv

parser = argparse.ArgumentParser()
parser.add_argument('--n_steps',
                    type=int,
                    default=1000,
                    help='Number of steps to run')
args = parser.parse_args()

# Construct the environment
env = DmControlEnv.from_suite('walker', 'run')

# Reset the environment and launch the viewer
env.reset()
env.render()

# Step randomly until interrupted
steps = 0
while True:
    if steps == args.n_steps:
        break
    env.step(env.action_space.sample())
    env.render()
    steps += 1