Python Monitor.reset_task Examples

Programming Language: Python

Namespace/Package Name: gym.wrappers

Class/Type: Monitor

Method/Function: reset_task

Examples at hotexamples.com: 2

Python Monitor.reset_task - 2 examples found. These are the top rated real world Python examples of gym.wrappers.Monitor.reset_task extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

Monitor(30)

step(30)

seed(30)

reset(30)

close(30)

render(30)

get_initial_state(3)

get_observed_state_space(3)

get_episode_rewards(3)

reset_task(2)

get_reward_function(2)

get_transition_function(2)

configure(2)

get_action(1)

do_render(1)

__init__(1)

action_from_ttc(1)

reset_sim(1)

actionInterpreter(1)

run(1)

sample_tasks(1)

_max_episode_steps(1)

set_logger(1)

set_monitor(1)

set_q_values(1)

_max_episode_seconds(1)

uncolor_board(1)

video_callable(1)

Example #1

Show file

File: experiments.py Project: Peter-code-dot/maml-rl-tf2

def main():
    env = gym.make(ENV_NAME)
    env = Monitor(env, f"./videos/{ENV_PREFIX}", force=True)
    policy, baseline = load_meta_learner_params(META_POLICY_PATH,
                                                BASELINE_PATH, env)
    sampler = BatchSampler(env_name=ENV_NAME, batch_size=20, num_workers=2)
    learner = MetaLearner(sampler, policy, baseline, optimizer=None)

    for task in TEST_TASKS:
        returns = []

        for i in range(1, EVAL_STEPS + 1):
            for grad_steps in GRAD_STEPS:
                if i % 10 == 0:
                    print(f"Evaluation-step: {i}")

                env.reset_task(task)
                learner.policy, learner.baseline = load_meta_learner_params(
                    META_POLICY_PATH, BASELINE_PATH, env)

                # Sample a batch of transitions
                sampler.reset_task(task)
                episodes = sampler.sample(learner.policy)
                for _ in range(grad_steps):
                    new_params = learner.adapt(episodes)
                    learner.policy.set_params_with_name(new_params)
                returns.append(evaluate(env, task, learner.policy))

        print("========EVAL RESULTS=======")
        print(f"Task: {task}")
        print(f"Returns: {returns}")
        print(f"Average Return: {np.mean(returns)}")
        print("===========================")

Example #2

Show file

def main():

    env = 'MiniGrid-Empty-v0'
    env = gym.make(env, size=ENV_SIZE)
    env = ch.envs.Torch(env)
    env = ch.envs.Runner(env)
    env = Monitor(env,
                  "./vid",
                  video_callable=lambda episode_id: True,
                  force=True)

    for task_config in env.sample_tasks(4):
        env.reset_task(task_config)
        env.reset()
        transition = env.run(get_random_action, episodes=5, render=RENDER)