Ejemplos de Monitor.reset_task en Python

Lenguaje de programación: Python

Namespace/Package Name: gym.wrappers

Clase / Tipo: Monitor

Método / Función: reset_task

Ejemplos en hotexamples.com: 2

Python Monitor.reset_task - 2 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de gym.wrappers.Monitor.reset_task extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

Monitor(30)

step(30)

seed(30)

reset(30)

close(30)

render(30)

get_initial_state(3)

get_observed_state_space(3)

get_episode_rewards(3)

reset_task(2)

get_reward_function(2)

get_transition_function(2)

configure(2)

get_action(1)

do_render(1)

__init__(1)

action_from_ttc(1)

reset_sim(1)

actionInterpreter(1)

run(1)

sample_tasks(1)

_max_episode_steps(1)

set_logger(1)

set_monitor(1)

set_q_values(1)

_max_episode_seconds(1)

uncolor_board(1)

video_callable(1)

Ejemplo n.º 1

Mostrar archivo

Archivo: experiments.py Proyecto: Peter-code-dot/maml-rl-tf2

def main():
    env = gym.make(ENV_NAME)
    env = Monitor(env, f"./videos/{ENV_PREFIX}", force=True)
    policy, baseline = load_meta_learner_params(META_POLICY_PATH,
                                                BASELINE_PATH, env)
    sampler = BatchSampler(env_name=ENV_NAME, batch_size=20, num_workers=2)
    learner = MetaLearner(sampler, policy, baseline, optimizer=None)

    for task in TEST_TASKS:
        returns = []

        for i in range(1, EVAL_STEPS + 1):
            for grad_steps in GRAD_STEPS:
                if i % 10 == 0:
                    print(f"Evaluation-step: {i}")

                env.reset_task(task)
                learner.policy, learner.baseline = load_meta_learner_params(
                    META_POLICY_PATH, BASELINE_PATH, env)

                # Sample a batch of transitions
                sampler.reset_task(task)
                episodes = sampler.sample(learner.policy)
                for _ in range(grad_steps):
                    new_params = learner.adapt(episodes)
                    learner.policy.set_params_with_name(new_params)
                returns.append(evaluate(env, task, learner.policy))

        print("========EVAL RESULTS=======")
        print(f"Task: {task}")
        print(f"Returns: {returns}")
        print(f"Average Return: {np.mean(returns)}")
        print("===========================")

Ejemplo n.º 2

Mostrar archivo

def main():

    env = 'MiniGrid-Empty-v0'
    env = gym.make(env, size=ENV_SIZE)
    env = ch.envs.Torch(env)
    env = ch.envs.Runner(env)
    env = Monitor(env,
                  "./vid",
                  video_callable=lambda episode_id: True,
                  force=True)

    for task_config in env.sample_tasks(4):
        env.reset_task(task_config)
        env.reset()
        transition = env.run(get_random_action, episodes=5, render=RENDER)