Python Agent.reset примеры использования

Язык программирования: Python

Пространство имен/Пакет: agents.agent

Класс/Тип: Agent

Метод/Функция: reset

Примеров на hotexamples.com: 3

Python Agent.reset - 3 примера найдено. Это лучшие примеры Python кода для agents.agent.Agent.reset, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

Agent(30)

__init__(16)

test(6)

act(3)

prediction_history(3)

reset(3)

run_reps(3)

train(3)

step(3)

get_action(2)

aggregate_history(2)

collect_reward(2)

rank_bet(2)

set_sim_t(2)

state_dict(1)

test_goal_prediction(1)

put_data(1)

restart_coloring(1)

reset_episode(1)

reward_for_action(1)

observe(1)

set_session(1)

set_sim_dt(1)

place_bet(1)

load_model(1)

noisy_eval(1)

apply_control_open_loop(1)

_init_fmm_map(1)

_init_obj_fn(1)

_init_planner(1)

_init_psc_objective(1)

_init_system_dynamics(1)

actions(1)

advantage(1)

calc_weights(1)

memorize(1)

cuda(1)

environment(1)

eval(1)

get_move(1)

infer(1)

init_actor_critic(1)

load_memory(1)

value(1)

Пример #1

Показать файл

 def reset(self):
     Agent.reset(self)
     self.Q = self.model_lambda()
     self.target_Q = self.model_lambda()
     self.target_Q.set_weights(self.Q.get_weights())
     self.buffer.reset()
     self.updates_since_target_updated = 0

Пример #2

Показать файл

def train(nb_steps: int, env: Env, agent: Agent, start_obs: Arrayable):
    """Trains for one epoch.

    :args nb_steps: number of interaction steps
    :args env: environment
    :args agent: interacting agent
    :start_obs: starting observation

    :return: final observation
    """
    agent.train()
    agent.reset()
    obs = start_obs
    for _ in range(nb_steps):
        # interact
        obs, _, _ = interact(env, agent, obs)
    return obs

Пример #3

Показать файл

def evaluate(
        dt: float,
        epoch: int,
        env: Env,
        agent: Agent,
        eval_gap: float,  # noqa: C901
        time_limit: Optional[float] = None,
        eval_return: bool = False,
        progress_bar: bool = False,
        video: bool = False,
        no_log: bool = False,
        test: bool = False,
        eval_policy: bool = True) -> Optional[float]:
    """Evaluate agent in environment.

    :args dt: time discretization
    :args epoch: index of the current epoch
    :args env: environment
    :args agent: interacting agent
    :args eval_gap: number of normalized epochs (epochs divided by dt)
        between training steps
    :args time_limit: maximal physical time (number of steps divided by dt)
        spent in the environment
    :args eval_return: do we only perform specific evaluation?
    :args progress_bar: use a progress bar?
    :args video: log a video of the interaction?
    :args no_log: do we log results
    :args test: log to a different test summary
    :args eval_policy: if the exploitation policy is noisy,
        remove the noise before evaluating

    :return: return evaluated, None if no return is evaluated
    """
    log_gap = int(eval_gap / dt)
    agent.eval()
    if not eval_policy and isinstance(agent, OnlineAgent):
        agent.noisy_eval()
    agent.reset()
    R = None
    if eval_return:
        rewards, dones = [], []
        imgs = []
        time_limit = time_limit if time_limit else 10
        nb_steps = int(time_limit / dt)
        info(f"eval> evaluating on a physical time {time_limit}"
             f" ({nb_steps} steps in total)")
        obs = env.reset()
        iter_range = tqdm(range(nb_steps)) if progress_bar else range(nb_steps)
        for _ in iter_range:
            obs, reward, done = interact(env, agent, obs)
            rewards.append(reward)
            dones.append(done)
            if video:
                imgs.append(env.render(mode='rgb_array'))
        R = compute_return(np.stack(rewards, axis=0), np.stack(dones, axis=0))
        tag = "noisy" if not eval_policy else ""
        info(f"eval> At epoch {epoch}, {tag} return: {R}")
        if not no_log:
            if not eval_policy:
                log("Return_noisy", R, epoch)
            elif not video:  # don't log when outputing video
                if not test:
                    log("Return", R, epoch)
                else:
                    log("Return_test", R, epoch)
        if video:
            log_video("demo", epoch, np.stack(imgs, axis=0))

    if not no_log:
        specific_evaluation(epoch, log_gap, dt, env, agent)
    return R