Exemplos de PPO.compute_intrinsic_reward em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: ppo

Classe / Tipo: PPO

Método / Função: compute_intrinsic_reward

Exemplos em hotexamples.com: 2

PPO.compute_intrinsic_reward em Python - 2 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de ppo.PPO.compute_intrinsic_reward em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

PPO(30)

choose_action(6)

eval(3)

get_episode_idx(2)

clip_param(2)

compute_intrinsic_reward(2)

ep_r(1)

get_action(1)

getValue(1)

funCurMax(1)

experience(1)

evaluate(1)

curFun(1)

decay_action_std(1)

_custom_logger(1)

compute_returns(1)

close(1)

change_policy_std(1)

calc_gae(1)

actor_critic(1)

_logger(1)

get_policy(1)

Métodos Frequentes

PPO (30)

choose_action (6)

eval (3)

get_episode_idx (2)

clip_param (2)

compute_intrinsic_reward (2)

ep_r (1)

get_action (1)

getValue (1)

funCurMax (1)

Métodos Frequentes

experience (1)

evaluate (1)

curFun (1)

decay_action_std (1)

_custom_logger (1)

compute_returns (1)

close (1)

change_policy_std (1)

calc_gae (1)

actor_critic (1)

_logger (1)

get_policy (1)

Métodos Frequentes

_logger (1)

get_policy (1)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: main.py Projeto: HSOFEUP/intrinsic-motivation

solved_episodes = [] for step in range(args.num_steps): # render if args.render: envs.render() # select action value, action, action_log_probs = agent.select_action(step) # take a step in the environment obs, reward, done, infos = envs.step(action) # calculate intrinsic reward if args.add_intrinsic_reward: intrinsic_reward = args.intrinsic_coef * agent.compute_intrinsic_reward( step) if args.max_intrinsic_reward is not None: intrinsic_reward = torch.clamp( agent.compute_intrinsic_reward(step), 0.0, args.max_intrinsic_reward) else: intrinsic_reward = torch.tensor(0).view(1, 1) intrinsic_rewards.extend(list( intrinsic_reward.numpy().reshape(-1))) # store experience agent.store_rollout(obs[1], action, action_log_probs, value, reward, intrinsic_reward, done) # get final episode rewards for info in infos:

Exemplo n.º 2

0

Exibir arquivo

solved_episodes = [] for step in range(args.num_steps): # render if args.render: envs.render() # select action value, action, action_log_probs = agent.select_action(step) # take a step in the environment obs, reward, done, infos = envs.step(action) # calculate intrinsic reward if args.add_intrinsic_reward: intrinsic_reward = args.intrinsic_coef * agent.compute_intrinsic_reward(step) if args.max_intrinsic_reward is not None: intrinsic_reward = torch.clamp(agent.compute_intrinsic_reward(step), 0.0, args.max_intrinsic_reward) else: intrinsic_reward = torch.tensor(0).view(1, 1) intrinsic_rewards.extend(list(intrinsic_reward.numpy().reshape(-1))) # store experience agent.store_rollout(obs[1], action, action_log_probs, value, reward, intrinsic_reward, done) # get final episode rewards for info in infos: if 'episode' in info.keys(): extrinsic_rewards.append(info['episode']['r'])