Esempi in Python per PPO.compute_intrinsic_reward

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: ppo

Classe/tipologia: PPO

Metodo/funzione: compute_intrinsic_reward

Esempi su hotexamples.com: 2

PPO.compute_intrinsic_reward in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per ppo.PPO.compute_intrinsic_reward, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

PPO(30)

choose_action(6)

eval(3)

get_episode_idx(2)

clip_param(2)

compute_intrinsic_reward(2)

ep_r(1)

get_action(1)

getValue(1)

funCurMax(1)

experience(1)

evaluate(1)

curFun(1)

decay_action_std(1)

_custom_logger(1)

compute_returns(1)

close(1)

change_policy_std(1)

calc_gae(1)

actor_critic(1)

_logger(1)

get_policy(1)

Esempio n. 1

Mostra file

File: main.py Progetto: HSOFEUP/intrinsic-motivation

        solved_episodes = []

        for step in range(args.num_steps):
            # render
            if args.render:
                envs.render()

            # select action
            value, action, action_log_probs = agent.select_action(step)

            # take a step in the environment
            obs, reward, done, infos = envs.step(action)

            # calculate intrinsic reward
            if args.add_intrinsic_reward:
                intrinsic_reward = args.intrinsic_coef * agent.compute_intrinsic_reward(
                    step)
                if args.max_intrinsic_reward is not None:
                    intrinsic_reward = torch.clamp(
                        agent.compute_intrinsic_reward(step), 0.0,
                        args.max_intrinsic_reward)
            else:
                intrinsic_reward = torch.tensor(0).view(1, 1)
            intrinsic_rewards.extend(list(
                intrinsic_reward.numpy().reshape(-1)))

            # store experience
            agent.store_rollout(obs[1], action, action_log_probs, value,
                                reward, intrinsic_reward, done)

            # get final episode rewards
            for info in infos:

Esempio n. 2

Mostra file

        solved_episodes = []

        for step in range(args.num_steps):
            # render
            if args.render:
                envs.render()

            # select action
            value, action, action_log_probs = agent.select_action(step)

            # take a step in the environment
            obs, reward, done, infos = envs.step(action)

            # calculate intrinsic reward
            if args.add_intrinsic_reward:
                intrinsic_reward = args.intrinsic_coef * agent.compute_intrinsic_reward(step)
                if args.max_intrinsic_reward is not None:
                    intrinsic_reward = torch.clamp(agent.compute_intrinsic_reward(step), 0.0, args.max_intrinsic_reward)
            else:
                intrinsic_reward = torch.tensor(0).view(1, 1)
            intrinsic_rewards.extend(list(intrinsic_reward.numpy().reshape(-1)))

            # store experience
            agent.store_rollout(obs[1], action, action_log_probs,
                                value, reward, intrinsic_reward,
                                done)

            # get final episode rewards
            for info in infos:
                if 'episode' in info.keys():
                    extrinsic_rewards.append(info['episode']['r'])