Python DiscretePolicy.cudaの例

プログラミング言語: Python

名前空間/パッケージ名: models.mlp_policy_disc

クラス/型: DiscretePolicy

メソッド/関数: cuda

hotexamples.comのコード掲載数: 2

Python DiscretePolicy.cuda - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのmodels.mlp_policy_disc.DiscretePolicy.cudaの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

DiscretePolicy(11)

parameters(8)

to(3)

cuda(2)

load_state_dict(2)

cpu(1)

eval(1)

get_log_prob(1)

state_dict(1)

train(1)

zero_grad(1)

コード例 #1

ファイルを表示

ファイル: trpo_gym.py プロジェクト: zephirefaith/PyTorch-RL

running_state = ZFilter((state_dim, ), clip=5)
# running_reward = ZFilter((1,), demean=False, clip=10)
"""define actor and critic"""
if args.model_path is None:
    if is_disc_action:
        policy_net = DiscretePolicy(state_dim, env_dummy.action_space.n)
    else:
        policy_net = Policy(state_dim,
                            env_dummy.action_space.shape[0],
                            log_std=args.log_std)
    value_net = Value(state_dim)
else:
    policy_net, value_net, running_state = pickle.load(
        open(args.model_path, "rb"))
if use_gpu:
    policy_net = policy_net.cuda()
    value_net = value_net.cuda()
del env_dummy
"""create agent"""
agent = Agent(env_factory,
              policy_net,
              running_state=running_state,
              render=args.render,
              num_threads=args.num_threads)


def update_params(batch):
    states = torch.from_numpy(np.stack(batch.state))
    actions = torch.from_numpy(np.stack(batch.action))
    rewards = torch.from_numpy(np.stack(batch.reward))
    masks = torch.from_numpy(np.stack(batch.mask).astype(np.float64))

コード例 #2

ファイルを表示

    if is_disc_action:
        policy_net = DiscretePolicy(state_dim, env_dummy.action_space.n)
    else:
        policy_net = Policy(state_dim,
                            env_dummy.action_space.shape[0],
                            hidden_size=policy_size,
                            scale_cov=args.scale_cov)
        #policy_net = Policy(state_dim, env_dummy.action_space.shape[0], hidden_size=policy_size, log_std=0)
    value_net = Value(state_dim, hidden_size=critic_size)
    advantage_net = Advantage((state_dim, action_dim),
                              hidden_size=advantage_size)
else:
    policy_net, value_net, advantage_net, running_state = pickle.load(
        open(args.model_path, "rb"))
if use_gpu:
    policy_net = policy_net.cuda()
    value_net = value_net.cuda()
    advantage_net = advantage_net.cuda()
del env_dummy

optimizer_policy = torch.optim.Adam(policy_net.parameters(),
                                    lr=args.learning_rate)
optimizer_value = torch.optim.Adam(value_net.parameters(),
                                   lr=args.learning_rate)
optimizer_advantage = torch.optim.Adam(advantage_net.parameters(),
                                       lr=args.learning_rate)

# optimization epoch number and batch size for PPO
optim_epochs = 5
optim_batch_size = 4096
"""create agent"""