Python Critic.load_dictの例

プログラミング言語: Python

名前空間/パッケージ名: model

クラス/型: Critic

メソッド/関数: load_dict

hotexamples.comのコード掲載数: 2

Python Critic.load_dict - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのmodel.Critic.load_dictの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

Critic(30)

eval(30)

state_dict(30)

parameters(30)

load_state_dict(30)

zero_grad(22)

cuda(20)

forward(18)

train(16)

to(6)

cpu(4)

apply(4)

predict(4)

get_action_gradients(3)

save(3)

reset_parameters(3)

build_train_op(2)

model(2)

update(2)

to_gpu(2)

named_parameters(2)

backward(2)

load_dict(2)

Q1(2)

build(2)

get_asmhd(1)

update_target_network(1)

compute_loss(1)

forward_with_dropout(1)

get_asinventoryd(1)

target_predict(1)

set_weights(1)

share_memory(1)

build_training(1)

save_checkpoint(1)

get_value(1)

get_weights(1)

get_wsd(1)

apply_grad(1)

load_checkpoint(1)

load(1)

コード例 #1

ファイルを表示

state_dim = env.observation_space.shape[0]
action_dim = env.action_space.shape[0]
max_action = float(env.action_space.high[0])
min_val = paddle.to_tensor(1e-7).astype('float32')

actor = Actor(state_dim, action_dim, max_action)
target_actor = Actor(state_dim, action_dim, max_action)
target_actor.eval()
target_actor.load_dict(actor.state_dict())
actor_optimizer = paddle.optimizer.RMSProp(parameters=actor.parameters(),
                                           learning_rate=learning_rate)

critic_1 = Critic(state_dim, action_dim)
target_critic_1 = Critic(state_dim, action_dim)
target_critic_1.eval()
target_critic_1.load_dict(critic_1.state_dict())
critic_2 = Critic(state_dim, action_dim)
target_critic_2 = Critic(state_dim, action_dim)
target_critic_2.eval()
target_critic_2.load_dict(critic_2.state_dict())
critic_1_optimizer = paddle.optimizer.RMSProp(parameters=critic_1.parameters(),
                                              learning_rate=learning_rate)
critic_2_optimizer = paddle.optimizer.RMSProp(parameters=critic_2.parameters(),
                                              learning_rate=learning_rate)

rpm = ReplayMemory(memory_size)


def train():
    global epoch
    total_reward = 0

コード例 #2

ファイルを表示

ファイル: train.py プロジェクト: wobushihuair/Paddle-RLBooks

action_dim = env.action_space.shape[0]
max_action = float(env.action_space.high[0])
min_val = paddle.to_tensor(1e-7).astype('float32')

actor = Actor(state_dim, action_dim, max_action)
actor_optimizer = paddle.optimizer.RMSProp(parameters=actor.parameters(),
                                  learning_rate=learning_rate)

Q_net = Q(state_dim, action_dim)
Q_optimizer = paddle.optimizer.RMSProp(parameters=Q_net.parameters(),
                                  learning_rate=learning_rate)

critic = Critic(state_dim)
target_critic = Critic(state_dim)
target_critic.eval()
target_critic.load_dict(critic.state_dict())
critic_optimizer = paddle.optimizer.RMSProp(parameters=critic.parameters(),
                                  learning_rate=learning_rate)

rpm = ReplayMemory(memory_size)

def train():
    global epoch
    total_reward = 0
    # 重置游戏状态
    state = env.reset()
    while True:
        action = actor.select_action(state)

        next_state, reward, done, info = env.step(action)
        env.render()