Python ActorNet.predictの例

プログラミング言語: Python

名前空間/パッケージ名: actor_net

クラス/型: ActorNet

メソッド/関数: predict

hotexamples.comのコード掲載数: 2

Python ActorNet.predict - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのactor_net.ActorNet.predictの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

ActorNet(12)

evaluate_actor(7)

evaluate_target_actor(7)

update_target_actor(7)

train_actor(7)

load_model(2)

predict(2)

save_model(2)

save_actor_net(1)

weight_update(1)

update_target_net(1)

train(1)

restore(1)

save_actor(1)

save(1)

close(1)

load_actor(1)

forward_target_net(1)

forward_learned_net(1)

evaluate_actor_batch(1)

close_all(1)

weight_update_target(1)

コード例 #1

ファイルを表示

ファイル: ddpg_main.py プロジェクト: sogabe-tohma/RL_Book

    critic = CriticNet(state_dim, action_dim, HIDDEN1_UNITS, HIDDEN2_UNITS,
                       HIDDEN2_UNITS, action_dim)
    buff = Memory(BUFFER_SIZE, 9)
    step = 0
    reward_result = []

    for i in range(MAX_EPISODES):

        s_t = env.reset()
        s_t = np.reshape(s_t, (1, 3))[0]
        total_reward = 0.
        for j in range(MAX_EP_STEPS):
            loss = 0
            if RENDER_ENV:
                env.render()
            a_t = actor.predict(s_t, ACTION_BOUND, target=False)
            action = a_t + ou.sample(a_t[0])
            s_t_1, r_t, done, info = env.step(action)
            buff.store(s_t, a_t[0], r_t, np.reshape(s_t_1, (1, 3))[0], [done])
            if buff.t_memory > MINIBATCH_SIZE:
                batch = buff.sample(MINIBATCH_SIZE)
                states_t = batch[:, 0:3]
                actions = batch[:, 3]
                rewards = batch[:, 4]
                b_s_ = batch[:, 5:8]
                dones = batch[:, -1]
                y = np.zeros((len(batch), 1))
                a_tgt = actor.predict(b_s_, ACTION_BOUND, target=True)
                Q_tgt = critic.predict(b_s_, a_tgt, target=True)
                for i in range(len(batch)):
                    if dones[i]:

コード例 #2

ファイルを表示

    for times in range(max_time):

        step=0

        x=np.linspace(1,MAX_EPISODES,MAX_EPISODES)

        for ii in range(MAX_EPISODES):
            s_t = env.reset()
            total_reward = 0.
            count=0
            for j in range(MAX_EP_STEPS):
                loss=0;
                loss2 = 0;
                if RENDER_ENV:
                    env.render()
                a_t = actor.predict(np.reshape(s_t,(1,3)), ACTION_BOUND, target=False)+1./(1.+ii+j)
                s_t_1, r_t, done, info = env.step(a_t[0])
                buff.add(s_t, a_t[0], r_t, s_t_1, done)
                if buff.count() > MINIBATCH_SIZE:
                    batch = buff.getBatch(MINIBATCH_SIZE)
                    states_t = np.asarray([e[0] for e in batch])
                    actions = np.asarray([e[1] for e in batch])
                    rewards = np.asarray([e[2] for e in batch])
                    states_t_1 = np.asarray([e[3] for e in batch])
                    dones = np.asarray([e[4] for e in batch])
                    y=np.zeros((len(batch), action_dim))
                    a_tgt=actor.predict(states_t_1, ACTION_BOUND, target=True)
                    Q_tgt = critic.predict(states_t_1, a_tgt,target=True)

                    for i in range(len(batch)):
                        if dones[i]: