Python PolicyGradientAgent.remember示例

编程语言: Python

命名空间/包名称: PolicyGradientAgent

方法/功能: remember

hotexamples.com的示例: 1

Python PolicyGradientAgent.remember - 已找到1个示例。这些是从开源项目中提取的最受好评的PolicyGradientAgent.PolicyGradientAgent.remember现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

PolicyGradientAgent(4)

act(1)

get_action(1)

learn(1)

load_model(1)

load_state(1)

persist_state(1)

remember(1)

save_model(1)

save_state(1)

update(1)

示例#1

显示文件

train_episodes = 5000
avg_score = 0
loss = 0
for episode in range(train_episodes):

    state = env.reset()
    state = np.reshape(state, [1, state_size])
    cum_reward = 0
    for i in range(1000):

        action = agent.act(state, is_training=True)

        next_state, reward, done, _ = env.step(action)
        next_state = np.reshape(next_state, [1, state_size])

        agent.remember(state, action, reward)

        state = next_state
        cum_reward += reward

        if done:
            avg_score += cum_reward
            break

    current_loss = agent.update()[0]
    loss += current_loss

    if episode % 100 == 0 and episode != 0:
        print("Episode: " + str(episode) + "/" + str(train_episodes) + ", score: " + str(avg_score/100) + ", Loss : " + str(loss/100))
        avg_score = 0
        loss = 0