Python Agent.choose_action Examples

Programming Language: Python

Namespace/Package Name: ddpg_agent

Class/Type: Agent

Method/Function: choose_action

Examples at hotexamples.com: 2

Python Agent.choose_action - 2 examples found. These are the top rated real world Python examples of ddpg_agent.Agent.choose_action extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

Agent(30)

act(30)

step(27)

reset(23)

actor_local(4)

actor_target(3)

save(3)

load(2)

remember(2)

memory(2)

memorize(2)

load_actor(2)

load_critic(2)

choose_action(2)

critic_target(2)

critic_local(2)

learn(2)

ave_loss(1)

update(1)

store(1)

actor_optimizer(1)

set_hparams(1)

sense(1)

save_models(1)

learn_from_players(1)

reset_episode(1)

critic_optimizer(1)

load_weights(1)

load_models(1)

load_model(1)

Explore(1)

cum_rewards(1)

update_step(1)

Example #1

Show file

File: lunar_lander.py Project: jimzers/ddpg-pytorch

env = gym.make('LunarLanderContinuous-v2')

agent = Agent(alpha=0.000025, beta = 0.00025, input_dims=[8], tau=0.001, env=env, batch_size=64, layer1_size=400, layer2_size=300, n_actions=2)

episodes = 1000

np.random.seed(42)

tau_hist = []
score_hist = []
for i in range(episodes):
    done = False
    score = 0
    state = env.reset()
    while not done:
        act = agent.choose_action(state)
        next_state, reward, done, _ = env.step(act)
        agent.store(state, act, reward, next_state, int(done))
        agent.learn()
        score += reward
        state = next_state

    agent.save_models()
    score_hist.append(score)
    tau_hist.append(agent.tau)
    avg_score = np.mean(score_hist[-100:])
    print('episode ' + str(i + 1) + 'score %.2f' % score +
              'average score %.2f' % avg_score)

episodes = np.arange(1, episodes + 1)
plot_curve(episodes, score_hist, tau_hist)

Example #2

Show file

File: mountaincar.py Project: fazallm/reinforcement_learning

                  batch_size=64,
                  gamma=0.99)

    agent.load_models()
    np.random.seed(0)

    score_history = []
    for i in range(200):
        obs = env.reset()
        done = False
        score = 0
        step = 0
        while not done:
            step += 1
            # print(obs)
            act = agent.choose_action(obs)
            # print(act)
            new_state, reward, done, info = env.step(act)
            agent.remember(obs, act, reward, new_state, int(done))
            agent.learn()
            score += reward
            obs = new_state
            env.render()
        score_history.append(score)

        # if i % 25 == 0:
        #     agent.save_models()

        print('episode ', i, 'score %.2f' % score,
              'trailing 128 games avg %.3f' % np.mean(score_history[-128:]),
              'finished after ', step, ' episode')