Esempi in Python per Agent.memorize

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: ddpg_agent

Classe/tipologia: Agent

Metodo/funzione: memorize

Esempi su hotexamples.com: 2

Agent.memorize in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per ddpg_agent.Agent.memorize, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

Agent(30)

act(30)

step(27)

reset(23)

actor_local(4)

actor_target(3)

save(3)

load(2)

remember(2)

memory(2)

memorize(2)

load_actor(2)

load_critic(2)

choose_action(2)

critic_target(2)

critic_local(2)

learn(2)

ave_loss(1)

update(1)

store(1)

actor_optimizer(1)

set_hparams(1)

sense(1)

save_models(1)

learn_from_players(1)

reset_episode(1)

critic_optimizer(1)

load_weights(1)

load_models(1)

load_model(1)

Explore(1)

cum_rewards(1)

update_step(1)

Esempio n. 1

Mostra file

File: continuous_control.py Progetto: johschmitz/udacity_drl_p2_continous_control

 agent.reset()
 score = 0
 actions = [np.array([0.0, 0.0, 0.0, 0.0])] * num_agents
 # Train until environment ends the episode
 while True:
     for env_agent_idx in range(num_agents):
         # Let deep learning agent act based on states
         actions[env_agent_idx] = agent.act(states[env_agent_idx])
     env_info = env.step(actions)[brain_name]
     next_states = env_info.vector_observations
     rewards = env_info.rewards
     dones = env_info.local_done
     for env_agent_idx in range(num_agents):
         # Save to replay buffer
         agent.memorize(states[env_agent_idx], actions[env_agent_idx], \
                    rewards[env_agent_idx], next_states[env_agent_idx], \
                    dones[env_agent_idx])
     # Learn
     agent.step()
     states = next_states
     score += np.sum(rewards) / len(rewards)
     if np.any(dones):
         break
 # Check and track scores
 scores_deque.append(score)
 scores.append(score)
 average_score = np.mean(scores_deque)
 print('\rEpisode {}\tAverage Score: {:.2f}\tScore: {:.2f}'.format(
     i_episode, average_score, score),
       end="")
 if i_episode % print_every == 0:

Esempio n. 2

Mostra file

 states = env_info.vector_observations
 score = 0
 steps = 0
 # Train until environment ends the episode
 while True:
     steps += 1
     # Let deep learning agent act based on states
     action_0 = agent.act(states[0])
     action_1 = agent.act(states[1])
     # Send action to Unity environment
     env_info = env.step([action_0, action_1])[brain_name]
     states_next = env_info.vector_observations
     rewards = env_info.rewards
     dones = env_info.local_done
     # Save experiences to replay buffer
     agent.memorize(states[0], action_0, rewards[0], states_next[0],
                    dones[0])
     agent.memorize(states[1], action_1, rewards[1], states_next[1],
                    dones[1])
     # Learn
     agent.update_step()
     agent.update_step()
     states = states_next
     score += np.sum(rewards) / len(rewards)
     if np.any(dones):
         break
 # Check and track scores
 scores_deque.append(score)
 scores.append(score)
 score_average = np.mean(scores_deque)
 print('\rEpisode {}\tAverage Score: {:.4f}\tScore: {:.4f}'.format(
     i_episode, score_average, score),