Python Agent.critic_target 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: ddpg_agent

클래스/타입: Agent

메소드/함수: critic_target

hotexamples.com에서의 예제들: 2

Python Agent.critic_target - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 ddpg_agent.Agent.critic_target에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Agent(30)

act(30)

step(27)

reset(23)

actor_local(4)

actor_target(3)

save(3)

load(2)

remember(2)

memory(2)

memorize(2)

load_actor(2)

load_critic(2)

choose_action(2)

critic_target(2)

critic_local(2)

learn(2)

ave_loss(1)

update(1)

store(1)

actor_optimizer(1)

set_hparams(1)

sense(1)

save_models(1)

learn_from_players(1)

reset_episode(1)

critic_optimizer(1)

load_weights(1)

load_models(1)

load_model(1)

Explore(1)

cum_rewards(1)

update_step(1)

예제 #1

파일 보기

print('Size of each action:', action_size)

# examine the state space
states = env_info.vector_observations
state_size = states.shape[1]
print('There are {} agents. Each observes a state with length: {}'.format(
    states.shape[0], state_size))
print('The state for the first agent looks like:', states[0])

agent_1 = Agent(state_size=state_size, action_size=action_size, random_seed=2)
agent_2 = Agent(state_size=state_size, action_size=action_size, random_seed=3)
agent_2.memory = agent_1.memory
agent_2.actor_local = agent_1.actor_local
agent_2.actor_target = agent_1.actor_target
agent_2.critic_local = agent_1.critic_local
agent_2.critic_target = agent_1.critic_target
t_max = 1000
print_every = 100
maxlen = 100

score = []
ev_score = []
scores_deque = deque(maxlen=maxlen)
for i_episode in range(1, env.n_episodes + 1):  # play game for 5 episodes
    env_info = env.reset(train_mode=True)[brain_name]  # reset the environment
    states = env_info.vector_observations  # get the current state (for each agent)
    scores = np.zeros(num_agents)  # initialize the score (for each agent)
    agent_1.reset()
    agent_2.reset()
    for t in range(t_max):
        actions_1 = agent_1.act(np.expand_dims(states[0], 0), True)

예제 #2

파일 보기

파일: train.py 프로젝트: lpadukana/drlnd_p3_tennis

    def close(self):
        self.env.close()


# with muted_logs('unityagents'), muted_logs('root'):
#     UnityEnvWrapper.random_play(n_episodes=15)


env = UnityEnvWrapper(no_graphics=False)
agent1 = Agent(state_size=env.n_states() + 1,
               action_size=env.n_actions(), random_seed=2)
agent2 = Agent(state_size=env.n_states() + 1,
               action_size=env.n_actions(), random_seed=2)

agent2.critic_local = agent1.critic_local
agent2.critic_target = agent1.critic_target
agent2.critic_optimizer = agent1.critic_optimizer

agent2.actor_local = agent1.actor_local
agent2.actor_target = agent1.actor_target
agent2.actor_optimizer = agent1.actor_optimizer

agent2.memory = agent1.memory

print(env.n_agents(), env.n_states(), env.n_actions())


def save(i_episode, scores1, scores2, mean_scores):
    print("Saving checkpoints...")
    torch.save(agent1.actor_local.state_dict(),
               'checkpoint_actor_1.pth')