Python MADDPG.update_policy 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: maddpg

클래스/타입: MADDPG

메소드/함수: update_policy

hotexamples.com에서의 예제들: 2

Python MADDPG.update_policy - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 maddpg.MADDPG.update_policy에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

MADDPG(30)

act(26)

update_targets(12)

update(9)

reset(5)

step(4)

learn(4)

save(4)

test(3)

choose_action(2)

run(2)

update_policy(2)

train(2)

store_transition(1)

take_actions(1)

select_action_test(1)

select_action(1)

save_weights(1)

save_model(1)

save_checkpoint(1)

actors_target(1)

reset_ounoise(1)

actor_optimizer(1)

load_model(1)

load_from_file(1)

load_critic(1)

load_checkpoint(1)

load_actor(1)

load(1)

init_from_save(1)

init_from_env(1)

critics_target(1)

critic_optimizer(1)

create_agents(1)

load_weights(1)

예제 #1

파일 보기

        else:
            next_obs = None

        total_reward += reward.sum()
        adversaries_reward += reward[0:2].sum()
        agent_reward = reward[3]
        rr += reward.cpu().numpy()
        maddpg.memory.push(obs.data, action, next_obs, reward)
        #for i in range(len(next_obs)):
        #        for j in range(4):
        #            for k in range(len(next_obs[i][j])):
        #                if next_obs[i] != None:
        #                    print('next_obs[i][j][k]',type(next_obs[i][j][k]),i,j,k)
        #print('next_obs',len(next_obs))  4 ndarray  next_obs[0] <class 'torch.FloatTensor'> len(next_obs[0]) 16
        obs = next_obs
        c_loss, a_loss = maddpg.update_policy(i_episode)
        env.render()
    maddpg.episode_done += 1
    endTime = datetime.datetime.now()
    runTime = (endTime - startTime).seconds
    totalTime = totalTime+runTime
    print('Episode:%d,reward = %f' % (i_episode, total_reward))
    print('Episode:%d,adversaries_reward = %f' % (i_episode, adversaries_reward))
    print('Episode:%d,agent_reward = %f' % (i_episode, agent_reward))
    print('this episode run time:'+ str(runTime))
    print('totalTime:'+ str(totalTime))
    reward_record.append(total_reward)
    adversaries_reward_record.append(adversaries_reward)
    agent_reward_record.append(agent_reward)

    if maddpg.episode_done == maddpg.episodes_before_train:

예제 #2

파일 보기

        else:
            next_obs = None

        total_reward += reward.sum()
        #adversaries_reward += reward[0:5].sum()
        if initial_train is False:
            total_reward_5 += reward[4]
        else:
            total_reward_5 += 0.0
        #agent_reward += reward[5:9].sum()
        rr += reward.cpu().numpy()

        maddpg.memory.push(obs.data, action, next_obs, reward, agent_max_id)

        obs = next_obs
        c_loss, a_loss = maddpg.update_policy(i_episode, initial_train)
        #frame.append(env.render())
        #env.render()
    #if i_episode == 1:
    #    a = np.array(frame)
    #    b = np.reshape(a, (600, 700, 700, 3))
    #    imageio.mimsave('test_adv.gif', b, 'GIF')
    if i_episode % 100 == 0 and i_episode > 0 and test_initial is False and initial_train is True:
        for i in range(maddpg.n_agents):
            th.save(
                maddpg.critics[i], 'new/model_new/critic[' + str(i) +
                '].pkl_episode' + str(i_episode))
            th.save(
                maddpg.actors[i], 'new/model_new/actors[' + str(i) +
                '].pkl_episode' + str(i_episode))
    if i_episode % 100 == 0 and i_episode > 0 and test_initial is True and initial_train is False: