Python DDPGAgent.train_one_episode 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: ddpg

클래스/타입: DDPGAgent

메소드/함수: train_one_episode

hotexamples.com에서의 예제들: 2

Python DDPGAgent.train_one_episode - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 ddpg.DDPGAgent.train_one_episode에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

DDPGAgent(30)

act(5)

load_models(4)

test(3)

update(3)

compile(3)

get_action(3)

save_models(2)

save_weights(2)

test_model(2)

train(2)

fit(2)

train_one_episode(2)

remember(1)

take_action(1)

save(1)

update_target_net(1)

replay(1)

noisy_act(1)

record(1)

optimize(1)

log2summary(1)

load_model(1)

load(1)

learning(1)

learn(1)

get_exploration_action(1)

get_exploitation_action(1)

eval(1)

choose_action(1)

action_input(1)

update_targets(1)

예제 #1

파일 보기

def train_ddpg():
    args = DDPGArgs()
    env = gym.make(args.env_name)
    agent = DDPGAgent(env, DDPGQNet, DDPGActor, SimpleNormalizer, args)
    for ep in range(args.max_ep):
        agent.train_one_episode()
        if ep % args.test_interval == 0:
            agent.test_model()

예제 #2

파일 보기

def train_ddpg_with_onecar_oneuav():
    args = DDPGArgs()
    env = Env()
    agent = DDPGAgent(env, DDPGQNet, DDPGActor, SimpleNormalizer, args)
    max_reward = 0
    for ep in range(args.max_ep):
        agent.train_one_episode()
        if ep % args.test_interval == 0:
            mean_reward = agent.test_model()
            if mean_reward > max_reward:
                max_reward = mean_reward
                print('max_reward:{}'.format(max_reward))
                dir = './result/ddpg/' + args.env_name + '/'
                if not os.path.exists(dir):
                    os.makedirs(dir)
                agent.save(dir)
    env.close()