Ejemplos de DDPGAgent.train en Python

Lenguaje de programación: Python

Namespace/Package Name: ddpg

Clase / Tipo: DDPGAgent

Método / Función: train

Ejemplos en hotexamples.com: 2

Python DDPGAgent.train - 2 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de ddpg.DDPGAgent.train extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

DDPGAgent(30)

act(5)

load_models(4)

test(3)

update(3)

compile(3)

get_action(3)

save_models(2)

save_weights(2)

test_model(2)

train(2)

fit(2)

train_one_episode(2)

remember(1)

take_action(1)

save(1)

update_target_net(1)

replay(1)

noisy_act(1)

record(1)

optimize(1)

log2summary(1)

load_model(1)

load(1)

learning(1)

learn(1)

get_exploration_action(1)

get_exploitation_action(1)

eval(1)

choose_action(1)

action_input(1)

update_targets(1)

Ejemplo n.º 1

Mostrar archivo

    p.add_argument('--do_not_save', action='store_true')
    p.add_argument('--learning_freq', type=int, default=50)
    p.add_argument('--log_every_t_iter', type=int, default=50)
    p.add_argument('--max_gradient', type=float, default=10.0)
    p.add_argument('--n_iter', type=int, default=10000)
    p.add_argument('--seed', type=int, default=0)
    p.add_argument('--wait_until_rbuffer', type=int, default=1000)
    args = p.parse_args()

    # Handle the log directory and save the arguments.
    logdir = 'out/' + args.envname + '/seed' + str(args.seed).zfill(2)
    if args.do_not_save:
        logdir = None
    logz.configure_output_dir(logdir)
    if logdir is not None:
        with open(logdir + '/args.pkl', 'wb') as f:
            pickle.dump(args, f)
    print("Saving in logdir: {}".format(logdir))

    # Other stuff for seeding and getting things set up.
    tf.set_random_seed(args.seed)
    np.random.seed(args.seed)
    env = gym.make(args.envname)
    test_env = gym.make(args.envname)
    tf_config = tf.ConfigProto(inter_op_parallelism_threads=1,
                               intra_op_parallelism_threads=1)
    sess = tf.Session(config=tf_config)

    ddpg = DDPGAgent(sess, env, test_env, args)
    ddpg.train()

Ejemplo n.º 2

Mostrar archivo

Archivo: main.py Proyecto: ocortina/DDPG-TD3-Control_Continuous_Tasks

    episode_reward = 0

    for step in range(500):
        if episode >= 45:
            env.render()
        #action = agent.get_action(state, ou_noise)
        action = agent.get_action(state, ou_noise)
        #print("action = ", action)
        new_state, reward, done, _ = env.step(action)
        #print("new state =", new_state)
        #new_state = new_state['observation']
        #print("new state =", new_state)
        agent.memory.push(state, action, reward, new_state, done)

        if len(agent.memory) > batch_size:
            agent.train(batch_size)

        state = new_state
        episode_reward += reward

        if done:
            if episode == 0:
                sys.stdout.write(
                    "episode: {}, reward: {}, average _reward: {} \n".format(
                        episode, np.round(episode_reward, decimals=2), "nan"))
            else:
                sys.stdout.write(
                    "episode: {}, reward: {}, average _reward: {} \n".format(
                        episode, np.round(episode_reward, decimals=2),
                        np.mean(rewards[-10:])))
            break