Python DDPGAgent.train Exemples

Langage de programmation: Python

Espace de nommage/Pack: ddpg

Class/Type: DDPGAgent

Méthode/Fonction: train

Exemples au hotexamples.com: 2

Python DDPGAgent.train - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de ddpg.DDPGAgent.train extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

DDPGAgent(30)

act(5)

load_models(4)

test(3)

update(3)

compile(3)

get_action(3)

save_models(2)

save_weights(2)

test_model(2)

train(2)

fit(2)

train_one_episode(2)

remember(1)

take_action(1)

save(1)

update_target_net(1)

replay(1)

noisy_act(1)

record(1)

optimize(1)

log2summary(1)

load_model(1)

load(1)

learning(1)

learn(1)

get_exploration_action(1)

get_exploitation_action(1)

eval(1)

choose_action(1)

action_input(1)

update_targets(1)

Méthodes fréquemment utilisées

DDPGAgent (30)

act (5)

load_models (4)

test (3)

update (3)

compile (3)

get_action (3)

save_models (2)

save_weights (2)

test_model (2)

Méthodes fréquemment utilisées

train (2)

fit (2)

train_one_episode (2)

remember (1)

take_action (1)

save (1)

update_target_net (1)

replay (1)

noisy_act (1)

record (1)

optimize (1)

log2summary (1)

load_model (1)

load (1)

learning (1)

learn (1)

get_exploration_action (1)

get_exploitation_action (1)

eval (1)

choose_action (1)

Méthodes fréquemment utilisées

optimize (1)

log2summary (1)

load_model (1)

load (1)

learning (1)

learn (1)

get_exploration_action (1)

get_exploitation_action (1)

eval (1)

choose_action (1)

action_input (1)

update_targets (1)

Méthodes fréquemment utilisées

action_input (1)

update_targets (1)

Exemple #1

0

Afficher le fichier

p.add_argument('--do_not_save', action='store_true') p.add_argument('--learning_freq', type=int, default=50) p.add_argument('--log_every_t_iter', type=int, default=50) p.add_argument('--max_gradient', type=float, default=10.0) p.add_argument('--n_iter', type=int, default=10000) p.add_argument('--seed', type=int, default=0) p.add_argument('--wait_until_rbuffer', type=int, default=1000) args = p.parse_args() # Handle the log directory and save the arguments. logdir = 'out/' + args.envname + '/seed' + str(args.seed).zfill(2) if args.do_not_save: logdir = None logz.configure_output_dir(logdir) if logdir is not None: with open(logdir + '/args.pkl', 'wb') as f: pickle.dump(args, f) print("Saving in logdir: {}".format(logdir)) # Other stuff for seeding and getting things set up. tf.set_random_seed(args.seed) np.random.seed(args.seed) env = gym.make(args.envname) test_env = gym.make(args.envname) tf_config = tf.ConfigProto(inter_op_parallelism_threads=1, intra_op_parallelism_threads=1) sess = tf.Session(config=tf_config) ddpg = DDPGAgent(sess, env, test_env, args) ddpg.train()

Exemple #2

0

Afficher le fichier

Fichier : main.py Projet : ocortina/DDPG-TD3-Control_Continuous_Tasks

episode_reward = 0 for step in range(500): if episode >= 45: env.render() #action = agent.get_action(state, ou_noise) action = agent.get_action(state, ou_noise) #print("action = ", action) new_state, reward, done, _ = env.step(action) #print("new state =", new_state) #new_state = new_state['observation'] #print("new state =", new_state) agent.memory.push(state, action, reward, new_state, done) if len(agent.memory) > batch_size: agent.train(batch_size) state = new_state episode_reward += reward if done: if episode == 0: sys.stdout.write( "episode: {}, reward: {}, average _reward: {} \n".format( episode, np.round(episode_reward, decimals=2), "nan")) else: sys.stdout.write( "episode: {}, reward: {}, average _reward: {} \n".format( episode, np.round(episode_reward, decimals=2), np.mean(rewards[-10:]))) break