Esempi in Python per DDPG.get_action_noise

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: ddpg

Classe/tipologia: DDPG

Metodo/funzione: get_action_noise

Esempi su hotexamples.com: 2

DDPG.get_action_noise in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per ddpg.DDPG.get_action_noise, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

DDPG(30)

evaluate_actor(17)

choose_action(12)

add_experience(8)

get_action(7)

eval(6)

act(5)

get_stats(4)

adapt_param_noise(4)

actor(3)

best_reward(2)

calc_last_error(2)

Action(2)

before_cycle(2)

expl_rate_decay(2)

get_action_noise(2)

hard_update(2)

before_epoch(2)

calc_action(2)

assign_global_optimizer(2)

addMemory(2)

Tensor(2)

Update(2)

apply_lr_decay(2)

initail_net(2)

add_optim(2)

freeze_shared_weights(1)

Add2Mem(1)

get_variables_to_save(1)

apply_action(1)

get_shared_weights(1)

get_model(1)

get_loss(1)

Train(1)

build(1)

act_without_noise(1)

converter(1)

experience(1)

action_taking(1)

ActorPredict(1)

eval_all(1)

add_step(1)

ddpg_update(1)

cuda(1)

critic(1)

eval_all1(1)

Esempio n. 1

Mostra file

for i in range(NUM_EPISODES):
    cur_state = env.reset()
    cum_reward = 0
    # tensorboard summary
    summary_writer = tf.summary.FileWriter('/tmp/pendulum-log-0'+'/train', graph=tf.get_default_graph())

    if (i % EVALUATE_EVERY) == 0:
      print ('====evaluation====')
    for t in range(MAX_STEPS):
      if (i % EVALUATE_EVERY) == 0:
        env.render()
        action = agent.get_action(cur_state, sess)[0]
      else:
        # decaying noise
        action = agent.get_action_noise(cur_state, sess, rate=(NUM_EPISODES-i)/NUM_EPISODES)[0]
      next_state, reward, done, info = env.step(action)
      if (i % EVALUATE_EVERY) == 0:
          print('cur_state: ', end='')
          print(cur_state)
          print('action: ', end='')
          print(action)
          print('reward: ' + str(reward))
          print('------------------------------------------------------')
      if done:
        cum_reward += reward
        agent.add_step(Step(cur_step=cur_state, action=action, next_step=next_state, reward=reward, done=done))
        print("Done! Episode {} finished after {} timesteps, cum_reward: {}".format(i, t + 1, cum_reward))
        summarize(cum_reward, i, summary_writer)
        break
      cum_reward += reward

Esempio n. 2

Mostra file

  agent = DDPG(actor=actor, critic=critic, exprep=exprep, noise=noise, action_bound=setting.ACTION_RANGE)
sess.run(tf.initialize_all_variables())

for i in range(setting.NUM_EPISODES):
    cur_state = env.reset()
    cum_reward = 0
    if (i % setting.EVALUATE_EVERY) == 0:
      print ('====evaluation====')
    for t in range(setting.MAX_STEPS):
      print("Time step: " + str(t))
      if (i % setting.EVALUATE_EVERY) == 0:
        env.render()
        action = agent.get_action(cur_state, sess)[0]
      else:
        # decaying noise
        action = agent.get_action_noise(cur_state, sess, rate=(setting.NUM_EPISODES-i)/setting.NUM_EPISODES)[0]
      action = convertToPositive(action)
      next_state, reward, done, info = env.step(action)
      infos = info.split(',')
      rew_history.append(reward)
      util_history.append(float(infos[2]))
      delay_history.append(float(infos[3]))
      cum_reward += reward
      agent.add_step(Step(cur_step=cur_state, action=action, next_step=next_state, reward=reward, done=done))
      if (i % setting.EVALUATE_EVERY) == 0:
          printer.print_state(cur_state)
          printer.do_job('action', action)
          printer.do_job('reward, util, delay', [reward, float(infos[2]), float(infos[3])])
          printer.do_line()
      if done or t == setting.MAX_STEPS - 1:
        print("Done! Episode {} finished after {} timesteps, cum_reward: {}".format(i, t + 1, cum_reward))