Esempi in Python per DDPG.calc_action

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: ddpg

Classe/tipologia: DDPG

Metodo/funzione: calc_action

Esempi su hotexamples.com: 2

DDPG.calc_action in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per ddpg.DDPG.calc_action, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

DDPG(30)

evaluate_actor(17)

choose_action(12)

add_experience(8)

get_action(7)

eval(6)

act(5)

get_stats(4)

adapt_param_noise(4)

actor(3)

best_reward(2)

calc_last_error(2)

Action(2)

before_cycle(2)

expl_rate_decay(2)

get_action_noise(2)

hard_update(2)

before_epoch(2)

calc_action(2)

assign_global_optimizer(2)

addMemory(2)

Tensor(2)

Update(2)

apply_lr_decay(2)

initail_net(2)

add_optim(2)

freeze_shared_weights(1)

Add2Mem(1)

get_variables_to_save(1)

apply_action(1)

get_shared_weights(1)

get_model(1)

get_loss(1)

Train(1)

build(1)

act_without_noise(1)

converter(1)

experience(1)

action_taking(1)

ActorPredict(1)

eval_all(1)

add_step(1)

ddpg_update(1)

cuda(1)

critic(1)

eval_all1(1)

Esempio n. 1

Mostra file

File: train.py Progetto: zhangzongliang/ddpg-pytorch

    # Start training
    logger.info('Train agent on {} env'.format({env.unwrapped.spec.id}))
    logger.info('Doing {} timesteps'.format(args.timesteps))
    logger.info('Start at timestep {0} with t = {1}'.format(timestep, t))
    logger.info('Start training at {}'.format(time.strftime('%a, %d %b %Y %H:%M:%S GMT', time.localtime())))

    while timestep <= args.timesteps:
        ou_noise.reset()
        epoch_return = 0

        state = torch.Tensor([env.reset()]).to(device)
        while True:
            if args.render_train:
                env.render()

            action = agent.calc_action(state, ou_noise)
            next_state, reward, done, _ = env.step(action.cpu().numpy()[0])
            timestep += 1
            epoch_return += reward

            mask = torch.Tensor([done]).to(device)
            reward = torch.Tensor([reward]).to(device)
            next_state = torch.Tensor([next_state]).to(device)

            memory.push(state, action, mask, next_state, reward)

            state = next_state

            epoch_value_loss = 0
            epoch_policy_loss = 0

Esempio n. 2

Mostra file

    agent.load_checkpoint()

    # Load the agents parameters
    agent.set_eval()

    for _ in range(args.episodes):
        step = 0
        returns = list()
        state = torch.Tensor([env.reset()]).to(device)
        episode_return = 0
        while True:
            if args.render:
                env.render()

            action = agent.calc_action(state, action_noise=None)
            q_value = agent.critic(state, action)
            next_state, reward, done, _ = env.step(action.cpu().numpy()[0])
            episode_return += reward

            state = torch.Tensor([next_state]).to(device)

            step += 1

            if done:
                logger.info(episode_return)
                returns.append(episode_return)
                break

    mean = np.mean(returns)
    variance = np.var(returns)