Esempi in Python per QNetwork.decide_action

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: model

Classe/tipologia: QNetwork

Metodo/funzione: decide_action

Esempi su hotexamples.com: 2

QNetwork.decide_action in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per model.QNetwork.decide_action, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

QNetwork(30)

eval(30)

train(30)

state_dict(30)

load_state_dict(30)

parameters(30)

forward(23)

to(8)

set_weights(6)

cuda(5)

get_weights(4)

sample_action(3)

cpu(3)

save_weights(2)

load_weights(2)

decide_action(2)

load_model(2)

items(2)

criterion(2)

trainNet(1)

backward(1)

step(1)

update_mean(1)

spectrum(1)

update_nn(1)

update_target_network(1)

soft_update(1)

restore(1)

set_params(1)

save(1)

sample_actions(1)

qvalue(1)

predict_act(1)

__str__(1)

named_parameters(1)

loss_fn(1)

load(1)

initialize_weights(1)

get_action(1)

foward(1)

update_weights(1)

Esempio n. 1

Mostra file

File: evaluate.py Progetto: kumiko-oreyome/DSAI-HW4-Mountain-car

def evaluate(model_path,history_num,max_episode_steps,episode_num,result_save_path):
    checkpoint = torch.load(model_path)
    qnetwork = QNetwork(*checkpoint['model_hyper'])
    qnetwork.load_state_dict(checkpoint['model']) 
    

    env = gym.make('MountainCar-v0')
    test_success_history = []
    test_reward_history = []
    for episode in range(episode_num):
        print('episode %d'%(episode))
        observation = env.reset()
        #initialize state
        state = State(history_num)
        state.init_state(observation)
        done = False
        reward_sum = 0
    
        for t in range(max_episode_steps):
            env.render()
            state.display()
            # select a action with max q value action
            action = qnetwork.decide_action(state.toTensor().view(1,-1))
            action = action.sum().item() 
            observation, reward, done, info = env.step(action)
            reward_sum = reward_sum+reward

            if done: 
                print('done')
                print(reward_sum)
                success = False
                if observation[0]>=0.5:
                    success = True
                test_success_history.append(success)
                test_reward_history.append(reward_sum)
                break

            state.update_state_by_observation(observation,action)
            


    print('- '*100)
    print('save to %s'%(result_save_path))  
    with open(result_save_path,'wb') as f:
        pkl.dump((test_success_history,test_reward_history),f)

Esempio n. 2

Mostra file

    done = False
    final_transition = None
    loss_sum = 0
    reward_sum = 0

    for t in range(max_episode_steps):
        if done:
            break
        env.render()
        state.display()
        # select a action
        p = random.random()
        if p < epsilon:
            action = env.action_space.sample()
        else:
            action = qnetwork.decide_action(state.toTensor().view(1, -1))
            # to scalar and then to int
            assert list(action.shape) == [1]
            action = action.sum().item()

        observation, reward, done, info = env.step(action)

        if done:
            # -1 reward for all step
            avg_loss = loss_sum / max_episode_steps
            print('done')
            print(avg_loss)
            loss_history.append(avg_loss)
            reward_sum_history.append(reward_sum)

        old_state = copy.deepcopy(state)