Exemplos de ActorCritic.get_action em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: models

Classe / Tipo: ActorCritic

Método / Função: get_action

Exemplos em hotexamples.com: 2

ActorCritic.get_action em Python - 2 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de models.ActorCritic.get_action em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

ActorCritic(29)

load_state_dict(11)

parameters(10)

state_dict(7)

cuda(6)

eval(4)

train(2)

get_action(2)

share_memory(2)

step(1)

predict_value(1)

init_hidden(1)

act(1)

get_log_prob(1)

device(1)

cpu(1)

apply(1)

zero_grad(1)

Métodos Frequentes

ActorCritic (29)

load_state_dict (11)

parameters (10)

state_dict (7)

cuda (6)

eval (4)

train (2)

get_action (2)

share_memory (2)

step (1)

Métodos Frequentes

predict_value (1)

init_hidden (1)

act (1)

get_log_prob (1)

device (1)

cpu (1)

apply (1)

zero_grad (1)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: main.py Projeto: yoyo182487329/trading_gym

state, info = env.reset() state = torch.tensor(state, dtype=torch.float32).unsqueeze(0) r, d, ep_ret, ep_len = 0, False, 0, 0 update_times = 0 for step in range(1, MAX_STEPS + 1): if step == 732: pdb.set_trace() with torch.no_grad(): action = net.get_action(state) action = action.squeeze(0) #pdb.set_trace() next_state, reward, done, _ = env.step(action) #pdb.set_trace() replay.append(state, action, reward, next_state, done) state = next_state if done: break #if step == 10: # pdb.set_trace() if step % UPDATE_INTERVAL == 50: sample = random.sample(replay, BATCH_SIZE) batch = ch.ExperienceReplay(sample)

Exemplo n.º 2

0

Exibir arquivo

early_stop = False PATH = "saved_models/model_ppo_pendulum.pt" while not early_stop: log_probs = [] values = [] states = [] actions = [] rewards = [] masks = [] for _ in range(NB_STEP): state = torch.FloatTensor(state) value = model.predict_value(state) action = model.get_action(state) action = action.squeeze(0) next_state, reward, done, _ = envs.step(action) log_prob = model.get_log_prob(state, action) log_probs.append(log_prob) values.append(value) rewards.append(torch.FloatTensor(reward).unsqueeze(1)) masks.append(torch.FloatTensor(1 - done).unsqueeze(1)) states.append(state) actions.append(action) state = next_state frame_idx += 1