Exemplos de DeepQNetwork.predict em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: deep_q_network

Classe / Tipo: DeepQNetwork

Método / Função: predict

Exemplos em hotexamples.com: 2

DeepQNetwork.predict em Python - 2 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de deep_q_network.DeepQNetwork.predict em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

DeepQNetwork(22)

loss(7)

load_state_dict(7)

train(6)

forward(6)

state_dict(6)

save_checkpoint(5)

load_checkpoint(5)

parameters(4)

eval(3)

choose_action(3)

learn(3)

predict(2)

test(2)

cuda(2)

store_transition(2)

save(2)

save_experience(1)

to(1)

epsilon(1)

get_action(1)

epsilon_min(1)

plot_loss(1)

plot_cost(1)

copy_from(1)

load(1)

copy_weights_from_nn(1)

Métodos Frequentes

DeepQNetwork (22)

loss (7)

load_state_dict (7)

train (6)

forward (6)

state_dict (6)

save_checkpoint (5)

load_checkpoint (5)

parameters (4)

eval (3)

Métodos Frequentes

choose_action (3)

learn (3)

predict (2)

test (2)

cuda (2)

store_transition (2)

save (2)

save_experience (1)

to (1)

epsilon (1)

get_action (1)

epsilon_min (1)

plot_loss (1)

plot_cost (1)

copy_from (1)

load (1)

copy_weights_from_nn (1)

Métodos Frequentes

get_action (1)

epsilon_min (1)

plot_loss (1)

plot_cost (1)

copy_from (1)

load (1)

copy_weights_from_nn (1)

Exemplo n.º 1

0

Exibir arquivo

target_dqn.copy_from(dqn) # 复制参数 if epsilon_greedy(step): action = env.action_space.sample() else: action = dqn.get_action(state / 255.0) # env.render() next_frame, reward, done, _ = env.step(action) next_state = np.array(next_frame) buf.push(state, action, reward, next_state, done) state = next_state cur_episode_reward += reward if buf.size() > MIN_BUFFER: states, actions, rewards, next_states, dones = buf.sample( MINI_BATCH) next_state_action_values = np.max(target_dqn.predict( next_states / 255.0), axis=1) y_true = dqn.predict( states / 255.0) # Y.shape: (MINI_BATCH, num_actions), i.e., (32, 6) y_true[range( MINI_BATCH ), actions] = rewards + GAMMA * next_state_action_values * np.invert( dones) dqn.train(states / 255.0, y_true) step += 1 total_episode_rewards.append(cur_episode_reward) if episode % 100 == 0: dqn.save(MODEL_DIR, 'dqn-{}'.format(episode)) if np.mean(total_episode_rewards[-30:]) > 19: dqn.save(MODEL_DIR, 'dqn-{}'.format(episode))

Exemplo n.º 2

0

Exibir arquivo

Arquivo: main.py Projeto: rtv313/DQN-SpaceInvaders

if memory.can_provide_sample(batch_size): experiences_batch = memory.sample(batch_size) states = np.zeros((batch_size, environment_manager.final_reshape)) next_states = np.zeros( (batch_size, environment_manager.final_reshape)) actions, rewards = [], [] # Prepare data batch for i in range(batch_size): states[i] = experiences_batch[i][0] actions.append(experiences_batch[i][1]) next_states[i] = experiences_batch[i][2] rewards.append(experiences_batch[i][3]) current_q_values = policy_net.predict(states) target_q_values = target_net.predict(next_states) # Create Q_targets for i in range(batch_size): # Q_max = max_a' Q_target(s', a') target_q_values[i][actions[i]] = rewards[i] + gamma * (np.amax( target_q_values[i])) # Train Policy Network policy_net.train(states, target_q_values) if environment_manager.done: max_reward = max_reward if max_reward > max_episode_reward else max_episode_reward print("Episode: " + str(episode) + " Episode reward: " + str(max_episode_reward) + " Max Reward: " + str(max_reward) +