Exemplos de ReplayMemory.can_provide_sample em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: replay_memory

Classe / Tipo: ReplayMemory

Método / Função: can_provide_sample

Exemplos em hotexamples.com: 1

ReplayMemory.can_provide_sample em Python - 1 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de replay_memory.ReplayMemory.can_provide_sample em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

ReplayMemory(30)

add(30)

append(21)

enqueue(11)

add_transition(3)

batch(3)

add_experience(3)

add_episode(3)

clear(2)

enable_gbl(2)

disable_gbl(2)

__len__(2)

add_memory(2)

dump(1)

debug(1)

current_stats(1)

count(1)

batch_ops(1)

can_provide_sample(1)

add_element(1)

append_storage_chunk(1)

add_state_transition(1)

add_recent_state(1)

add_recent_action(1)

add_all(1)

Métodos Frequentes

ReplayMemory (30)

add (30)

append (21)

enqueue (11)

add_transition (3)

batch (3)

add_experience (3)

add_episode (3)

clear (2)

enable_gbl (2)

Métodos Frequentes

disable_gbl (2)

__len__ (2)

add_memory (2)

dump (1)

debug (1)

current_stats (1)

count (1)

batch_ops (1)

can_provide_sample (1)

add_element (1)

append_storage_chunk (1)

add_state_transition (1)

add_recent_state (1)

add_recent_action (1)

add_all (1)

Métodos Frequentes

append_storage_chunk (1)

add_state_transition (1)

add_recent_state (1)

add_recent_action (1)

add_all (1)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: main_example.py Projeto: custodio-prog/DQN

optimizer = optim.Adam(params=policy_net.parameters(), lr=lr) # Training Loop episode_durations = [] for episode in range(num_episodes): em.reset() state = em.get_state() for timestep in count(): action = agent.select_action(state, policy_net) reward = em.take_action(action) next_state = em.get_state() memory.push(Experience(state, action, next_state, reward)) state = next_state if memory.can_provide_sample(batch_size): experiences = memory.sample(batch_size) states, actions, rewards, next_states = extract_tensors( experiences) current_q_values = QValues.get_current(policy_net, states, actions) next_q_values = QValues.get_next(target_net, next_states) target_q_values = (next_q_values * gamma) + rewards loss = F.mse_loss(current_q_values, target_q_values.unsqueeze(1)) optimizer.zero_grad() loss.backward() optimizer.step() if em.done: episode_durations.append(timestep) plotter.plot(episode_durations, 100)