Exemplos de DQN.get_target_q_values em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: genrl.agents.deep.dqn.base

Classe / Tipo: DQN

Método / Função: get_target_q_values

Exemplos em hotexamples.com: 2

DQN.get_target_q_values em Python - 2 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de genrl.agents.deep.dqn.base.DQN.get_target_q_values em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

model(3)

get_q_values(2)

get_target_q_values(2)

target_model(2)

Métodos Frequentes

model (3)

get_q_values (2)

get_target_q_values (2)

target_model (2)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: utils.py Projeto: veds12/genrl

def categorical_q_loss(agent: DQN, batch: collections.namedtuple): """Categorical DQN loss function to calculate the loss of the Q-function Args: agent (:obj:`DQN`): The agent batch (:obj:`collections.namedtuple` of :obj:`torch.Tensor`): Batch of experiences Returns: loss (:obj:`torch.Tensor`): Calculateed loss of the Q-function """ q_values = agent.get_q_values(batch.states, batch.actions) target_q_values = agent.get_target_q_values(batch.next_states, batch.rewards, batch.dones) # For the loss, we take the difference loss = -(target_q_values * q_values.log()).sum(1).mean() return loss

Exemplo n.º 2

0

Exibir arquivo

Arquivo: utils.py Projeto: veds12/genrl

def prioritized_q_loss(agent: DQN, batch: collections.namedtuple): """Function to calculate the loss of the Q-function Returns: agent (:obj:`DQN`): The agent loss (:obj:`torch.Tensor`): Calculateed loss of the Q-function """ q_values = agent.get_q_values(batch.states, batch.actions) target_q_values = agent.get_target_q_values(batch.next_states, batch.rewards, batch.dones) # Weighted MSE Loss loss = batch.weights * (q_values - target_q_values.detach())**2 # Priorities are taken as the td-errors + some small value to avoid 0s priorities = loss + 1e-5 loss = loss.mean() agent.replay_buffer.update_priorities(batch.indices, priorities.detach().cpu().numpy()) agent.logs["value_loss"].append(loss.item()) return loss