Python calc_loss_dqn示例

编程语言: Python

命名空间/包名称: Chapter8.lib.common

方法/功能: calc_loss_dqn

hotexamples.com的示例: 3

Python calc_loss_dqn - 已找到3个示例。这些是从开源项目中提取的最受好评的Chapter8.lib.common.calc_loss_dqn现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： 01_dqn_basic.py 项目： Daggerfall-is-the-best-TES-game/reinforcement-learning

 def process_batch(engine, batch):
     optimizer.zero_grad()
     loss = common.calc_loss_dqn(batch, net, tgt_net.target_model, gamma=params.gamma, device=device)
     loss.backward()
     optimizer.step()
     epsilon_tracker.frame(engine.state.iteration)
     if engine.state.iteration % params.target_net_sync == 0:
         tgt_net.sync()
     return {"loss": loss.item(), "epsilon": selector.epsilon}

示例#2

显示文件

 def process_batch(engine, batch):
     optimizer.zero_grad()
     loss = common.calc_loss_dqn(batch,
                                 net,
                                 tgt_net.target_model,
                                 gamma=params.gamma,
                                 device=device)
     loss.backward()
     optimizer.step()
     epsilon_tracker.frame(engine.state.iteration)
     if engine.state.iteration % params.target_net_sync == 0:
         tgt_net.sync()
     if engine.state.iteration % NOISY_SNR_EVERY_ITERS == 0:
         for layer_idx, sigma_l2 in enumerate(net.noisy_layers_sigma_snr()):
             engine.state.metrics[f"snr_{layer_idx + 1}"] = sigma_l2
     return {"loss": loss.item()}

示例#3

显示文件

文件： 06_dqn_dueling.py 项目： Daggerfall-is-the-best-TES-game/reinforcement-learning

 def process_batch(engine, batch):
     optimizer.zero_grad()
     loss = common.calc_loss_dqn(batch, net, tgt_net.target_model, gamma=params.gamma, device=device)
     loss.backward()
     optimizer.step()
     epsilon_tracker.frame(engine.state.iteration)
     if engine.state.iteration % params.target_net_sync == 0:
         tgt_net.sync()
     if engine.state.iteration % EVAL_EVER_FRAME == 0:
         eval_states = getattr(engine.state, "eval_states", None)
         if eval_states is None:
             eval_states = buffer.sample(STATES_TO_EVALUATE)
             eval_states = [np.array(transition.state, copy=False) for transition in eval_states]
             eval_states = np.array(eval_states, copy=False)
             engine.state.eval_states = eval_states
         evaluate_states(eval_states, net, device, engine)
     return {"loss": loss.item(), "epsilon": selector.epsilon}