Python DQNAgent.calculate_lossの例

プログラミング言語: Python

名前空間/パッケージ名: agent

クラス/型: DQNAgent

メソッド/関数: calculate_loss

hotexamples.comのコード掲載数: 2

Python DQNAgent.calculate_loss - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのagent.DQNAgent.calculate_lossの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

DQNAgent(30)

act(16)

fit(8)

get_action(7)

enable_maxq_tracking(4)

evaluate(4)

enable_rewards_tracking(4)

enable_model_saving(4)

enable_episodes_tracking(4)

add_env_feedback(3)

act_eps_greedy(3)

enable_plots_saving(3)

add_to_memory(2)

get_mean_max_Q(2)

get_data(2)

get_action_from_Q(2)

get_Q_values(2)

act_epsilon_greedy(2)

get_recent_state(2)

calculate_loss(2)

best_state(2)

_build_model(1)

copy_base_to_target(1)

get_qvalues(1)

get_qs(1)

get_info(1)

choose_action(1)

custom_save_model(1)

add(1)

getQs(1)

decrease_epsilone(1)

act_greedy(1)

epsilon(1)

adjust_target_net(1)

action(1)

e_get_action(1)

enable_tensorboard_for_tracking(1)

コード例 #1

ファイルを表示

            episode_count += 1
            reward_history.append(episode_reward)

            pb.set_description(
                f"episode: {episode_count}, reward: {episode_reward}, eps: {eps_schedule.get(i)*100:.2f}%"
            )
            plotter.plot('episode reward', 'episode return', "Episode Return",
                         episode_count, episode_reward)
            plotter.plot('episode reward', 'average return', "Episode Return",
                         episode_count,
                         sum(reward_history) / len(reward_history))
            episode_reward = 0
            if episode_count > 0 and episode_count % params.save_frequency == 0:
                agent.save(chk_dir / f"checkpoint-episode-{episode_count}.pt")

        obs = next_obs

        if i < 0: continue

        if i % params.target_sync == 0:
            agent.sync_target()

        if i % params.train_frequency == 0:
            opt.zero_grad()
            *batch, _ = memory.sample(params.batch_size)
            loss = agent.calculate_loss(*batch)
            loss.mean().backward()
            opt.step()

        pb.update(1)

コード例 #2

ファイルを表示

        memory.store_effect(idx, action, np.sign(reward), done)

        if done:
            next_obs = env.reset()
            episode_count += 1
            reward_history.append(episode_reward)

            pb.set_description(f"episode: {episode_count}, reward: {episode_reward}, eps: {eps_schedule.get(i)*100:.2f}%")
            plotter.plot('episode reward', 'episode return', "Episode Return", episode_count, episode_reward)
            plotter.plot('episode reward', 'average return', "Episode Return", episode_count, sum(reward_history) / len(reward_history))
            episode_reward = 0
            if episode_count > 0 and episode_count % params.save_frequency == 0:
                agent.save(chk_dir/ f"checkpoint-episode-{episode_count}.pt")
                # torch.save(memory, chk_dir / f"memory.pt")

        obs = next_obs

        if i < 0: continue

        if i % params.target_sync == 0:
            agent.sync_target()

        if i % params.train_frequency == 0:
            opt.zero_grad()
            *batch, _ = memory.sample(params.batch_size)
            loss = agent.calculate_loss(*batch, double=True)
            loss.mean().backward()
            opt.step()

        pb.update(1)