Python DQNAgent.add_env_feedbackの例

プログラミング言語: Python

名前空間/パッケージ名: agent

クラス/型: DQNAgent

メソッド/関数: add_env_feedback

hotexamples.comのコード掲載数: 3

Python DQNAgent.add_env_feedback - 3件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのagent.DQNAgent.add_env_feedbackの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

DQNAgent(30)

act(16)

fit(8)

get_action(7)

enable_maxq_tracking(4)

evaluate(4)

enable_rewards_tracking(4)

enable_model_saving(4)

enable_episodes_tracking(4)

add_env_feedback(3)

act_eps_greedy(3)

enable_plots_saving(3)

add_to_memory(2)

get_mean_max_Q(2)

get_data(2)

get_action_from_Q(2)

get_Q_values(2)

act_epsilon_greedy(2)

get_recent_state(2)

calculate_loss(2)

best_state(2)

_build_model(1)

copy_base_to_target(1)

get_qvalues(1)

get_qs(1)

get_info(1)

choose_action(1)

custom_save_model(1)

add(1)

getQs(1)

decrease_epsilone(1)

act_greedy(1)

epsilon(1)

adjust_target_net(1)

action(1)

e_get_action(1)

enable_tensorboard_for_tracking(1)

コード例 #1

ファイルを表示

ファイル: main.py プロジェクト: sai-prasanna/Reinforcement-Learning

def main(cfg: omegaconf.DictConfig):

	# create the environment
	env = atari_wrappers.make_env(cfg.exp.env)
	env = gym.wrappers.Monitor(env, "recording/", force=True)
	obs = env.reset()

	# TensorBoard
	writer = SummaryWriter()
	writer.add_hparams(flatten_dict(cfg), {})
	logger.info('Hyperparams:', cfg)

	# create the agent
	agent = DQNAgent(env, device=cfg.train.device, summary_writer=writer, cfg=cfg)

	n_games = 0
	max_mean_40_reward = -sys.maxsize

	# Play MAX_N_GAMES games
	while n_games < cfg.train.max_episodes:
		# act greedly
		action = agent.act_eps_greedy(obs)

		# one step on the environment
		new_obs, reward, done, _ = env.step(action)

		# add the environment feedback to the agent
		agent.add_env_feedback(obs, action, new_obs, reward, done)

		# sample and optimize NB: the agent could wait to have enough memories
		agent.sample_and_optimize(cfg.train.batch_size)

		obs = new_obs
		if done:
			n_games += 1
			agent.print_info()
			agent.reset_stats()
			obs = env.reset()
			if agent.rewards:
				current_mean_40_reward = np.mean(agent.rewards[-40:])
				if current_mean_40_reward > max_mean_40_reward:
					agent.save_model(cfg.train.best_checkpoint)
	writer.close()

コード例 #2

ファイルを表示

                     summary_writer=writer,
                     hyperparameters=DQN_HYPERPARAMS)

    n_games = 0
    n_iter = 0

    # Play MAX_N_GAMES games
    while n_games < MAX_N_GAMES:
        # act greedly
        action = agent.act_eps_greedy(obs)

        # one step on the environment
        new_obs, reward, done, _ = env.step(action)

        # add the environment feedback to the agent
        agent.add_env_feedback(obs, action, new_obs, reward, done)

        # sample and optimize NB: the agent could wait to have enough memories
        agent.sample_and_optimize(BATCH_SIZE)

        obs = new_obs
        if done:
            n_games += 1

            # print info about the agent and reset the stats
            agent.print_info()
            agent.reset_stats()

            if n_games % TEST_FREQUENCY == 0:
                print('Test mean:', utils.test_game(env, agent, 1))

コード例 #3

ファイルを表示

def main():

    args = parse_args()

    # Overwrite default values
    DQN_HYPERPARAMS['epsilon_final'] = args.eps
    DQN_HYPERPARAMS['double_DQN'] = args.ddqn

    # create the environment
    # env = atari_wrappers.make_env(ENV_NAME)
    env = atari_wrappers.make_env(args.env_name)

    # Create run name with environment name and timestamp of launch
    # (and optional tag)
    run_name = args.env_name
    if args.tag != "":
        run_name += f"_{args.tag}"
    run_name += "_run_" + datetime.now().strftime("%Y%m%d_%H%M")

    if SAVE_VIDEO:
        # save the video of the games
        # env = gym.wrappers.Monitor(env, "main-"+args.env_name, force=True)
        # Save every 50th episode
        env = gym.wrappers.Monitor(
            env,
            "videos/" + args.env_name + "/run_" +
            datetime.now().strftime("%Y%m%d_%H%M"),  # noqa
            video_callable=lambda episode_id: episode_id % 50 == 0)

    # TensorBoard
    writer = SummaryWriter(log_dir=LOG_DIR+'/'+run_name) \
        if SUMMARY_WRITER else None

    print('Hyperparams:', DQN_HYPERPARAMS)

    # create the agent
    agent = DQNAgent(env, DQN_HYPERPARAMS, DEVICE, summary_writer=writer)

    n_games = 0
    # n_iter = 0

    # Play MAX_N_GAMES games
    while n_games < MAX_N_GAMES:

        obs = env.reset()
        done = False

        while not done:

            # act greedly
            action = agent.act_eps_greedy(obs)

            # one step on the environment
            new_obs, reward, done, _ = env.step(action)

            # add the environment feedback to the agent
            agent.add_env_feedback(obs, action, new_obs, reward, done)

            # sample and optimize NB: the agent could wait to have enough
            # memories
            agent.sample_and_optimize(BATCH_SIZE)

            obs = new_obs

        n_games += 1

        # print info about the agent and reset the stats
        agent.print_info()
        agent.reset_stats()

        # if n_games % TEST_FREQUENCY == 0:
        # print('Test mean:', utils.test_game(env, agent, 1))

    writer.close()