Python LunarLander.close示例

编程语言: Python

命名空间/包名称: lunar_lander

类/类型: LunarLander

方法/功能: close

hotexamples.com的示例: 2

Python LunarLander.close - 已找到2个示例。这些是从开源项目中提取的最受好评的lunar_lander.LunarLander.close现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

LunarLander(8)

reset(5)

step(4)

close(2)

render(2)

get_action_meanings(1)

set_discount(1)

set_state(1)

transition(1)

示例#1

显示文件

文件： solution.py 项目： kamadforge/gp_regression

def main():
    """
    Train and evaluate agent.

    This function basically does the same as the checker that evaluates your agent.
    You can use it for debugging your agent and visualizing what it does.
    """
    from lunar_lander import LunarLander
    from gym.wrappers.monitoring.video_recorder import VideoRecorder

    env = LunarLander()

    agent = Agent(env)
    agent.train()

    rec = VideoRecorder(env, "policy.mp4")
    episode_length = 300
    n_eval = 100
    returns = []
    print("Evaluating agent...")

    for i in range(n_eval):
        print(f"Testing policy: episode {i+1}/{n_eval}")
        state = env.reset()
        cumulative_return = 0
        # The environment will set terminal to True if an episode is done.
        terminal = False
        env.reset()
        for t in range(episode_length):
            # if i <= 10:
            #     rec.capture_frame()
            # Taking an action in the environment
            action = agent.get_action(
                torch.as_tensor(state, dtype=torch.float32))
            state, reward, terminal = env.transition(action)
            cumulative_return += reward
            if terminal:
                break
        returns.append(cumulative_return)
        print(f"Achieved {cumulative_return:.2f} return.")
        # if i == 10:
        #     rec.close()
        #     print("Saved video of 10 episodes to 'policy.mp4'.")
    env.close()
    print(f"Average return: {np.mean(returns):.2f}")

示例#2

显示文件

            )
            steps += 1

            if steps % 3000 == 0 or done:
                print("\naction " + str(["{:+0.2f}".format(x) for x in a]))
                print("\nstep {}".format(steps))

            if args.collect_data and steps % 3000 == 0:
                print("... saving data")
                store_data(samples)
                save_results(episode_rewards)
                # reset the samples storage for the next 2500 steps
                samples = {
                    "state": [],
                    "state_img": [],
                    "next_state": [],
                    "next_state_img": [],
                    "reward": [],
                    "action": [],
                    "terminal": [],
                }

            # env.render()
            if done:
                print("REWARD", episode_reward)
                break

        episode_rewards.append(episode_reward)

    env.close()