Python SimpleMaze.reset示例

编程语言: Python

命名空间/包名称: qlearning.simple_envs

类/类型: SimpleMaze

方法/功能: reset

hotexamples.com的示例: 2

Python SimpleMaze.reset - 已找到2个示例。这些是从开源项目中提取的最受好评的qlearning.simple_envs.SimpleMaze.reset现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

interact(2)

isfinished(2)

reset(2)

示例#1

显示文件

文件： qtable.py 项目： zaxliu/dqn4wirelesscontrol

    def _update_table_sample():

    def _update_table_model():

    def _lookup_table():

    
if __name__ == "__main__":
    maze = SimpleMaze()
    agent = QAgent(actions=maze.ACTIONS, alpha=0.5, gamma=0.5, explore_strategy='epsilon', epsilon=0.1)
    # logging
    path = deque()  # path in this episode
    episode_reward_rates = []
    num_episodes = 0
    cum_reward = 0
    cum_steps = 0

    # repeatedly run episodes
    while True:
        # initialization
        maze.reset()
        agent.reset(foget_table=False)
        action, _ = agent.observe_and_act(observation=None, last_reward=None)  # get and random action
        path.clear()
        episode_reward = 0
        episode_steps = 0

        # interact and reinforce repeatedly
        while not maze.isfinished():
            new_observation, reward = maze.interact(action)
            action, _ = agent.observe_and_act(observation=new_observation, last_reward=reward)
            path.append(new_observation)
            episode_reward += reward
            episode_steps += 1
        print len(path),

        cum_steps += episode_steps
        cum_reward += episode_reward
        num_episodes += 1
        episode_reward_rates.append(episode_reward / episode_steps)
        if num_episodes % 100 == 0:
            print num_episodes, len(agent.q_table), cum_reward, cum_steps, 1.0 * cum_reward / cum_steps#, path
            cum_reward = 0
            cum_steps = 0
    win = 50

示例#2

显示文件

文件： qnn.py 项目： zaxliu/dqn4wirelesscontrol

                     reward_scaling=100.0, reward_scaling_update='adaptive', rs_period=2,
                     batch_size=100, update_period=10,
                     freeze_period=2, memory_size=1000,
                     alpha=0.5, gamma=0.5, explore_strategy='epsilon', epsilon=0.02, verbose=2)
    print "Maze and agent initialized!"

    # logging
    path = deque()  # path in this episode
    episode_reward_rates = []
    num_episodes = 0
    cum_reward = 0
    cum_steps = 0

    # repeatedly run episodes
    while True:
        maze.reset()
        agent.reset()
        action, _ = agent.observe_and_act(observation=None, last_reward=None)  # get and random action
        path.clear()
        episode_reward = 0
        episode_steps = 0
        episode_loss = 0

        # print '(',
        # interact and reinforce repeatedly
        while not maze.isfinished():
            new_observation, reward = maze.interact(action)
            action, loss = agent.observe_and_act(observation=new_observation, last_reward=reward)
            # print new_observation,
            # print action,
            # print agent.fun_rs_lookup(),