Python DQN.set_session 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: dqn_model

클래스/타입: DQN

메소드/함수: set_session

hotexamples.com에서의 예제들: 3

Python DQN.set_session - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 dqn_model.DQN.set_session에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

DQN(30)

load_state_dict(29)

parameters(28)

state_dict(26)

eval(14)

cuda(10)

train(8)

forward(4)

to(4)

set_session(3)

train_q_network(1)

share_memory(1)

remember(1)

save_model(1)

save(1)

act(1)

initialize(1)

get_action(1)

apply(1)

update_target_parameter(1)

예제 #1

파일 보기

    def __init__(self, FLAGS):

        self.FLAGS = FLAGS
        self.env = gym.make('CartPole-v1')
        self.state_size = len(self.env.observation_space.sample())
        self.num_episodes = 1000

        self.exp_replay = ExperienceReplay()

        target_network = DQN(scope='target',
                             env=self.env,
                             target_network=None,
                             flags=FLAGS,
                             exp_replay=None)
        self.q_network = DQN(scope='q_network',
                             env=self.env,
                             target_network=target_network,
                             flags=FLAGS,
                             exp_replay=self.exp_replay)

        init = tf.global_variables_initializer()
        session = tf.InteractiveSession()
        session.run(init)

        self.q_network.set_session(session)
        target_network.set_session(session)

예제 #2

파일 보기

파일: dql_quantum_pong.py 프로젝트: or-tal-robotics/gym-openai-multirobot-catch

    model = DQN(K=K,
                conv_layer_sizes=conv_layer_sizes,
                hidden_layer_sizes=hidden_layer_sizes,
                scope="model",
                image_size=IM_SIZE)

    target_model = DQN(K=K,
                       conv_layer_sizes=conv_layer_sizes,
                       hidden_layer_sizes=hidden_layer_sizes,
                       scope="target_model",
                       image_size=IM_SIZE)

    image_transformer = ImageTransformer(IM_SIZE)

    with tf.Session() as sess:
        model.set_session(sess)
        target_model.set_session(sess)
        #model.load()
        #target_model.load()
        sess.run(tf.global_variables_initializer())
        print("Initializing experience replay buffer...")
        obs = env.reset()

        for i in range(MIN_EXPERIENCE):
            action = np.random.choice(K)
            obs, reward, done, _ = env.step(action)
            obs_small = image_transformer.transform(obs, sess)
            experience_replay_buffer.add_experience(action, obs_small, reward,
                                                    done)

            if done:

예제 #3

파일 보기

class CartPole:
    def __init__(self, FLAGS):

        self.FLAGS = FLAGS
        self.env = gym.make('CartPole-v1')
        self.state_size = len(self.env.observation_space.sample())
        self.num_episodes = 1000

        self.exp_replay = ExperienceReplay()

        target_network = DQN(scope='target',
                             env=self.env,
                             target_network=None,
                             flags=FLAGS,
                             exp_replay=None)
        self.q_network = DQN(scope='q_network',
                             env=self.env,
                             target_network=target_network,
                             flags=FLAGS,
                             exp_replay=self.exp_replay)

        init = tf.global_variables_initializer()
        session = tf.InteractiveSession()
        session.run(init)

        self.q_network.set_session(session)
        target_network.set_session(session)

    '''Play one single episode. '''

    def playEpisode(self, eps):

        state = self.env.reset()
        state = state.reshape(1, self.state_size)

        num_iter = 0
        done = False
        total_reward = 0

        while not done:

            action = self.q_network.get_action(state, eps)
            prev_state = state
            state, reward, done, _ = self.env.step(action)
            state = state.reshape(1, self.state_size)

            #self.env.render(mode='rgb_array')
            total_reward = total_reward + reward

            if done:
                reward = -100

            self.exp_replay.addExperience(prev_state, action, reward, state,
                                          done)
            self.q_network.train_q_network()

            num_iter += 1

            if (num_iter % self.FLAGS.num_iter_update) == 0:
                self.q_network.update_target_parameter()

        return total_reward

    '''Main loop for the running of the episodes. '''

    def run(self):

        totalrewards = np.empty(self.num_episodes + 1)
        n_steps = 10

        for n in range(0, self.num_episodes + 1):

            eps = 1.0 / np.sqrt(n + 1)
            total_reward = self.playEpisode(eps)

            totalrewards[n] = total_reward

            if n > 0 and n % n_steps == 0:
                print(
                    "episodes: %i, avg_reward (last: %i episodes): %.2f, eps: %.2f"
                    % (n, n_steps,
                       totalrewards[max(0, n - n_steps):(n + 1)].mean(), eps))