Python DQNAgent.compute_batch_q_values 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: rl.agents.dqn

클래스/타입: DQNAgent

메소드/함수: compute_batch_q_values

hotexamples.com에서의 예제들: 3

Python DQNAgent.compute_batch_q_values - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 rl.agents.dqn.DQNAgent.compute_batch_q_values에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

DQNAgent(30)

compile(30)

load_weights(30)

fit(30)

save_weights(30)

test(30)

forward(7)

processor(3)

target_model(3)

compute_batch_q_values(3)

compute_q_values(2)

test_policy(2)

backward(2)

training(2)

policy(2)

select_action(1)

save_model(1)

reset_states(1)

replay(1)

remember(1)

reload_memory(1)

reload(1)

model(1)

process_state_batch(1)

modelfile(1)

X(1)

memoryfile(1)

learning(1)

get_config(1)

enable_dueling_network(1)

cmopile(1)

act(1)

_build_model(1)

__init__(1)

Y(1)

update_target_model(1)

예제 #1

파일 보기

파일: teste_dq.py 프로젝트: lucasvolkmer/automata_gym

                              model=model,
                              nb_actions=action_size,
                              memory=memory,
                              nb_steps_warmup=500,
                              target_model_update=1e-2,
                              policy=policy,
                              test_policy=policy)
dqn_only_embedding.compile(Adam(lr=1e-3), metrics=['mae'])
dqn_only_embedding.fit(env,
                       nb_steps=50000,
                       visualize=False,
                       verbose=1,
                       nb_max_episode_steps=100,
                       log_interval=10000,
                       start_step_policy=policy)
q_values = dqn_only_embedding.compute_batch_q_values([0])
for i in range(1, state_size):
    q_values = np.vstack(
        (q_values, dqn_only_embedding.compute_batch_q_values([i])))

#dqn_only_embedding.test(env, nb_episodes=5, visualize=False, verbose=1, nb_max_episode_steps=100,
#                     start_step_policy=policy)

#Caminho para o carro 0 até MI
env.reset()
env.step(21)
env.step(4)
env.step(22)
env.step(5)
env.step(19)
env.step(2)

예제 #2

파일 보기

파일: dqn_Mountaincar.py 프로젝트: LeSoleil1/Machine_Learning

class DQNPolicy:
    def __init__(self, env, model_path):
        # Setup
        self.env = env
        self.model_path = model_path
        self.num_actions = env.action_space.n
        self.input_shape = env.observation_space.shape
        self.env_name = 'MountainCar-v0'
        self.dqn = None

        self.model = Sequential()
        self.model.add(
            Flatten(input_shape=(1, ) + self.input_shape, name='input'))
        self.model.add(Dense(48))
        self.model.add(Activation('relu'))
        self.model.add(Dense(48))
        self.model.add(Activation('relu'))
        self.model.add(Dense(48))
        self.model.add(Activation('relu'))
        self.model.add(
            Dense(self.num_actions,
                  kernel_initializer='zeros',
                  name='output_weights'))
        self.model.add(Activation('linear'))
        print(self.model.summary())

        memory = SequentialMemory(limit=50000, window_length=1)  # limit=50000
        policy = BoltzmannQPolicy()
        self.dqn = DQNAgent(model=self.model,
                            nb_actions=self.num_actions,
                            memory=memory,
                            nb_steps_warmup=10,
                            target_model_update=1e-2,
                            policy=policy)
        self.dqn.compile(Adam(lr=1e-3), metrics=['mae'])

        weights_filename = 'dqn_{}_weights.h5f'.format(self.env_name)
        # if args.weights:
        #     weights_filename = args.weights
        self.dqn.load_weights(self.model_path + weights_filename)

    def predict_q(self, imgs):
        # #SOHEIL################################################
        # if isinstance(imgs,np.ndarray):
        #     print("predict_Q_imgs_INPUT",type(imgs), imgs.shape)
        # elif type(imgs) == list:
        #     print("predict_Q_imgs_INPUT",type(imgs), len(imgs),type(imgs[0]),imgs[0].shape)
        # #######################################################
        qs1 = []
        for state in imgs:
            current_state = np.expand_dims(state, axis=0)
            current_state = list(np.expand_dims(current_state, axis=0))
            qs = self.dqn.compute_batch_q_values(current_state)
            qs1.append(qs.tolist()[0])
        qs1 = np.asarray(qs1)

        # #SOHEIL################################################
        # print("predict_Q_imgs_OUTPUT",type(qs1), qs1.shape)
        # #######################################################
        return qs1

    def predict(self, imgs):
        # #SOHEIL################################################
        # if isinstance(imgs,np.ndarray):
        #     print("predict_ACTIONS_imgs_INPUT",type(imgs), imgs.shape)
        # elif type(imgs) == list:
        #     print("predict_ACTIONS_imgs_INPUT",type(imgs), len(imgs),type(imgs[0]),imgs[0].shape)
        # #######################################################
        acts = []
        if type(imgs) == list:
            for state in imgs:
                current_state = np.expand_dims(np.expand_dims(state, axis=0),
                                               axis=0)
                current_state = list(np.expand_dims(current_state, axis=0))
                acts.append(
                    np.asarray(
                        [np.argmax(self.dqn.model.predict(current_state))]))
        elif isinstance(imgs, np.ndarray):
            # print(imgs)
            current_state = np.expand_dims(imgs, axis=0)
            current_state = list(np.expand_dims(current_state, axis=0))
            acts = np.asarray(
                [np.argmax(self.dqn.model.predict(current_state))])

        # #SOHEIL################################################
        # print("predict_ACTIONS_imgs_OUTPUT",type(acts), acts.shape)
        # #######################################################
        return acts

예제 #3

파일 보기

파일: dqn_cartpole.py 프로젝트: TangChangcheng/SquareEnvironment-0

# Okay, now it's time to learn something! We visualize the training here for show, but this
# slows down training quite a lot. You can always safely abort the training prematurely using
# Ctrl + C.
env.is_train = True

dqn.load_weights('dqn_{}_weights.h5f'.format(ENV_NAME))
dqn.fit(env, nb_steps=100000, visualize=False, verbose=2)

# After training is done, we save the final weights.
dqn.save_weights('dqn_{}_weights.h5f'.format(ENV_NAME), overwrite=True)

with open('dqn_action.json', 'w') as fw:
    observation = status.tolist()
    action = [
        float(actions[dqn.forward(np.array([obs]))]) for obs in observation
    ]
    json.dump({'observation': observation, 'action': action}, fw)

state_batch = status.reshape([-1, 1, 1])
q_val = pd.DataFrame(dqn.compute_batch_q_values(state_batch))
q_val.to_csv('dqn_qvalue.csv')

env.is_train = False
env.plot_row = 1
env.plot_col = 5
# Finally, evaluate our algorithm for 5 episodes.
dqn.test(env, nb_episodes=5, visualize=True)

env.plt.ioff()
env.plt.show()