Python DQNAgent.compute_q_valuesの例

プログラミング言語: Python

名前空間/パッケージ名: rl.agents.dqn

クラス/型: DQNAgent

メソッド/関数: compute_q_values

hotexamples.comのコード掲載数: 2

Python DQNAgent.compute_q_values - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのrl.agents.dqn.DQNAgent.compute_q_valuesの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

DQNAgent(30)

compile(30)

load_weights(30)

fit(30)

save_weights(30)

test(30)

forward(7)

processor(3)

target_model(3)

compute_batch_q_values(3)

compute_q_values(2)

test_policy(2)

backward(2)

training(2)

policy(2)

select_action(1)

save_model(1)

reset_states(1)

replay(1)

remember(1)

reload_memory(1)

reload(1)

model(1)

process_state_batch(1)

modelfile(1)

X(1)

memoryfile(1)

learning(1)

get_config(1)

enable_dueling_network(1)

cmopile(1)

act(1)

_build_model(1)

__init__(1)

Y(1)

update_target_model(1)

コード例 #1

ファイルを表示

ファイル: policy_reuse.py プロジェクト: jose-amendola/RL_vessel

class ReusePolicy(EpsGreedyQPolicy):
    def __init__(self, agent_weights=None, *args, **kwargs):
        super(ReusePolicy, self).__init__(*args, **kwargs)
        self.nb_actions = 3
        self.model = Sequential()
        self.model.add(Flatten(input_shape=(1,) + (4,)))
        self.model.add(Dense(64))
        self.model.add(Activation('relu'))
        self.model.add(Dense(32))
        self.model.add(Activation('relu'))
        self.model.add(Dense(self.nb_actions))
        self.model.add(Activation('linear'))
        self.memory = SequentialMemory(limit=500, window_length=1)
        self.policy = BoltzmannQPolicy()
        self.dqn = DQNAgent(model=self.model, nb_actions=self.nb_actions, memory=self.memory, nb_steps_warmup=5,
                       target_model_update=1e-2, policy=self.policy)
        self.dqn.compile(Adam(lr=1e-3), metrics=['mae'])
        self.dqn.load_weights(agent_weights)

    def simplify_obs(self, obs):
        simple_obs = [obs[0][0:4]]
        return simple_obs

    def select_action(self, q_values, state):
        assert q_values.ndim == 1
        nb_actions_current_env = q_values.shape[0]
        rand_number = np.random.uniform()
        if rand_number > self.eps:
            simple_obs = self.simplify_obs(state)
            reuse_q_values = self.dqn.compute_q_values(simple_obs)
            action = np.argmax(reuse_q_values)
        elif rand_number < (1 - self.eps)/2:
            action = np.argmax(q_values)
        else:
            action = np.random.random_integers(0, nb_actions_current_env - 1)
        return action

コード例 #2

ファイルを表示

ファイル: trade_dqn.py プロジェクト: koyoshizawa/reinforcement_learning

print(model.summary())

# モデル書き出し
model_json_str = model.to_json()
open('dqn_{}_model.json'.format(ENV_NAME), 'w').write(model_json_str)

# Finally, we configure and compile our agent. You can use every built-in Keras optimizer and
# even the metrics!
memory = SequentialMemory(limit=50000, window_length=1)
policy = BoltzmannQPolicy()
dqn = DQNAgent(model=model,
               nb_actions=nb_actions,
               memory=memory,
               nb_steps_warmup=100,
               target_model_update=1e-2,
               policy=policy)
dqn.compile(Adam(lr=1e-3), metrics=['mae'])

# Okay, now it's time to learn something! We visualize the training here for show, but this
# slows down training quite a lot. You can always safely abort the training prematurely using
# Ctrl + C.
dqn.fit(env, nb_steps=50000, visualize=True, verbose=2)

# After training is done, we save the final weights.
dqn.save_weights('dqn_{}_weights.h5f'.format(ENV_NAME), overwrite=True)

# Finally, evaluate our algorithm for 5 episodes.
dqn.test(env, nb_episodes=5, visualize=True)
dqn.compute_q_values()