Python DQN.optimize 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: model

클래스/타입: DQN

메소드/함수: optimize

hotexamples.com에서의 예제들: 2

Python DQN.optimize - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 model.DQN.optimize에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

DQN(30)

load_state_dict(30)

parameters(30)

train(30)

eval(30)

state_dict(30)

get_action(25)

init_state(20)

remember(19)

cuda(18)

reset_noise(14)

update_target_network(13)

zero_grad(12)

save(12)

load(11)

act(10)

to(8)

predict(8)

sample_noise(5)

forward(5)

update_noisy_modules(4)

update(4)

sample_action(3)

chooseAction(2)

update_target(2)

share_memory(2)

save_model(2)

initState(2)

getAction(2)

learn(2)

optimize(2)

perceive(1)

train_Xy(1)

store_path(1)

store_transition(1)

copy2target(1)

to_gpu(1)

choose_action(1)

train_net(1)

step(1)

train_step(1)

memory(1)

updateTargetNetwork(1)

fit(1)

forward_with_latent(1)

apply(1)

store(1)

copy_from(1)

pick_action(1)

reset_model(1)

예제 #1

파일 보기

파일: agent.py 프로젝트: fy-meng/XRL_experiments

class DQNAgent(Agent):
    def __init__(self,
                 state_size,
                 num_actions,
                 batch_size=64,
                 gamma=0.999,
                 epsilon=0.9,
                 epsilon_decay=0.99995,
                 **kwargs):
        super(DQNAgent, self).__init__(state_size, num_actions, **kwargs)

        self.batch_size = batch_size
        self.gamma = gamma
        self.epsilon = epsilon
        self.epsilon_decay = epsilon_decay

        self.net = DQN(state_size, num_actions, **kwargs)

    def get_action(self, state: np.ndarray):
        if self.mode == 'train' and np.random.random() < self.epsilon:
            action = np.random.randint(self.num_actions)
        else:
            action = np.argmax(self.get_q_values(state), axis=-1)
        self.epsilon *= self.epsilon_decay
        return action

    def get_q_values(self, state: np.ndarray) -> np.ndarray:
        return self.net.predict(
            state).detach().cpu().numpy()  # shape = (b, m, c)

    def optimize(self):
        batch: List[Transition] = self.buffer.sample(self.batch_size)
        if batch is None:
            return

        self.net.optimize(batch, self.gamma)

    def save_model(self, model_save_path: str):
        self.net.save_model(model_save_path)

예제 #2

파일 보기

파일: agent.py 프로젝트: fy-meng/XRL_experiments

class DQNCropAgent(CropAgent):
    def __init__(self,
                 state_size,
                 _num_actions,
                 batch_size=64,
                 gamma=0.999,
                 epsilon=0.9,
                 epsilon_decay=0.99995,
                 **kwargs):
        num_actions = len(self.WATER_VALUES) * len(self.NITROGEN_VALUES) \
                      * len(self.PHOSPHORUS_VALUES)
        super(DQNCropAgent, self).__init__(state_size, num_actions, **kwargs)

        self.batch_size = batch_size
        self.gamma = gamma
        self.epsilon = epsilon
        self.epsilon_decay = epsilon_decay

        self.net = DQN(state_size, self.num_actions, **kwargs)

    def get_action(self, state: np.ndarray):
        if self.mode == 'train' and np.random.random() < self.epsilon:
            action_idx = np.random.randint(self.num_actions)
        else:
            action_idx = self.get_q_values(state).argmax(axis=-1)

        self.epsilon *= self.epsilon_decay

        # convert action index to actual action values
        action = self.idx_to_action(action_idx)

        return action

    def get_q_values(self, state: np.ndarray) -> np.ndarray:
        return self.net.predict(state).detach().cpu().numpy()

    def get_saliency(self, state: np.ndarray,
                     q_values: np.ndarray) -> np.ndarray:
        assert state.size == self.state_size, "saliency cannot be computed during training"

        self.update_state_value_range(state)

        saliency = np.zeros_like(state)
        action: int = q_values.argmax()
        q_values_dict = {i: q / 100 for i, q in enumerate(q_values.squeeze())}

        for _ in range(self.SALIENCY_TRIALS):
            for i in range(self.state_size):
                perturbed_state = self.perturb(state, i)
                perturbed_q_values = self.get_q_values(perturbed_state)
                perturbed_q_values_dict = {
                    j: q / 100
                    for j, q in enumerate(perturbed_q_values.squeeze())
                }

                saliency[i] += computeSaliencyUsingSarfa(
                    action, q_values_dict,
                    perturbed_q_values_dict)[0] / self.SALIENCY_TRIALS

        return saliency

    def optimize(self):
        batch: List[Transition] = self.buffer.sample(self.batch_size)
        if batch is None:
            return

        self.net.optimize(batch, self.gamma)

    def save_model(self, model_save_path: str):
        self.net.save_model(model_save_path)