Esempi in Python per to_tensor, esempi in Python per Algorithms.utils.to_tensor

Esempio n. 1

0

Mostra file

File: core.py Progetto: Jason-CKY/DeepRL-pytorch

    def forward(self, obs):

        # state feature
        obs = to_tensor(obs).unsqueeze(0).to(self.device)
        phi = self.phi_body(obs)

        # option
        mean = []
        std = []
        beta = []
        for option in self.options:
            prediction = option(phi)
            mean.append(prediction['mean'].unsqueeze(1))
            std.append(prediction['std'].unsqueeze(1))
            beta.append(prediction['beta'])
        mean = torch.cat(mean, dim=1)
        std = torch.cat(std, dim=1)
        beta = torch.cat(beta, dim=1)

        # critic network
        phi_c = self.critic_body(phi)
        q_o = self.fc_q_o(phi_c)

        return {'mean': mean,
                'std': std,
                'q_o': q_o,
                'beta': beta}

Esempio n. 2

0

Mostra file

File: oc_discrete.py Progetto: Jason-CKY/DeepRL-pytorch

    def __init__(self,
                 env_fn,
                 save_dir,
                 tensorboard_logdir=None,
                 optimizer_class=RMSprop,
                 oc_kwargs=dict(),
                 logger_kwargs=dict(),
                 eps_start=1.0,
                 eps_end=0.1,
                 eps_decay=1e4,
                 lr=1e-3,
                 gamma=0.99,
                 rollout_length=2048,
                 beta_reg=0.01,
                 entropy_weight=0.01,
                 gradient_clip=5,
                 target_network_update_freq=200,
                 max_ep_len=2000,
                 save_freq=200,
                 seed=0,
                 **kwargs):

        self.seed = seed
        torch.manual_seed(seed)
        np.random.seed(seed)
        self.device = "cuda" if torch.cuda.is_available() else "cpu"
        self.lr = lr
        self.env_fn = env_fn
        self.env = env_fn()
        self.oc_kwargs = oc_kwargs
        self.network_fn = self.get_network_fn(self.oc_kwargs)
        self.network = self.network_fn().to(self.device)
        self.target_network = self.network_fn().to(self.device)
        self.optimizer_class = optimizer_class
        self.optimizer = optimizer_class(self.network.parameters(), self.lr)
        self.target_network.load_state_dict(self.network.state_dict())
        self.eps_start = eps_start
        self.eps_end = eps_end
        self.eps_decay = eps_decay
        self.eps_schedule = LinearSchedule(eps_start, eps_end, eps_decay)
        self.gamma = gamma
        self.rollout_length = rollout_length
        self.num_options = oc_kwargs['num_options']
        self.beta_reg = beta_reg
        self.entropy_weight = entropy_weight
        self.gradient_clip = gradient_clip
        self.target_network_update_freq = target_network_update_freq
        self.max_ep_len = max_ep_len
        self.save_freq = save_freq

        self.save_dir = save_dir
        self.logger = Logger(**logger_kwargs)
        self.tensorboard_logdir = tensorboard_logdir
        # self.tensorboard_logger = SummaryWriter(log_dir=tensorboard_logdir)

        self.is_initial_states = to_tensor(np.ones((1))).byte()
        self.prev_options = self.is_initial_states.clone().long().to(
            self.device)

        self.best_mean_reward = -np.inf

Esempio n. 3

0

Mostra file

File: core.py Progetto: Jason-CKY/DeepRL-pytorch

    def forward(self, obs, unsqueeze=True):
        obs = to_tensor(obs).to(self.device)
        if unsqueeze:
            obs = obs.unsqueeze(0)
        # obs = to_tensor(obs).unsqueeze(0).to(self.device)
        phi = self.phi_body(obs)

        mean = []
        std = []
        beta = []
        for option in self.options:
            prediction = option(phi)
            mean.append(prediction['mean'].unsqueeze(1))
            std.append(prediction['std'].unsqueeze(1))
            beta.append(prediction['beta'])

        mean = torch.cat(mean, dim=1)
        std = torch.cat(std, dim=1)
        beta = torch.cat(beta, dim=1)
        phi_a = self.actor_body(phi)
        phi_a = self.fc_pi_o(phi_a)
        pi_o = F.softmax(phi_a, dim=-1)
        log_pi_o = F.log_softmax(phi_a, dim=-1)

        phi_c = self.critic_body(phi)
        q_o = self.fc_q_o(phi_c)

        return {'mean': mean,
                'std': std,
                'q_o': q_o,
                'inter_pi': pi_o,
                'log_inter_pi': log_pi_o,
                'beta': beta}

Esempio n. 4

0

Mostra file

File: core.py Progetto: Jason-CKY/DeepRL-pytorch

 def forward(self, x):
     phi = self.body(to_tensor(x).to(self.device))
     q = self.fc_q(phi)
     beta = torch.sigmoid(self.fc_beta(phi))
     pi = self.fc_pi(phi)
     pi = pi.view(-1, self.num_options, self.action_dim)
     log_pi = F.log_softmax(pi, dim=-1)
     pi = F.softmax(pi, dim=-1)
     return {'q': q,
             'beta': beta,
             'log_pi': log_pi,
             'pi': pi}

Esempio n. 5

0

Mostra file