Exemplos de CNNPolicy.action_dist em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: actor_critic_networks

Classe / Tipo: CNNPolicy

Método / Função: action_dist

Exemplos em hotexamples.com: 3

CNNPolicy.action_dist em Python - 3 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de actor_critic_networks.CNNPolicy.action_dist em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

CNNPolicy(9)

cuda(7)

act(6)

parameters(5)

reset_mask(4)

action_logdist(3)

action_dist(2)

load_state_dict(2)

evaluate_actions(1)

get_value(1)

state_dict(1)

Métodos Frequentes

CNNPolicy (9)

cuda (7)

act (6)

parameters (5)

reset_mask (4)

action_logdist (3)

action_dist (2)

load_state_dict (2)

evaluate_actions (1)

get_value (1)

Métodos Frequentes

state_dict (1)

Exemplo n.º 1

0

Exibir arquivo

frame = Variable(frame1).cuda() losses = [] for m in range(mc_samples): eps = Variable(torch.Tensor(1, 2, 84, 84).normal_(0, 1)).cuda() noisy_frame = frame + eps * (torch.sqrt(torch.exp(logvar))) noisy_frame = torch.clamp(noisy_frame, min=0., max=max_val) # noisy_frame = noisy_frame - Variable(torch.min(noisy_frame).data) # noisy_frame = noisy_frame / Variable(torch.max(noisy_frame).data) # noisy_frame = noisy_frame * max_val dist_noise = policy.action_dist(noisy_frame) log_dist_noise = policy.action_logdist(noisy_frame) log_dist_true = policy.action_logdist(frame) action_dist_kl = torch.sum( (log_dist_true - log_dist_noise) * torch.exp(log_dist_true), dim=1) #[B] action_dist_kl = torch.mean(action_dist_kl) # * 1000. # std of 2 is the prior, which is 4 for var, which is log(4) for logvar # loss = action_dist_kl + (logvar - torch.log(4))**2 logvar_dif = torch.mean((logvar - .6)**2) * .0001 loss = action_dist_kl + logvar_dif

Exemplo n.º 2

0

Exibir arquivo

Arquivo: learn_to_add_noise.py Projeto: chriscremer/Other_Code

frame = Variable(frame1).cuda() losses = [] for m in range(mc_samples): eps = Variable(torch.Tensor(1,2,84,84).normal_(0,1)).cuda() noisy_frame = frame + eps*(torch.sqrt(torch.exp(logvar))) noisy_frame = torch.clamp(noisy_frame, min=0., max=max_val) # noisy_frame = noisy_frame - Variable(torch.min(noisy_frame).data) # noisy_frame = noisy_frame / Variable(torch.max(noisy_frame).data) # noisy_frame = noisy_frame * max_val dist_noise = policy.action_dist(noisy_frame) log_dist_noise = policy.action_logdist(noisy_frame) log_dist_true = policy.action_logdist(frame) action_dist_kl = torch.sum((log_dist_true - log_dist_noise)*torch.exp(log_dist_true), dim=1) #[B] action_dist_kl = torch.mean(action_dist_kl) # * 1000. # std of 2 is the prior, which is 4 for var, which is log(4) for logvar # loss = action_dist_kl + (logvar - torch.log(4))**2 logvar_dif = torch.mean((logvar - .6)**2) *.0001 loss = action_dist_kl + logvar_dif

Exemplo n.º 3

0

Exibir arquivo

Arquivo: learn_to_mask.py Projeto: chriscremer/Other_Code

dataset[traj_ind][start_ind + i][1][1] ], axis=1) ax.imshow(state1, cmap='gray') ax.set_xticks([]) ax.set_yticks([]) for a in range(4): #Plot grads ax = plt.subplot2grid((rows, cols), (i, 1 + a), frameon=False) x = Variable(torch.from_numpy( np.array([dataset[traj_ind][start_ind + i][1]])).float(), requires_grad=True).cuda() dist = policy.action_dist(x) grad = torch.autograd.grad(torch.sum(dist[:, a]), x)[0] grad = grad.data.cpu().numpy()[ 0] #for the first one in teh batch -> [2,84,84] grad = np.abs(grad) # print (np.max(grad)) # print (np.min(grad)) # print (np.mean(grad)) # fad state1 = np.concatenate([grad[0], grad[1]], axis=1) # ax.imshow(state1, cmap='gray', norm=NoNorm()) ax.imshow(state1, cmap='gray') ax.set_xticks([]) ax.set_yticks([])