Exemplos de EnvironmentManager.num_actions_available em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: environment

Classe / Tipo: EnvironmentManager

Método / Função: num_actions_available

Exemplos em hotexamples.com: 1

EnvironmentManager.num_actions_available em Python - 1 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de environment.EnvironmentManager.num_actions_available em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

EnvironmentManager(14)

GetPhaseWeights(3)

chdir(3)

mkdirs(3)

GetIndexedCategories(2)

copy_tree_with_symlinks(2)

find_glob(2)

rmtree(2)

set_env_var(2)

GetPhaseList(1)

getEnvironment(1)

getOptions(1)

getVariable(1)

move_glob_with_symlinks(1)

num_actions_available(1)

updateVariable(1)

Métodos Frequentes

EnvironmentManager (14)

GetPhaseWeights (3)

chdir (3)

mkdirs (3)

GetIndexedCategories (2)

copy_tree_with_symlinks (2)

find_glob (2)

rmtree (2)

set_env_var (2)

GetPhaseList (1)

Métodos Frequentes

getEnvironment (1)

getOptions (1)

getVariable (1)

move_glob_with_symlinks (1)

num_actions_available (1)

updateVariable (1)

Exemplo n.º 1

0

Exibir arquivo

if __name__ == "__main__": batch_size = 256 gamma = 0.999 eps_start = 1 eps_end = 0.01 eps_decay = 0.001 target_update = 10 memory_size = 100000 lr = 0.001 num_episodes = 1000 device = torch.device("cuda" if torch.cuda.is_available() else "cpu") env_manager = EnvironmentManager(device) strategy = EpsilonGreedyStrategy(eps_start, eps_end, eps_decay) agent = Agent(strategy, env_manager.num_actions_available(), device) memory = ReplayMemory(memory_size) input_shape = (3, 60, 40) n_actions = 4 policy_net = DQN(input_shape, n_actions).to(device) target_net = DQN(input_shape, n_actions).to(device) target_net.load_state_dict(policy_net.state_dict()) target_net.eval() # Switch target to inference mode optimizer = optim.Adam(params=policy_net.parameters(), lr=lr) train(num_episodes, env_manager, agent, policy_net, target_net, memory, batch_size, gamma, optimizer, target_update)