Exemplos de DQNAgent.get_exploration_action em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: dqn.agent

Classe / Tipo: DQNAgent

Método / Função: get_exploration_action

Exemplos em hotexamples.com: 3

DQNAgent.get_exploration_action em Python - 3 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de dqn.agent.DQNAgent.get_exploration_action em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

DQNAgent(22)

train(6)

load(6)

act(5)

reset_convolutional_layers(4)

save_transition(4)

get_convolutional_layers(4)

save(3)

get_exploration_action(3)

optimise_td_loss(2)

update_target_network(2)

get_action(2)

remember(1)

replay(1)

Evaluate(1)

run(1)

save_models(1)

experience_replay(1)

decay_epsilon(1)

Métodos Frequentes

DQNAgent (22)

train (6)

load (6)

act (5)

reset_convolutional_layers (4)

save_transition (4)

get_convolutional_layers (4)

save (3)

get_exploration_action (3)

optimise_td_loss (2)

Métodos Frequentes

update_target_network (2)

get_action (2)

remember (1)

replay (1)

Evaluate (1)

run (1)

save_models (1)

experience_replay (1)

decay_epsilon (1)

Exemplo n.º 1

0

Exibir arquivo

def test_single_training(): numberOfCells = 10 # in each axis startingPosition = (4, 5) # head foodPosition = (3, 6) env = Environment(numberOfCells, deterministic=True) agent = DQNAgent(state_size=env.state_size, action_size=Actions.action_size, deterministic=True, batch_size=24, memory_limit=2000) state = env.reset(startingPosition, foodPosition) agent.reset_convolutional_layers() full_state = agent.get_convolutional_layers(state) loss10 = -1 action10 = -1 maxsteps = 10 for step in range(maxsteps): action = agent.get_exploration_action() next_state, reward, done = env.step(action, food_position=(1, 1)) assert(not done) full_next_state = agent.get_convolutional_layers(next_state) assert(full_next_state.shape == (1, numberOfCells, numberOfCells, agent.numberOfLayers)) agent.save_transition(full_state, action, reward, full_next_state, done) current_loss = agent.train() full_state = full_next_state loss10 = current_loss action10 = action assert(loss10 == 0.006804642267525196) assert(action10 == 0)

Exemplo n.º 2

0

Exibir arquivo

def test_smoke(): # just runs the code - no assetions numberOfCells = 10 # in each axis startingPosition = (4, 5) # head foodPosition = (3, 6) env = Environment(numberOfCells) agent = DQNAgent(state_size=env.state_size, action_size=Actions.action_size, deterministic=True, batch_size=24, memory_limit=2000) state = env.reset(startingPosition, foodPosition) agent.reset_convolutional_layers() full_state = agent.get_convolutional_layers(state) maxsteps = 2 for step in range(maxsteps): action = agent.get_exploration_action() next_state, reward, done = env.step(action, food_position=(1, 1)) full_next_state = agent.get_convolutional_layers(next_state) assert(full_next_state.shape == (1, numberOfCells, numberOfCells, agent.numberOfLayers)) agent.save_transition(full_state, action, reward, full_next_state, done) current_loss = agent.train() if (step == 0): action1 = action loss1 = current_loss full_state = full_next_state loss2 = current_loss action2 = action

Exemplo n.º 3

0

Exibir arquivo

def test_multiepisode_training(): numberOfCells = 10 # in each axis startingPosition = (4, 5) # head foodPosition = (3, 6) env = Environment(numberOfCells, deterministic=True) state_size = env.state_size action_size = Actions.action_size # 3 agent = DQNAgent(state_size=state_size, action_size=action_size, deterministic=True, batch_size=24, memory_limit=2000) losses = [-1, -1, -1, -1] done = False episodes = 4 maxsteps = 9 for e in range(episodes): state = env.reset(startingPosition, foodPosition) agent.reset_convolutional_layers() full_state = agent.get_convolutional_layers(state) loss = 0 for step in range(maxsteps): action = agent.get_exploration_action() next_state, reward, done = env.step(action, food_position=(1, 1)) # generation on (1, 1) happens once over the test full_next_state = agent.get_convolutional_layers(next_state) assert(full_next_state.shape == (1, numberOfCells, numberOfCells, agent.numberOfLayers)) agent.save_transition(full_state, action, reward, full_next_state, done) current_loss = agent.train() loss += current_loss full_state = full_next_state losses[e] = loss assert(losses[0] == 3.9618697417899966) assert(losses[1] == 0.044194952584803104) assert(losses[2] == 0.1333141174982302) assert(losses[3] == 2.834151452407241)