Ejemplos de DQNAgent.testPolicyNet en Python

Lenguaje de programación: Python

Namespace/Package Name: Agents.DQN.DQN

Clase / Tipo: DQNAgent

Método / Función: testPolicyNet

Ejemplos en hotexamples.com: 3

Python DQNAgent.testPolicyNet - 3 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de Agents.DQN.DQN.DQNAgent.testPolicyNet extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

DQNAgent(4)

getPolicy(4)

testPolicyNet(3)

load_checkpoint(2)

policyNet(2)

__init__(1)

select_action(1)

train(1)

Ejemplo n.º 1

Mostrar archivo

Archivo: DQN_StabilizerOneD.py Proyecto: wyardt/DeepReinforcementLearning-PyTorch

optimizer = optim.Adam(policyNet.parameters(), lr=config['learningRate'])

agent = DQNAgent(config, policyNet, targetNet, env, optimizer,
                 torch.nn.MSELoss(reduction='none'), N_A)

xSet = np.linspace(-1, 1, 100)
policy = np.zeros_like(xSet)
for i, x in enumerate(xSet):
    policy[i] = agent.getPolicy(np.array([x]))

np.savetxt('StabilizerPolicyBeforeTrain.txt', policy, fmt='%d')

#agent.perform_random_exploration(10)
agent.train()
#storeMemory = ReplayMemory(100000)
agent.testPolicyNet(100)
#storeMemory.write_to_text('testPolicyMemory.txt')


def customPolicy(state):
    x = state[0]
    # move towards negative
    if x > 0.1:
        action = 2
    # move towards positive
    elif x < -0.1:
        action = 1
    # do not move
    else:
        action = 0
    return action

Ejemplo n.º 2

Mostrar archivo

                       'phiIdx' + str(phiIdx) + '.txt',
                       policy,
                       fmt='%d',
                       delimiter='\t')
            np.savetxt('DynamicMazeValueAfterTrain' + config['mapName'] +
                       'phiIdx' + str(phiIdx) + '.txt',
                       value,
                       fmt='%.3f',
                       delimiter='\t')

    torch.save(
        {
            'model_state_dict': agent.policyNet.state_dict(),
            'optimizer_state_dict': agent.optimizer.state_dict(),
        }, config['saveModelFile'])

if testFlag:
    config['loadExistingModel'] = True

    if config['loadExistingModel']:
        checkpoint = torch.load(config['saveModelFile'])
        agent.policyNet.load_state_dict(checkpoint['model_state_dict'])
        agent.optimizer.load_state_dict(checkpoint['optimizer_state_dict'])

    recorder = TrajRecorder()
    agent.env.agent.config['stochMoveFlag'] = True
    agent.testPolicyNet(100, recorder)
    recorder.write_to_file(config['mapName'] + 'TestTraj.txt')

#plotPolicy(policy, N_A)

Ejemplo n.º 3

Mostrar archivo

Archivo: DQNA3C_Stabilizer.py Proyecto: wyardt/DeepReinforcementLearning-PyTorch

                 optimizer,
                 torch.nn.MSELoss(reduction='none'),
                 N_A,
                 config=config)

xSet = np.linspace(-1, 1, 100)
policy = np.zeros_like(xSet)
for i, x in enumerate(xSet):
    policy[i] = agent.getPolicy(np.array([x]))

np.savetxt('StabilizerPolicyBeforeTrain.txt', policy, fmt='%d')

#agent.perform_random_exploration(10)
agent.train()
storeMemory = ReplayMemory(100000)
agent.testPolicyNet(100, storeMemory)
storeMemory.write_to_text('testPolicyMemory.txt')


def customPolicy(state):
    x = state[0]
    # move towards negative
    if x > 0.1:
        action = 2
    # move towards positive
    elif x < -0.1:
        action = 1
    # do not move
    else:
        action = 0
    return action