Esempi in Python per QNetwork.act

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: q_network

Classe/tipologia: QNetwork

Metodo/funzione: act

Esempi su hotexamples.com: 2

QNetwork.act in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per q_network.QNetwork.act, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

QNetwork(27)

parameters(9)

train(8)

load_weights(6)

eval(6)

return_action_distribution(5)

predict(3)

state_dict(2)

load_state_dict(2)

act(2)

training_step(1)

build_network(1)

save_model(1)

return_everything(1)

build_training_operation(1)

fit_transitions(1)

loss(1)

init_weights(1)

get_q_action(1)

get_clone_op(1)

forward(1)

weight_assignment_operation(1)

Esempio n. 1

Mostra file

File: play.py Progetto: mikeheddes/dqn

def main():
    env = gym.make('CartPole-v1')
    agent = QNetwork(env.observation_space, env.action_space)

    frame = 0
    while frame < MAX_NUM_FRAMES:
        state = env.reset()
        for t in range(MAX_EPISODE_DURATION):
            env.render()

            action = agent.act(state)
            
            next_state, reward, done, info = env.step(action)

            if done:
                # done doesn't return a negative reward...
                reward *= -1

            frame = frame + 1

            if done or frame == MAX_NUM_FRAMES:
                break

            state = next_state

    env.close()

Esempio n. 2

Mostra file

File: train.py Progetto: mikeheddes/dqn

def main():
    env = gym.make('CartPole-v1')
    replay_memory = ReplayMemory()
    agent = QNetwork(env.observation_space, env.action_space)
    get_training_batch = make_training_transformer(env.observation_space.shape,
                                                   agent)

    frame = 0
    acc_loss = 0
    acc_state_value = 0
    while frame < MAX_NUM_FRAMES:
        state = env.reset()
        for t in range(MAX_EPISODE_DURATION):
            if take_random_action(frame):
                action = env.action_space.sample()  # pick random action
            else:
                action = agent.act(state)

            next_state, reward, done, info = env.step(action)

            if done:
                # on done doesn't return a negative reward...
                reward *= -1

            experience = (state, action, reward, next_state, done)
            replay_memory.append(experience)
            frame += 1

            experience_samples = replay_memory.sample(BATCH_SIZE)
            state_batch, qs_batch = get_training_batch(experience_samples)
            acc_state_value += np.mean(qs_batch)

            loss = agent.training_step(state_batch, qs_batch)
            acc_loss += loss

            if frame % FRAMES_PER_SAVE == 0:
                model_filename = f"ckpt-loss={loss:.4f}"
                agent.save_model(model_filename)

            if frame % FRAMES_PER_PRINT == 0:
                print(f"Frame: {frame}")
                avg_loss = acc_loss / FRAMES_PER_PRINT
                avg_state_value = acc_state_value / FRAMES_PER_PRINT
                print(
                    f"avg loss: {avg_loss:.4f}; avg value: {avg_state_value:.2f}"
                )
                acc_loss = 0
                acc_state_value = 0

            if done or frame == MAX_NUM_FRAMES:
                break

            state = next_state

    env.close()