Esempi in Python per DQN.getAction

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: model

Classe/tipologia: DQN

Metodo/funzione: getAction

Esempi su hotexamples.com: 2

DQN.getAction in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per model.DQN.getAction, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

DQN(30)

load_state_dict(30)

parameters(30)

train(30)

eval(30)

state_dict(30)

get_action(25)

init_state(20)

remember(19)

cuda(18)

reset_noise(14)

update_target_network(13)

zero_grad(12)

save(12)

load(11)

act(10)

to(8)

predict(8)

sample_noise(5)

forward(5)

update_noisy_modules(4)

update(4)

sample_action(3)

chooseAction(2)

update_target(2)

share_memory(2)

save_model(2)

initState(2)

getAction(2)

learn(2)

optimize(2)

perceive(1)

train_Xy(1)

store_path(1)

store_transition(1)

copy2target(1)

to_gpu(1)

choose_action(1)

train_net(1)

step(1)

train_step(1)

memory(1)

updateTargetNetwork(1)

fit(1)

forward_with_latent(1)

apply(1)

store(1)

copy_from(1)

pick_action(1)

reset_model(1)

Esempio n. 1

Mostra file

def train():
    print('뇌세포 꺠우는 중..')
    sess = tf.Session()

    game = Game(screenWidth, screenHeight, show_game=False)
    brain = DQN(sess, screenWidth, screenHeight, numAction)

    rewards = tf.placeholder(tf.float32, [None])
    tf.summary.scalar('avg.reward/ep.', tf.reduce_mean(rewards))

    saver = tf.train.Saver()
    sess.run(tf.global_variables_initializer())

    writer = tf.summary.FileWriter('logs', sess.graph)
    summaryMerged = tf.summary.merge_all()

    brain.updateTargetNetwork()

    timeStep = 0
    totalRewardList = []

    for episode in range(maxEpisode):
        terminal = False
        totalReward = 0
        epsilon = 1.0

        state = game.reset()
        brain.initState(state)

        while not terminal:
            if np.random.rand() < epsilon:
                action = random.randrange(numAction)

            else:
                action = brain.getAction()
            if episode > observe:
                epsilon -= 1 / 1000

            state, reward, terminal = game.step(action)
            totalReward += reward
            brain.remember(state, action, reward, terminal)

            if timeStep > observe and timeStep % trainInterval == 0:
                brain.train()
            if timeStep % targetUpdateInterval == 0:
                brain.updateTargetNetwork()

            timeStep += 1

        totalRewardList.append(totalReward)

        if episode % 10 == 0:
            summary = sess.run(summaryMerged,
                               feed_dict={rewards: totalRewardList})
            writer.add_summary(summary, timeStep)
        if episode % 100 == 99:
            print("게임횟수 : {0}, 점수 : {1:.4f}".format(episode + 1, totalReward))
            saver.save(sess, './model/dqn.ckpt', global_step=timeStep)

Esempio n. 2

Mostra file

def replay():
    print('뇌세포 깨우는 중..')
    sess = tf.Session()

    game = Game(screenWidth, screenHeight, show_game=True)
    brain = DQN(sess, screenWidth, screenHeight, numAction)

    saver = tf.train.Saver()
    ckpt = tf.train.get_checkpoint_state('model')
    saver.restore(sess, ckpt.model_checkpoint_path)

    for episode in range(maxEpisode):
        terminal = False
        totalReward = 0

        state = game.reset()
        brain.initState(state)

        while not terminal:
            action = brain.getAction()
            state, reward, terminal = game.step(action)
            totalReward += reward
            time.sleep(0.3)
        print("게임횟수 : {0}, 점수 : {1}".format(episode + 1, totalReward))