Esempi in Python per GRU.reset

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: gru

Classe/tipologia: GRU

Metodo/funzione: reset

Esempi su hotexamples.com: 2

GRU.reset in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per gru.GRU.reset, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

GRU(30)

parameters(4)

fit(2)

load_weights(2)

reset(2)

assign_new_lr(1)

compile(1)

cuda(1)

init_hidden(1)

lossFun(1)

sgd_step(1)

Esempio n. 1

Mostra file

File: rnn_gae.py Progetto: sharma-arjun/GAIL

running_state = ZFilter((num_inputs, ), clip=5)
running_reward = ZFilter((1, ), demean=False, clip=10)
episode_lengths = []
optim_epochs = 5
optim_percentage = 0.05

for i_episode in count(1):
    ep_memory = Memory_Ep()

    num_steps = 0
    reward_batch = 0
    num_episodes = 0
    while num_steps < args.batch_size:
        state = env.reset()
        state = running_state(state)
        policy_net.reset()

        reward_sum = 0
        memory = Memory()
        for t in range(10000):  # Don't infinite loop while learning
            if args.use_joint_pol_val:
                action = select_action_actor_critic(state)
            else:
                action = select_action(state)
            action = action.data[0].numpy()
            next_state, reward, done, _ = env.step(action)
            reward_sum += reward

            next_state = running_state(next_state)

            mask = 1

Esempio n. 2

Mostra file

expert = Expert(args.expert_path, num_inputs)
print 'Loading expert trajectories ...'
expert.push()
print 'Expert trajectories loaded.'

for i_episode in count(1):
    ep_memory = Memory_Ep()

    num_steps = 0
    reward_batch = 0
    true_reward_batch = 0
    num_episodes = 0
    while num_steps < args.batch_size:
        state = env.reset()
        #state = running_state(state)
        policy_net.reset()
        reward_net.reset()

        reward_sum = 0
        true_reward_sum = 0
        memory = Memory()
        for t in range(10000):  # Don't infinite loop while learning
            if args.use_joint_pol_val:
                action = select_action_actor_critic(state)
            else:
                action = select_action(state)

            reward = -math.log(
                reward_net(
                    torch.cat((Variable(
                        torch.from_numpy(state).unsqueeze(0)).type(dtype),