Esempi in Python per Actor.learn

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: ActorCritic

Classe/tipologia: Actor

Metodo/funzione: learn

Esempi su hotexamples.com: 2

Actor.learn in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per ActorCritic.Actor.learn, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

Actor(8)

load_state_dict(3)

parameters(3)

state_dict(3)

learn(2)

choose_action(1)

choose_acton(1)

cuda(1)

get_action(1)

reset_noise(1)

reset_parameters(1)

train_fn(1)

train_from_batch(1)

zero_grad(1)

Esempio n. 1

Mostra file

File: MountainCar-v0_ActorCritic.py Progetto: hsdtlx/openAI-Gym

    t = 0
    track_r = []
    while True:
        # if RENDER: env.render()
        env.render()

        a = actor.choose_acton(s)

        s_, r, done, info = env.step(a)
        position, velocity = s_
        r = abs(position + 0.46)

        track_r.append(r)

        td_error = critic.learn(s, r, s_)
        actor.learn(s, a, td_error)

        s = s_
        t += 1

        if done:
            ep_rs_sum = sum(track_r)

            if 'running_reward' not in globals():
                running_reward = ep_rs_sum
            else:
                running_reward = running_reward * 0.95 + ep_rs_sum * 0.05
            if running_reward > 200:
                RENDER = True

            print("episode: ", i_episode, " reward: ", int(running_reward))

Esempio n. 2

Mostra file

    action = actor.choose_action(observation)

    running_reward = 0
    critic.reset()
    count = 0
    while count < Tmax:
        count += 1
        if RENDER: env.render()

        observation_, reward, done, info = env.step(
            action)  # reward = -1 in all cases

        # print(action, reward, observation_)
        running_reward += reward

        if done:
            Tmax = count
            delta = critic.learn(observation, reward, observation_)
            actor.learn(observation, action, delta)
            print(i_episode, running_reward)
            if running_reward > DISPLAY_REWARD_THRESHOLD and i_episode > 1900:
                RENDER = True  # rendering
            break
        else:
            action_ = actor.choose_action(observation_)
            delta = critic.learn(observation, reward, observation_)
            actor.learn(observation, action, delta)

        observation = observation_
        action = action_