Esempi in Python per RL.choose_action

Linguaggio di programmazione: Python

Classe/tipologia: RL

Metodo/funzione: choose_action

Esempi su hotexamples.com: 2

RL.choose_action in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per RL.choose_action da pachetto Outsmart, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

Model(5)

RL(3)

filter_states(3)

fill_missing_sum_states(3)

finiteMDP(2)

FB_GS(2)

Memory(2)

direct_DQN(2)

convert_to_value_function(2)

convert_to_sum_states(2)

choose_action(2)

DQN(1)

draw(1)

createGraph(1)

TrainDQN(1)

QMemory(1)

ReplayMemory(1)

DQN_measurement(1)

QLearning_NN(1)

QLearningTable(1)

QLearn(1)

PolicyGradient(1)

Player(1)

Manager(1)

FB_SimpleCoarseMarkovDecayEA(1)

Env(1)

DeepQNetwork(1)

getEpsilon(1)

Esempio n. 1

Mostra file

File: trafficlight_RL_final.py Progetto: wangzhongjian5920/AI-traffic-light

def traffic():
    for i in range(100):
        observation = env.reset()
        t_reward = 0
        step = 0
        r1 = rnd
        r2 = rnd
        r1.seed(1)
        r2.seed(2)
        while True:
            step += 1
            # time.sleep(0.1)
            cars(r1, r2)
            env.render()
            action = RL.choose_action(observation)
            if int(observation[5]) < 6:
                # print("can not change")
                action = "n"
            # print(action)
            observation_, reward, done = env.switch_light(action)
            t_reward += reward
            RL.save_memory(observation, action, reward, observation_)
            if step > 500 and step % 5 == 0:
                RL.learn()

            observation = observation_
            if done:
                print(t_reward)
                break

Esempio n. 2

Mostra file

File: main.py Progetto: tysonwang26/Policy-Gradient-cartpole

def main():
    for i in range(1, MAX_EPISODES):
        print(i, "of episodes", end="\n")
        start_time = time.time()
        observation = env.reset()
        for j in range(MAX_STEP_EPISODES):
            env.render()
            action = RL.choose_action(observation)
            if j < 5:
                action = 0
            observation_, reward, done, info = env.step(action)
            RL.store_transition(observation, action, reward, False)

            if done:
                RL.store_transition(observation, action, 0.0, True)
                RL.learn()
                break
            observation = observation_

        end_time = time.time()
        plot_.plot_graph((end_time - start_time), i)
    env.close()
    RL.store_net()