Ejemplos de Agent.chooseAction en Python

Lenguaje de programación: Python

Namespace/Package Name: dqn

Clase / Tipo: Agent

Método / Función: chooseAction

Ejemplos en hotexamples.com: 3

Python Agent.chooseAction - 3 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de dqn.Agent.chooseAction extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

Agent(30)

choose_action(9)

act(9)

learn(8)

load(4)

load_model(3)

chooseAction(3)

epsilon(2)

load_checkpoint(2)

optimizer(1)

optimise(1)

observe(1)

new_episode(1)

model(1)

load_modes(1)

load_models(1)

greedy_action(1)

get_state(1)

get_reward(1)

experience_replay(1)

eps_start(1)

episodes(1)

do_compile(1)

choose_action_test(1)

predict(1)

Ejemplo n.º 1

Mostrar archivo

def OldStuff():
    tf.compat.v1.disable_eager_execution()

    lr = 0.001
    numGames = 10000

    session = TriadGameSession()
    observation = session.getState()
    scores = []

    agent = Agent(gamma=0.99,
                  lr=lr,
                  epsilon=1.0,
                  epsilonDec=0.0005,
                  inputSize=[len(observation)],
                  numActions=session.getMaxActions(),
                  memSize=1000000,
                  batchSize=1024)

    for i in range(numGames):
        done = False
        score = 0
        session = TriadGameSession()
        observation = session.getState()
        while not done:
            action = agent.chooseAction(observation)
            observationNext, reward, done = session.step(action)
            score += reward
            agent.store(observation, action, reward, observationNext, done)
            observation = observationNext
            agent.learn()

        scores.append(score)
        avgScore = np.mean(scores[-100:])
        print('game:', i, 'score %.2f' % score, 'avgScore %.2f' % avgScore,
              'epsilon %.2f' % agent.epsilon)

    #agent.save()
    print('Finished!')

Ejemplo n.º 2

Mostrar archivo

Archivo: main_dqn_lunar_lander.py Proyecto: ArshT/Reinforcement_Learning_Basic

    score = 0

    for i in range(num_games):
        if i % 10 == 0 and i > 0:
            avg_score = np.mean(scores[max(0, i - 10):(i + 1)])
            print('episode: ', i, 'score: ', score,
                  ' average score %.3f' % avg_score,
                  'epsilon %.3f' % brain.EPSILON)
        else:
            print('episode: ', i, 'score: ', score)
        eps_history.append(brain.EPSILON)
        done = False
        observation = env.reset()
        score = 0
        while not done:
            action = brain.chooseAction(observation)
            observation_, reward, done, info = env.step(action)
            score += reward
            brain.storeTransition(observation, action, reward, observation_,
                                  done)
            observation = observation_
            brain.learn()

        scores.append(score)

    for i in range(10):
        done = False
        observation = env.reset()
        while not done:
            action = brain.chooseAction(observation)
            observation_, reward, done, info = env.step(action)

Ejemplo n.º 3

Mostrar archivo

Archivo: main.py Proyecto: purutu/FFTriadBuddy

observation = session.getState()
scores = []

agent = Agent(gamma=0.99, lr=lr, epsilon=1.0, epsilonDec=0.0005,
              inputSize=[len(observation)],
              numActions=session.getMaxActions(),
              memSize=1000000,
              batchSize=64)

for i in range(numGames):
    done = False
    score = 0
    session = TriadGameSession()
    observation = session.getState()
    while not done:
        action = agent.chooseAction(observation)
        observationNext, reward, done = session.step(action)
        score += reward
        agent.store(observation, action, reward, observationNext, done)
        observation = observationNext
        agent.learn()

    scores.append(score)
    avgScore = np.mean(scores[-100:])
    print('game:', i,
          'score %.2f' % score,
          'avgScore %.2f' % avgScore,
          'epsilon %.2f' % agent.epsilon)

agent.save()
print('Finished!')