Python Agent.choose_action Beispiele

Programmiersprache: Python

Namespace / Paketname: utils

Klasse / Typ: Agent

Methode / Funktion: choose_action

Beispiele auf hotexamples.com: 2

Python Agent.choose_action - 2 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die utils.Agent.choose_action, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

Agent(11)

choose_action(2)

learn(2)

store_transition(2)

evaluate_reward(1)

get_eps(1)

get_state(1)

reset(1)

Beispiel #1

Datei anzeigen

Datei: main.py Projekt: willdalh/rl-with-per

print("Started learning")

rewards = []
time_learned = []
n_episode = 100
time_per_n_episode = datetime.now()
total_cleared = 0
for i_episode in range(NUM_EPISODES):
    stepcount = 0
    state = env.reset()
    done = False
    current_rewards = 0
    current_time_learned = []

    while not done:
        action = agent.choose_action(state, i_episode, train=True)
        next_state, reward, done, info = env.step(action)
        if reward == 1: total_cleared += 1
        agent.store_transition(state, action, reward, next_state, done)
        state = next_state

        time_start = datetime.now()

        agent.learn(BATCH_SIZE, i_episode)

        time_difference = datetime.now() - time_start
        current_time_learned.append(time_difference.total_seconds())

        stepcount += 1
        current_rewards += reward
        if stepcount % 10000 == 0:

Beispiel #2

Datei anzeigen

Datei: main.py Projekt: willdalh/rl-with-per

print("Started learning")

rewards = []
time_learned = []
n_episode = 100
time_per_n_episode = datetime.now()
for i_episode in range(NUM_EPISODES):
    stepcount = 0
    state = env.reset()
    state_d = downsample(state)
    done = False
    current_rewards = 0
    current_time_learned = []

    while not done:
        action = agent.choose_action(state_d, i_episode, train=True)
        next_state, reward, done, info = env.step(action)
        next_state_d = downsample(next_state)
        agent.store_transition(state_d, action, reward, next_state_d, done)
        state_d = next_state_d

        time_start = datetime.now()

        agent.learn(BATCH_SIZE, i_episode)

        time_difference = datetime.now() - time_start
        current_time_learned.append(time_difference.total_seconds())

        stepcount += 1
        current_rewards += reward