Python Agent.store_transition 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: utils

클래스/타입: Agent

메소드/함수: store_transition

hotexamples.com에서의 예제들: 2

Python Agent.store_transition - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 utils.Agent.store_transition에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Agent(11)

choose_action(2)

learn(2)

store_transition(2)

evaluate_reward(1)

get_eps(1)

get_state(1)

reset(1)

예제 #1

파일 보기

파일: main.py 프로젝트: willdalh/rl-with-per

              max_memory_size=MAX_MEMORY_SIZE,
              num_episodes=NUM_EPISODES,
              replace_after=REPLACE_AFTER,
              use_per=USE_PER,
              per_a=1)
# Filling memory
print("Filling replay memory")
state = env.reset()
if USE_TB:
    writer.add_graph(agent.Q_loc, torch.FloatTensor([state]).to(device))

for t in range(200):
    action = env.action_space.sample()
    next_state, reward, done, info = env.step(action)

    agent.store_transition(state, action, reward, next_state, done)

    state = next_state

    if done:
        state = env.reset()
print("Finished filling memory")

# Learning
print("Started learning")

rewards = []
time_learned = []
n_episode = 100
time_per_n_episode = datetime.now()
total_cleared = 0

예제 #2

파일 보기

파일: main.py 프로젝트: willdalh/rl-with-per

              alpha=ALPHA,
              max_memory_size=MAX_MEMORY_SIZE,
              num_episodes=NUM_EPISODES,
              replace_after=REPLACE_AFTER,
              use_per=USE_PER)

# Filling memory
print("Filling replay memory")
state = env.reset()
if USE_TB:
    writer.add_graph(agent.Q_loc,
                     torch.FloatTensor([downsample(state)]).to(device))
for t in range(2000):
    action = env.action_space.sample()
    next_state, reward, done, info = env.step(action)
    agent.store_transition(downsample(state), action, reward,
                           downsample(next_state), done)
    state = next_state
    if done:
        state = env.reset()
print("Finished filling memory")

# Learning
print("Started learning")

rewards = []
time_learned = []
n_episode = 100
time_per_n_episode = datetime.now()
for i_episode in range(NUM_EPISODES):
    stepcount = 0
    state = env.reset()