Python Monitor.get_transition_function 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: gym.wrappers

클래스/타입: Monitor

메소드/함수: get_transition_function

hotexamples.com에서의 예제들: 2

Python Monitor.get_transition_function - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 gym.wrappers.Monitor.get_transition_function에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Monitor(30)

step(30)

seed(30)

reset(30)

close(30)

render(30)

get_initial_state(3)

get_observed_state_space(3)

get_episode_rewards(3)

reset_task(2)

get_reward_function(2)

get_transition_function(2)

configure(2)

get_action(1)

do_render(1)

__init__(1)

action_from_ttc(1)

reset_sim(1)

actionInterpreter(1)

run(1)

sample_tasks(1)

_max_episode_steps(1)

set_logger(1)

set_monitor(1)

set_q_values(1)

_max_episode_seconds(1)

uncolor_board(1)

video_callable(1)

예제 #1

파일 보기

파일: agent_dice.py 프로젝트: sjoshi804/CS-267A-Final-Project

def main(argv=()):
    del argv  # Unused.

    # Build an environment
    
    # Create and record episode - remove Monitor statement if recording not desired
    env = Monitor(gym.make('one-random-evader-v0'), './tmp/pursuit_evasion_infer_pursuer_vs_random_evader', force=True)

    #Reset state
    state = env.reset()
    
    #Initialize Agent Parameters
    #Get observed state space
    observed_state_space = env.get_observed_state_space()
    #Set initial state distribution
    initial_state_dist = []
    initial_state = env.get_initial_state()
    for state in observed_state_space:
        if state == initial_state:
            initial_state_dist.append(1)
        else:
            initial_state_dist.append(0)
    #Get action space
    action_space = range(0, env.action_space.n)
    #Set action prior to uniform dist
    action_prior = []
    for action in action_space:
        action_prior.append(1/len(action_space))
    #Get reward function
    reward_function = env.get_reward_function()
    #Get transition function 
    transition_function = env.get_transition_function()
    #Set max trajectory length
    max_trajectory_length = 11 #needs to be greater than shortest distance to evader for any meaningful inference

    #Create Agent
    agent = infer.DiceInferenceEngine(observed_state_space, action_space, initial_state_dist, action_prior, reward_function, transition_function, max_trajectory_length)
    print("\nAgent created.\n")
    #Set current observed state to initial state
    uncolored_obs = initial_state
    #Initialize actions list
    actions = []
    print("\nInfering action " + str(0) + "\n")
    actions.append(dist.Categorical(torch.tensor(agent.next(uncolored_obs))).sample().item())

    #Game Loop
    for t in range(0, 11):

        #Render
        env.render()
         
        #Delay to make video easier to watch
        #sleep(5)

        #Take action and get observations, rewards, termination from environment 
        observation, reward, done, info = env.step(actions[t]) 

        #If termination signal received, break out of loop
        if done:
            break

        #Pick next action based on agent's reasoning
        uncolored_obs = env.uncolor_board(observation)
        print("\nInfering action " + str(t + 1) + "\n")
        actions.append(dist.Categorical(torch.tensor(agent.next(uncolored_obs))).sample().item())


 

    env.close()

예제 #2

파일 보기

파일: gridworld_pyro.py 프로젝트: sjoshi804/CS-267A-Final-Project

initial_state = env.get_initial_state()
for state in observed_state_space:
    if state == initial_state:
        initial_state_dist.append(1)
    else:
        initial_state_dist.append(0)
#Get action space
action_space = range(0, env.action_space.n)
#Set action prior to uniform dist
action_prior = []
for action in action_space:
    action_prior.append(1 / len(action_space))
#Get reward function
reward_function = env.get_reward_function()
#Get transition function
transition_function = env.get_transition_function()
#Set max trajectory length
max_trajectory_length = 11  #needs to be greater than shortest distance to evader for any meaningful inference

# Train agent
print("\nTraining agent...\n")
N_episodes = 600
for episode in range(N_episodes):

    # Generate an episode
    iter_episode, reward_episode = 0, 0
    state = env_pyro.reset()  # starting state
    action = 0
    while True:
        action = agent.get_action(env_pyro)  # get action
        state_next, reward, done = env_pyro.step(