Python Agent.act 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: agents.agent

클래스/타입: Agent

메소드/함수: act

hotexamples.com에서의 예제들: 3

Python Agent.act - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 agents.agent.Agent.act에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Agent(30)

__init__(16)

test(6)

act(3)

prediction_history(3)

reset(3)

run_reps(3)

train(3)

step(3)

get_action(2)

aggregate_history(2)

collect_reward(2)

rank_bet(2)

set_sim_t(2)

state_dict(1)

test_goal_prediction(1)

put_data(1)

restart_coloring(1)

reset_episode(1)

reward_for_action(1)

observe(1)

set_session(1)

set_sim_dt(1)

place_bet(1)

load_model(1)

noisy_eval(1)

apply_control_open_loop(1)

_init_fmm_map(1)

_init_obj_fn(1)

_init_planner(1)

_init_psc_objective(1)

_init_system_dynamics(1)

actions(1)

advantage(1)

calc_weights(1)

memorize(1)

cuda(1)

environment(1)

eval(1)

get_move(1)

infer(1)

init_actor_critic(1)

load_memory(1)

value(1)

예제 #1

파일 보기

def run(env_name='Ant-v2', num_steps=1000):
    env = gym.make(env_name)
    agent = Agent(env.observation_space, env.action_space)

    state = env.reset()
    reward = None
    done = False
    for _ in range(num_steps):
        env.render()
        action, _ = agent.act(state, reward, done)
        state, reward, done, info = env.step(action)
        print(reward)
        if done:
            state = env.reset()

예제 #2

파일 보기

파일: main.py 프로젝트: thenhz/RL-Quadcopter-2

# Quadcopter stands still at the ground and has as target a height of 150 above the sarting point
init_pos = np.array([0., 0., 0., 0., 0., 0.])
target_pos = np.array([0., 0., 150.])
task = Task(init_pose=init_pos, target_pos=target_pos, runtime=10.)
agent = Agent(task)

# save rewards for plotting
rewards = []
rotor_speeds_var = []

for i_episode in range(1, num_episodes + 1):
    state = agent.reset_episode()  # start a new episode
    step = 0
    while True:
        step += 1
        action = agent.act(state)
        next_state, reward, done = task.step(action)
        agent.step(action, reward, next_state, done)
        state = next_state
        if done:
            rewards.append(agent.score)
            rotor_speeds_var.append(np.var(action))
            print(
                "\r\nEp={:4d}, score={:7.3f} (top={:7.3f}) pos={} {} {} {} {} {} {}"
                .format(i_episode, agent.score, agent.top_score,
                        round(task.sim.pose[:3][0], 2),
                        round(task.sim.pose[:3][1], 2),
                        round(task.sim.pose[:3][2], 2),
                        round(task.sim.pose[3:6][0], 2),
                        round(task.sim.pose[3:6][1], 2),
                        round(task.sim.pose[3:6][2], 2),

예제 #3

파일 보기

파일: quadcopter.py 프로젝트: MichaelGradek/udacity-deeplearning-nanodegree-project-5

    'rotor_speed1', 'rotor_speed2', 'rotor_speed3', 'rotor_speed4'
]
results = {l: [] for l in labels}

num_episodes = 500
target_pos = np.array([0., 0., 10.])
task = Task(init_pose=target_pos, target_pos=target_pos)
agent = Agent(task)
rewards = []

for i_episode in range(1, num_episodes + 1):
    state = agent.reset_episode()  # start a new episode
    ave_reward = 0
    cnt = 0
    while True:
        action = agent.act(state)
        next_state, reward, done = task.step(action)
        agent.step(action, reward, next_state, done)
        state = next_state
        ave_reward += reward
        cnt += 1
        if i_episode == 500:
            to_write = [task.sim.time] + list(task.sim.pose) + list(
                task.sim.v) + list(task.sim.angular_v) + list(rotor_speeds)
            for ii in range(len(labels)):
                results[labels[ii]].append(to_write[ii])
        if done:
            ave_reward /= cnt
            print(
                "\rEpisode = {:4d}, score = {:7.3f} (reward = {:7.3f})".format(
                    i_episode, agent.score, ave_reward),