Python PolicyGradientAgent.PolicyGradientAgent 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: PolicyGradientAgent

클래스/타입: PolicyGradientAgent

메소드/함수: PolicyGradientAgent

hotexamples.com에서의 예제들: 4

Python PolicyGradientAgent.PolicyGradientAgent - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 PolicyGradientAgent.PolicyGradientAgent.PolicyGradientAgent에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

PolicyGradientAgent(4)

act(1)

get_action(1)

learn(1)

load_model(1)

load_state(1)

persist_state(1)

remember(1)

save_model(1)

save_state(1)

update(1)

예제 #1

파일 보기

def run_experiment(Lambda,
                   alpha,
                   twe,
                   trunc_normal,
                   subspaces,
                   num_runs,
                   num_episodes=20000,
                   num_procs=None,
                   name=""):
    returns = np.empty((num_runs, num_episodes), dtype=np.float64)
    results.append(returns)
    for i in xrange(num_runs):
        print name
        agent = PolicyGradientAgent(simulator,
                                    Lambda=Lambda,
                                    alpha_u=alpha,
                                    alpha_v=alpha,
                                    tile_weight_exponent=twe,
                                    trunc_normal=trunc_normal,
                                    subspaces=subspaces)
        agent.persist_state()
        framework = Framework(simulator, agent, num_episodes=num_episodes)
        framework.train(num_procs=num_procs)
        returns[i] = framework.returns
    random = np.random.randint(sys.maxsize)

    directory = 'data/%s/' % (name)
    filename = directory + ('%d.npy' % (random))
    try:
        os.makedirs(directory)
    except OSError:
        pass
    np.save(filename, returns)
    return returns

예제 #2

파일 보기

import os

import gym
import numpy as np

from PolicyGradientAgent import PolicyGradientAgent

os.environ["CUDA_VISIBLE_DEVICES"] = "-1"


env = gym.make('LunarLander-v2')
action_size = env.action_space.n
state_size = 8

agent = PolicyGradientAgent(state_size, action_size)

print("Training...")
train_episodes = 5000
avg_score = 0
loss = 0
for episode in range(train_episodes):

    state = env.reset()
    state = np.reshape(state, [1, state_size])
    cum_reward = 0
    for i in range(1000):

        action = agent.act(state, is_training=True)

        next_state, reward, done, _ = env.step(action)
        next_state = np.reshape(next_state, [1, state_size])

예제 #3

파일 보기

파일: lunar_lander.py 프로젝트: jeffery1236/policy-gradient

    print(env.observation_space.shape, env.action_space.n)
    env.reset()

    test_mode = False
    num_games = 2500
    best_score = -np.inf
    scores = []
    eps_history = []

    state_dims = env.observation_space.shape[0]
    num_actions = env.action_space.n
    lr = 0.001
    gamma = 0.99
    agent = PolicyGradientAgent(lr=lr,
                                gamma=gamma,
                                state_dims=state_dims,
                                num_actions=num_actions,
                                env_name='lunar_lander',
                                checkpoint_dir='temp/')
    if test_mode:
        agent.load_model()

    # env = gym.wrappers.Monitor(env, 'temp/lunar_lander',
    #                             video_callable=lambda episode_id: True, force=True)

    for count in range(num_games):
        state = env.reset()
        done = False
        score = 0

        while not done:
            env.render()

예제 #4

파일 보기

파일: LambdaStudy.py 프로젝트: keithmgould/lunarlander

def make_framework(Lambda):
    agent = PolicyGradientAgent(simulator, Lambda=Lambda)
    filename = 'data/saved_state_lambda' + str(Lambda) + '.npy'
    agent.save_state(filename)
    agent.load_state(filename, mmap_mode='r+')
    return Framework(simulator, agent)