Python TfEnv 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: src.ast_toolbox

클래스/타입: TfEnv

hotexamples.com에서의 예제들: 2

Python TfEnv - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 src.ast_toolbox.TfEnv에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

TfEnv(2)

자주 사용되는 메소드들

TfEnv (2)

예제 #1

파일 보기

sess = tf.Session()
sess.__enter__()

# Instantiate the env
data = joblib.load("../CartPole/ControlPolicy/itr_5.pkl")
sut = data['policy']
reward_function = ASTRewardS()

simulator = CartpoleSimulator(sut=sut,
                              max_path_length=max_path_length,
                              use_seed=False,
                              nd=1)
env = TfEnv(
    ASTEnv(
        open_loop=open_loop,
        simulator=simulator,
        fixed_init_state=True,
        s_0=[0.0, 0.0, 0.0 * math.pi / 180, 0.0],
        reward_function=reward_function,
    ))

# Training
with open(osp.join(args.log_dir, 'total_result.csv'), mode='w') as csv_file:
    fieldnames = ['step_count']
    for i in range(top_k):
        fieldnames.append('reward ' + str(i))
    writer = csv.DictWriter(csv_file, fieldnames=fieldnames)
    writer.writeheader()

    for trial in range(args.n_trial):
        # Create the logger
        log_dir = args.log_dir + '/' + str(trial)

예제 #2

파일 보기

tf.set_random_seed(seed)
with tf.Session() as sess:
    # Create env

    data = joblib.load("../CartPole/ControlPolicy/itr_5.pkl")
    sut = data['policy']
    reward_function = ASTRewardS()

    simulator = CartpoleSimulator(sut=sut, max_path_length=100, use_seed=False)
    env = ASTEnv(open_loop=False,
                 simulator=simulator,
                 fixed_init_state=True,
                 s_0=[0.0, 0.0, 0.0 * math.pi / 180, 0.0],
                 reward_function=reward_function,
                 )
    env = TfEnv(env)
    # Create policy
    policy = DeterministicMLPPolicy(
        name='ast_agent',
        env_spec=env.spec,
        hidden_sizes=(64, 32),
        output_nonlinearity=tf.nn.tanh,
    )

    params = policy.get_params()
    sess.run(tf.variables_initializer(params))

    # Instantiate the garage objects
    baseline = ZeroBaseline(env_spec=env.spec)
    # optimizer = ConjugateGradientOptimizer(hvp_approach=FiniteDifferenceHvp(base_eps=1e-5))