Python PointEnvRandGoal 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: maml_examples.point_env_randgoal

클래스/타입: PointEnvRandGoal

hotexamples.com에서의 예제들: 3

Python PointEnvRandGoal - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 maml_examples.point_env_randgoal.PointEnvRandGoal에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

PointEnvRandGoal(3)

자주 사용되는 메소드들

PointEnvRandGoal (3)

예제 #1

파일 보기

파일: maml_il_point.py 프로젝트: tianheyu927/maml_rl

                                    rd.seed(seed)

                                    ###
                                    seed %= 4294967294
                                    global seed_
                                    seed_ = seed
                                    rd.seed(seed)
                                    np.random.seed(seed)
                                    try:
                                        import tensorflow as tf

                                        tf.set_random_seed(seed)
                                    except Exception as e:
                                        print(e)
                                    print('using seed %s' % (str(seed)))
                                    env = TfEnv(normalize(PointEnvRandGoal()))
                                    policy = MAMLGaussianMLPPolicy(
                                        name="policy",
                                        env_spec=env.spec,
                                        grad_step_size=fast_learning_rate,
                                        hidden_nonlinearity=tf.nn.relu,
                                        hidden_sizes=(100, 100),
                                        std_modifier=pre_std_modifier,
                                    )
                                    if bas == 'zero':
                                        baseline = ZeroBaseline(env_spec=env.spec)
                                    elif 'linear' in bas:
                                        baseline = LinearFeatureBaseline(env_spec=env.spec)
                                    else:
                                        baseline = GaussianMLPBaseline(env_spec=env.spec)
                                    #expert_policy = PointEnvExpertPolicy(env_spec=env.spec)

예제 #2

파일 보기

파일: test_maml_point.py 프로젝트: jonny97/MB-MPO-trajectory-buffer

names = ['maml', 'maml0', 'random', 'oracle']

exp_names = [gen_name + name for name in names]

all_avg_returns = []
for step_i, initial_params_file in zip(range(len(step_sizes)),
                                       initial_params_files):
    avg_returns = []
    for goal in goals:
        goal = list(goal)

        if initial_params_file is not None and 'oracle' in initial_params_file:
            env = normalize(PointEnvRandGoalOracle(goal=goal))
            n_itr = 1
        else:
            env = normalize(PointEnvRandGoal(goal=goal))
            n_itr = 5
        env = TfEnv(env)
        policy = GaussianMLPPolicy(  # random policy
            name='policy',
            env_spec=env.spec,
            hidden_sizes=(100, 100),
        )

        if initial_params_file is not None:
            policy = None

        baseline = LinearFeatureBaseline(env_spec=env.spec)
        algo = VPG(
            env=env,
            policy=policy,

예제 #3

파일 보기

파일: maml_il_sawyerPush.py 프로젝트: russellmendonca/maml_gps

                                    ###
                                    seed %= 4294967294
                                    global seed_
                                    seed_ = seed
                                    rd.seed(seed)
                                    np.random.seed(seed)
                                    try:
                                        import tensorflow as tf

                                        tf.set_random_seed(seed)
                                    except Exception as e:
                                        print(e)
                                    print('using seed %s' % (str(seed)))


                                    env = TfEnv(normalize(PointEnvRandGoal()))
                                    base_partitions = [PointEnvRandGoal(goal = goal) for goal in goals]                                       
                                    partitions = [TfEnv(normalize(part_env)) for part_env in base_partitions]

                                    metaPolicy = MAMLGaussianMLPPolicy(
                                        name="central_policy",
                                        env_spec=env.spec,
                                        grad_step_size=fast_learning_rate,
                                        hidden_nonlinearity=tf.nn.relu,
                                        hidden_sizes=(100, 100),
                                        std_modifier=pre_std_modifier,
                                        num_tasks = meta_batch_size,
                                        updateMode = updateMode
                                    )
                                    
                                    metaBaseline = LinearFeatureBaseline(env_spec=env.spec)