Python PPO.get_vec_normalize_env 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: stable_baselines3

클래스/타입: PPO

메소드/함수: get_vec_normalize_env

hotexamples.com에서의 예제들: 2

Python PPO.get_vec_normalize_env - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 stable_baselines3.PPO.get_vec_normalize_env에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

PPO(30)

predict(30)

learn(30)

load(30)

save(30)

set_parameters(5)

set_env(5)

get_env(4)

get_vec_normalize_env(2)

set_logger(1)

marginal_reg_coef(1)

n_steps(1)

n_epochs(1)

_init_rollout_buffer(1)

collect_rollouts(1)

_update_current_progress_remaining(1)

_setup_learn(1)

train(1)

예제 #1

파일 보기

파일: 1.train.py 프로젝트: liusida/thesis-bodies

                verbose=1,
                tensorboard_log=str(common.output_data_folder /
                                    f"tensorboard" / saved_model_filename),
                seed=common.seed,
                **hyperparams)

    if len(args.initialize_weights_from) > 0:
        try:
            load_model = PPO.load(args.initialize_weights_from)
            load_weights = load_model.policy.state_dict()
            model.policy.load_state_dict(load_weights)
            print(f"Weights loaded from {args.initialize_weights_from}")
        except Exception:
            print("Initialize weights error.")
            raise Exception

    try:
        model.learn(total_timesteps=args.train_steps, callback=all_callbacks)
    except KeyboardInterrupt:
        pass
    model.save(str(common.output_data_folder / "models" /
                   saved_model_filename))

    if args.vec_normalize:
        # Important: save the running average, for testing the agent we need that normalization
        model.get_vec_normalize_env().save(
            str(common.output_data_folder / "models" /
                f"{saved_model_filename}.vnorm.pkl"))

    venv.close()

예제 #2

파일 보기

파일: train_simple.py 프로젝트: liusida/thesis-bodies

    else:
        body = args.body_id
        print(body)
        env = DummyVecEnv([utils.make_env(rank=i, seed=utils.seed, render=args.render, robot_body=body, body_info=0) for i in range(train_num_envs)])
        save_filename = f"model-ant-single-{body}"

    env = VecNormalize(env, **normalize_kwargs)

    keys_remove =["normalize", "n_envs", "n_timesteps", "policy"]
    for key in keys_remove:
        del hyperparams[key]

    eval_env = DummyVecEnv([utils.make_env(rank=0, seed=utils.seed+1, render=False, robot_body=2, body_info=0)])
    eval_env = VecNormalize(eval_env, norm_reward=False, **normalize_kwargs)
    eval_callback = EvalCallback(
        eval_env=eval_env,
        n_eval_episodes=3,
        eval_freq=1e4, # will implicitly multiplied by 16 (train_num_envs)
        deterministic=True,
    )
    # eval_callback = None

    model = PPO('MlpPolicy', env, verbose=1, tensorboard_log=f"{folder}/tb/{save_filename}", seed=utils.seed, **hyperparams)

    model.learn(total_timesteps=total_timesteps, callback=eval_callback)
    model.save(f"{folder}/{save_filename}")
    # Important: save the running average, for testing the agent we need that normalization
    model.get_vec_normalize_env().save(f"{folder}/{save_filename}-vecnormalize.pkl")

    env.close()