Python MinibatchRl.startup 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: rlpyt.runners.minibatch_rl

클래스/타입: MinibatchRl

메소드/함수: startup

hotexamples.com에서의 예제들: 2

Python MinibatchRl.startup - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 rlpyt.runners.minibatch_rl.MinibatchRl.startup에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

MinibatchRl(30)

train(30)

startup(2)

자주 사용되는 메소드들

MinibatchRl (30)

train (30)

startup (2)

예제 #1

파일 보기

def build_and_train(run_id=0, greedy_eval=False, test=True, test_date=None):
    sampler = BatchedEpisodicSampler(
        EnvCls=MyEnv,
        env_kwargs=dict(),
        batch_T=500,
        batch_B=64,
    )
    log_dir = "data/rl_example_3/"
    init_agent = None
    if test:
        data = load_params(log_dir, run_id, test_date)
        init_agent = data['agent_state_dict']
    runner = MinibatchRl(
        algo=PPO(entropy_loss_coeff=0., learning_rate=3e-4),
        agent=AgentPgDiscrete(
            greedy_eval,
            model_kwargs={
                'policy_hidden_sizes': [64, 64],
                'value_hidden_sizes': [64, 64],
            },
            initial_model_state_dict=init_agent,
        ),
        sampler=sampler,
        n_steps=int(400 * sampler.batch_size),
        log_interval_steps=int(10 * sampler.batch_size),
    )
    if test:
        runner.startup()
        sampler.obtain_samples(0, 'eval')
        obs = sampler.samples_np.env.observation
        plot_obs(obs)
    else:
        with logger_context("{}{}".format(
                log_dir,
                datetime.datetime.today().strftime("%Y%m%d_%H%M")),
                            run_id,
                            'Reacher2D',
                            snapshot_mode="last",
                            use_summary_writer=True,
                            override_prefix=True):
            runner.train()

예제 #2

파일 보기

        action_start_time=3.,
        action_end_time=7.,
        open_gripper_on_leave=action_class != ActionClasses.PICK_UP,
        close_gripper_on_leave=action_class == ActionClasses.PICK_UP,
    ),
    batch_T=horizon, batch_B=1, max_decorrelation_steps=0
)

algo = args.get_ppo_from_options(options)
agent = AgentPgContinuous(
    options.greedy_eval,
    ModelCls=ModelPgNNContinuousSelective,
    initial_model_state_dict=args.load_initial_model_state(options),
    model_kwargs=dict(
        policy_hidden_sizes=[128, 128, 128], policy_hidden_nonlinearity=torch.nn.Tanh,
        value_hidden_sizes=[128, 128, 128], value_hidden_nonlinearity=torch.nn.Tanh,
        policy_inputs_indices=list(range(8)) if options.without_object_obs else None,
    )
)

runner = MinibatchRl(
    algo=algo, agent=agent, sampler=sampler, log_traj_window=1, seed=options.seed, n_steps=1,
    log_interval_steps=int(1 * horizon), affinity=args.get_affinity(options)
)
runner.startup()
for i in tqdm(range(bench_data.shape[0])):
    benchmark_sample.bid = i + 1
    sampler.obtain_samples(i)
    GripperCylinderEnv.df_from_observations(sampler.samples_np.env.observation[:, 0, :]).to_csv(
        '{}/trajectory_{}.csv'.format(output_dir, benchmark_sample.bid - 1))