Python TorchBatchRLAlgorithm.post_epoch_funcs 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: rlkit.torch.torch_rl_algorithm

메소드/함수: post_epoch_funcs

hotexamples.com에서의 예제들: 2

Python TorchBatchRLAlgorithm.post_epoch_funcs - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 rlkit.torch.torch_rl_algorithm.TorchBatchRLAlgorithm.post_epoch_funcs에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

TorchBatchRLAlgorithm(30)

train(30)

to(30)

_get_snapshot(5)

post_epoch_funcs(2)

visionnet_input(1)

step_skip(1)

save_name(1)

save_interval(1)

save_dir(1)

pos_control(1)

max_path_length(1)

knob_noisy(1)

eval_interval(1)

eval_function(1)

env_name(1)

env_kwargs_val(1)

env_kwargs(1)

algo(1)

writer(1)

예제 #1

파일 보기

def experiment(variant):

    expl_env = get_env()
    eval_env = get_env()

    post_epoch_funcs = []
    M = variant['layer_size']
    trainer = get_sac_model(env=eval_env, hidden_sizes=[M, M])
    policy = trainer.policy
    eval_policy = MakeDeterministic(policy)
    eval_path_collector = MdpPathCollector(
        eval_env,
        eval_policy,
    )
    expl_path_collector = MdpPathCollector(
        expl_env,
        policy,
    )
    replay_buffer = EnvReplayBuffer(
        variant['replay_buffer_size'],
        expl_env,
    )

    algorithm = TorchBatchRLAlgorithm(
        trainer=trainer,
        exploration_env=expl_env,
        evaluation_env=eval_env,
        exploration_data_collector=expl_path_collector,
        evaluation_data_collector=eval_path_collector,
        replay_buffer=replay_buffer,
        **variant['algorithm_kwargs'])
    columns = ['Epoch', 'mean', 'std']
    eval_result = pd.DataFrame(columns=columns)
    eval_output_csv = os.path.join(variant['log_dir'], 'eval_result.csv')

    def post_epoch_func(self, epoch):
        nonlocal eval_result
        nonlocal policy
        print(f'-------------post_epoch_func start-------------')
        eval_result = my_eval_policy(
            env=get_env(),
            algorithm=self,
            epoch=epoch,
            eval_result=eval_result,
            output_csv=eval_output_csv,
        )
        print(f'-------------post_epoch_func done-------------')

    algorithm.post_epoch_funcs = [
        post_epoch_func,
    ]
    algorithm.to(ptu.device)
    algorithm.train()

예제 #2

파일 보기

파일: market_env_train.py 프로젝트: woodychang0611/drl_portfolio

def train_model(variant):
    gt.reset_root()
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    log_dir = f"./output/train_out_{timestamp}/"

    setup_logger('name-of-experiment',
                 variant=variant,
                 snapshot_mode='gap_and_last',
                 snapshot_gap=20,
                 log_dir=log_dir)

    expl_env_kwargs = variant['expl_env_kwargs']
    eval_env_kwargs = variant['eval_env_kwargs']
    trainer_kwargs = variant['trainer_kwargs']

    df_ret_train, df_ret_val, df_feature = load_dataset()
    df_ret_train.to_csv(os.path.join(log_dir, 'df_ret_train.csv'))
    df_ret_val.to_csv(os.path.join(log_dir, 'df_ret_val.csv'))
    df_feature.to_csv(os.path.join(log_dir, 'df_feature.csv'))
    expl_env = NormalizedBoxEnv(
        gym.make('MarketEnv-v0',
                 returns=df_ret_train,
                 features=df_feature,
                 **expl_env_kwargs))

    eval_env = NormalizedBoxEnv(
        gym.make('MarketEnv-v0',
                 returns=df_ret_val,
                 features=df_feature,
                 **eval_env_kwargs))

    def post_epoch_func(self, epoch):
        progress_csv = os.path.join(log_dir, 'progress.csv')
        df = pd.read_csv(progress_csv)
        kpis = ['cagr', 'dd', 'mdd', 'wealths', 'std']
        srcs = ['evaluation', 'exploration']
        n = 50
        for kpi in kpis:
            series = map(lambda s: df[f'{s}/env_infos/final/{kpi} Mean'], srcs)
            plot_ma(series=series, lables=srcs, title=kpi, n=n)
            plt.savefig(os.path.join(log_dir, f'{kpi}.png'))
            plt.close()

    trainer = get_trainer(env=eval_env, **trainer_kwargs)
    policy = trainer.policy
    eval_policy = MakeDeterministic(policy)
    #eval_policy = policy
    eval_path_collector = MdpPathCollector(
        eval_env,
        eval_policy,
    )
    expl_path_collector = MdpPathCollector(
        expl_env,
        policy,
    )
    replay_buffer = EnvReplayBuffer(
        variant['replay_buffer_size'],
        expl_env,
    )
    algorithm = TorchBatchRLAlgorithm(
        trainer=trainer,
        exploration_env=expl_env,
        evaluation_env=eval_env,
        exploration_data_collector=expl_path_collector,
        evaluation_data_collector=eval_path_collector,
        replay_buffer=replay_buffer,
        **variant['algorithm_kwargs'])
    algorithm.post_epoch_funcs = [
        post_epoch_func,
    ]
    algorithm.to(ptu.device)
    algorithm.train()