Python AsType 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: rl_sandbox.transforms.general_transforms

메소드/함수: AsType

hotexamples.com에서의 예제들: 3

Python AsType - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 rl_sandbox.transforms.general_transforms.AsType에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

device = torch.device("cuda:0")
# device = torch.device(c.CPU)

action_repeat = 1
num_frames = 1

aux_reward = MountainCarContinuousAuxiliaryReward()
num_tasks = 1 + aux_reward.num_auxiliary_rewards

experiment_setting = {
    # Auxiliary Tasks
    c.AUXILIARY_TASKS: {},

    # Buffer
    c.BUFFER_PREPROCESSING:
    gt.AsType(),
    c.BUFFER_SETTING: {
        c.KWARGS: {
            c.MEMORY_SIZE: 50000 // action_repeat,
            c.OBS_DIM: (obs_dim, ),
            c.H_STATE_DIM: (1, ),
            c.ACTION_DIM: (action_dim, ),
            c.REWARD_DIM: (num_tasks, ),
            c.INFOS: {
                c.MEAN: ((action_dim, ), np.float32),
                c.VARIANCE: ((action_dim, ), np.float32),
                c.ENTROPY: ((action_dim, ), np.float32),
                c.LOG_PROB: ((1, ), np.float32),
                c.VALUE: ((1, ), np.float32),
                c.DISCOUNTING: ((1, ), np.float32)
            },

예제 #2

파일 보기

min_action = -np.ones(action_dim)
max_action = np.ones(action_dim)
# device = torch.device(c.CPU)
device = torch.device("cuda:0")

action_repeat = 1
num_frames = 1

memory_size = max_total_steps = 1000000 // action_repeat

experiment_setting = {
    # Auxiliary Tasks
    c.AUXILIARY_TASKS: {},

    # Buffer
    c.BUFFER_PREPROCESSING: gt.AsType(),
    c.BUFFER_SETTING: {
        c.KWARGS: {
            c.MEMORY_SIZE: memory_size,
            c.OBS_DIM: (obs_dim,),
            c.H_STATE_DIM: (1,),
            c.ACTION_DIM: (action_dim,),
            c.REWARD_DIM: (1,),
            c.INFOS: {c.MEAN: ((action_dim,), np.float32),
                      c.VARIANCE: ((action_dim,), np.float32),
                      c.ENTROPY: ((action_dim,), np.float32),
                      c.LOG_PROB: ((1,), np.float32),
                      c.VALUE: ((1,), np.float32),
                      c.DISCOUNTING: ((1,), np.float32)},
            c.CHECKPOINT_INTERVAL: 0,
            c.CHECKPOINT_PATH: None,

예제 #3

파일 보기

파일: sac_lstm_experiment.py 프로젝트: chanb/rl_sandbox_public

# device = torch.device(c.CPU)

action_repeat = 1
num_frames = 1
hidden_state_dim = 128

memory_size = 1000000
max_total_steps = 1000000

experiment_setting = {
    # Auxiliary Tasks
    c.AUXILIARY_TASKS: {},

    # Buffer
    c.BUFFER_PREPROCESSING:
    gt.Compose([gt.AsType()]),
    c.BUFFER_SETTING: {
        c.KWARGS: {
            c.MEMORY_SIZE: memory_size,
            c.OBS_DIM: (obs_dim, ),
            c.H_STATE_DIM: (hidden_state_dim * 2, ),
            c.ACTION_DIM: (action_dim, ),
            c.REWARD_DIM: (1, ),
            c.INFOS: {
                c.MEAN: ((action_dim, ), np.float32),
                c.VARIANCE: ((action_dim, ), np.float32),
                c.ENTROPY: ((action_dim, ), np.float32),
                c.LOG_PROB: ((1, ), np.float32),
                c.VALUE: ((1, ), np.float32),
                c.DISCOUNTING: ((1, ), np.float32)
            },