Python DictConfig.env_record_duration 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: omegaconf

클래스/타입: DictConfig

메소드/함수: env_record_duration

hotexamples.com에서의 예제들: 6

Python DictConfig.env_record_duration - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 omegaconf.DictConfig.env_record_duration에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

DictConfig(30)

batch_size(13)

env_record_freq(6)

env_record_duration(6)

cumulative_reward(5)

copy(4)

cumulative_done(4)

_is_missing(3)

_is_none(3)

do_lower_case(3)

delete_freq(3)

_name(2)

data_dir(2)

__getattr__(2)

device(2)

ep_mean_reward(2)

_get_parent(2)

_get_node(2)

delete_percentage(1)

default_value(1)

distributed_world_size(1)

device_id(1)

distributed_init_method(1)

distributed_no_spawn(1)

distributed_num_procs(1)

distributed_rank(1)

ep_length(1)

ep_loss(1)

ep_x_pos(1)

episode(1)

dataroot(1)

cumulative_intrinsic_reward(1)

data_dirs(1)

action_range(1)

__len__(1)

_dereference_node(1)

_get_root(1)

_maybe_dereference_node(1)

_set_parent(1)

_set_value(1)

action_dim(1)

action_lb(1)

action_shape(1)

data_desc(1)

action_ub(1)

adapters(1)

beam(1)

ckpt_save_path(1)

class_labels(1)

cumulative_extrinsic_reward(1)

예제 #1

파일 보기

파일: train_gridworld.py 프로젝트: Akhilez/reward_lab

def dqn_per_gridworld():
    hp = DictConfig({})

    hp.steps = 1000
    hp.batch_size = 500
    hp.replay_batch = 100
    hp.replay_size = 1000
    hp.delete_freq = 100 * (hp.batch_size + hp.replay_size)  # every 100 steps

    hp.env_record_freq = 100
    hp.env_record_duration = 25

    hp.max_steps = 50
    hp.grid_size = 4

    hp.lr = 1e-3
    hp.epsilon_exploration = 0.1
    hp.gamma_discount = 0.9

    model = (GenericConvModel(height=4,
                              width=4,
                              in_channels=4,
                              channels=[50],
                              out_size=4).float().to(device))

    train_dqn_per(
        GridWorldEnvWrapper,
        model,
        hp,
        project_name="SimpleGridWorld",
        run_name="dqn_per",
    )

예제 #2

파일 보기

    def test_dqn_vanilla(self, *_):
        from dqn.dqn import train_dqn

        hp = DictConfig({})

        hp.steps = 2
        hp.batch_size = 2
        hp.env_record_freq = 0
        hp.env_record_duration = 0

        hp.max_steps = 50
        hp.grid_size = 4

        hp.lr = 1e-3
        hp.epsilon_exploration = 0.1
        hp.gamma_discount = 0.9

        for case in env_cases:
            print(case["env"].__name__)

            model = GenericLinearModel(
                in_size=case["input"],
                units=[10],
                out_size=case["output"],
                flatten=case.get("flatten", False),
            )

            train_dqn(case["env"], model, hp)

예제 #3

파일 보기

def breakout_double_dqn():
    hp = DictConfig({})

    hp.steps = 2000
    hp.batch_size = 50

    hp.replay_batch = 50
    hp.replay_size = 1000

    hp.delete_freq = 50 * (hp.batch_size + hp.replay_size)  # every 100 steps
    hp.delete_percentage = 0.2

    hp.env_record_freq = 100
    hp.env_record_duration = 50

    hp.lr = 1e-3
    hp.gamma_discount = 0.9

    # hp.epsilon_exploration = 0.1
    hp.epsilon_flatten_step = 1500
    hp.epsilon_start = 1
    hp.epsilon_end = 0.1
    hp.epsilon_decay_function = decay_functions.LINEAR

    hp.target_model_sync_freq = 50

    model = GenericConvModel(42, 42, 3, [50, 50, 50], [100], 4)

    train_dqn_double(
        BreakoutEnvWrapper, model, hp, project_name="Breakout", run_name="double_dqn"
    )

예제 #4

파일 보기

def breakout_dqn():

    hp = DictConfig({})

    hp.steps = 2000
    hp.batch_size = 32
    hp.env_record_freq = 500
    hp.env_record_duration = 100
    hp.max_steps = 1000
    hp.lr = 1e-3
    hp.epsilon_exploration = 0.1
    hp.gamma_discount = 0.9

    model = GenericLinearModel(42 * 42 * 3, [100, 100], 4, flatten=True)

    train_dqn(
        BreakoutEnvWrapper, model, hp, project_name="Breakout", run_name="vanilla_dqn"
    )

예제 #5

파일 보기

파일: train_gridworld.py 프로젝트: Akhilez/reward_lab

def dqn_double():
    hp = DictConfig({})

    hp.steps = 1000
    hp.batch_size = 500

    hp.replay_batch = 100
    hp.replay_size = 1000

    hp.delete_freq = 100 * (hp.batch_size + hp.replay_size)  # every 100 steps

    hp.env_record_freq = 100
    hp.env_record_duration = 25

    hp.max_steps = 50
    hp.grid_size = 4

    hp.lr = 1e-3
    hp.gamma_discount = 0.9

    # hp.epsilon_exploration = 0.1
    hp.epsilon_flatten_step = 700
    hp.epsilon_start = 1
    hp.epsilon_end = 0.001
    hp.epsilon_decay_function = decay_functions.LINEAR

    hp.target_model_sync_freq = 50

    model = (GenericConvModel(height=4,
                              width=4,
                              in_channels=4,
                              channels=[50],
                              out_size=4).float().to(device))

    train_dqn_double(
        GridWorldEnvWrapper,
        model,
        hp,
        project_name="SimpleGridWorld",
        run_name="dqn_target",
    )

예제 #6

파일 보기

파일: train_sokoban.py 프로젝트: Akhilez/reward_lab

    max_steps = 500
    reward_range = (-10, 10)  # TODO: Fix this

    def __init__(self):
        super().__init__()
        self.env = gym.make(
            "GDY-Sokoban---2-v0",
            global_observer_type=gd.ObserverType.VECTOR,
            player_observer_type=gd.ObserverType.VECTOR,
            level=0,
        )


if __name__ == "__main__":

    hp = DictConfig({})

    hp.steps = 10000
    hp.batch_size = 1000
    hp.env_record_freq = 500
    hp.env_record_duration = 50
    hp.max_steps = 200
    hp.lr = 1e-3
    hp.epsilon_exploration = 0.1
    hp.gamma_discount = 0.9

    model = GenericLinearModel(5 * 7 * 8, [10], 5,
                               flatten=True).float().to(device)

    train_dqn(SokobanV2L0EnvWrapper, model, hp, name="SokobanV2L0")