Python Config.entropy_weight Beispiele

Programmiersprache: Python

Namespace / Paketname: utils.conf

Klasse / Typ: Config

Methode / Funktion: entropy_weight

Beispiele auf hotexamples.com: 2

Python Config.entropy_weight - 2 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die utils.conf.Config.entropy_weight, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

root_dir(6)

max_steps(5)

replay_size(3)

entropy_weight(2)

model_save_int(2)

max_episodes(2)

learning_rate(2)

Config(2)

discount(1)

ppo_update_int(1)

sub_policy_num(1)

storage_device(1)

agent_ratio(1)

conv(1)

q_increase_rate(1)

q_decrease_rate(1)

profile_int(1)

ppo_update_times(1)

ppo_update_batch_size(1)

device(1)

policy_noise_params(1)

neighbor_num(1)

ddpg_average_target_int(1)

agent_num(1)

ddpg_update_batch_size(1)

map_size(1)

ddpg_warmup_steps(1)

get_data_prop(1)

explore_noise_params(1)

workers(1)

Beispiel #1

Datei anzeigen

c = Config()
# c.restart_from_trial = "2020_05_09_15_00_31"
c.max_episodes = 50000
c.max_steps = 1000
c.replay_size = 50000

c.agent_num = 1
c.device = "cuda:0"
c.root_dir = "/data/AI/tmp/multi_agent/mcarrier/naive_ppo_parallel/"

# train configs
# lr: learning rate, int: interval
c.workers = 5
c.discount = 0.99
c.learning_rate = 3e-4
c.entropy_weight = None
c.ppo_update_batch_size = 100
c.ppo_update_times = 50
c.ppo_update_int = 5  # = the number of episodes stored in ppo replay buffer
c.model_save_int = c.ppo_update_int * 20  # in episodes
c.profile_int = 50  # in episodes

if __name__ == "__main__":
    save_env = SaveEnv(c.root_dir, restart_use_trial=c.restart_from_trial)
    prep_args(c, save_env)

    # save_env.remove_trials_older_than(diff_hour=1)
    global_board.init(save_env.get_trial_train_log_dir())
    writer = global_board.writer
    logger.info("Directories prepared.")

Beispiel #2

Datei anzeigen

# configs
c = Config()
# c.restart_from_trial = "2020_05_09_15_00_31"
c.max_episodes = 50000
c.max_steps = 300
c.replay_size = 10000

c.device = "cuda:0"
c.root_dir = "/data/AI/tmp/multi_agent/lunar_lander/naive_ppo/"

# train configs
# lr: learning rate, int: interval
c.discount = 0.99
c.learning_rate = 1e-3
c.entropy_weight = 1e-2
c.ppo_update_batch_size = 100
c.ppo_update_times = 4
c.ppo_update_int = 6  # = the number of episodes stored in ppo replay buffer
c.model_save_int = 100  # in episodes
c.profile_int = 50  # in episodes

if __name__ == "__main__":
    save_env = SaveEnv(c.root_dir, restart_use_trial=c.restart_from_trial)
    prep_args(c, save_env)

    # save_env.remove_trials_older_than(diff_hour=1)
    global_board.init(save_env.get_trial_train_log_dir())
    writer = global_board.writer
    logger.info("Directories prepared.")