Exemplos de PGTrainer.save_to_object em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: ray.rllib.agents.pg

Classe / Tipo: PGTrainer

Método / Função: save_to_object

Exemplos em hotexamples.com: 1

PGTrainer.save_to_object em Python - 1 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de ray.rllib.agents.pg.PGTrainer.save_to_object em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

PGTrainer(30)

train(30)

stop(11)

save(4)

get_policy(3)

restore(3)

with_updates(3)

compute_action(2)

compute_single_action(1)

restore_from_object(1)

save_to_object(1)

Métodos Frequentes

PGTrainer (30)

train (30)

stop (11)

save (4)

get_policy (3)

restore (3)

with_updates (3)

compute_action (2)

compute_single_action (1)

restore_from_object (1)

Métodos Frequentes

save_to_object (1)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: pg.py Projeto: toandaominh1997/automlkiller

class PGrl(object): def __init__(self, env, env_config, config): self.config = config self.config['env_config'] = env_config self.env = env(env_config) self.agent = PGTrainer(config=self.config, env=env) def fit(self, checkpoint=None): if checkpoint is None: checkpoint = os.path.join(os.getcwd(), 'data/checkpoint_rl.pkl') for idx in trange(5): result = self.agent.train() LOGGER.warning('result: ', result) if (idx + 1) % 5 == 0: LOGGER.warning('Save checkpoint at: {}'.format(idx + 1)) state = self.agent.save_to_object() with open(checkpoint, 'wb') as fp: pickle.dump(state, fp, protocol=pickle.HIGHEST_PROTOCOL) return result def predict(self, checkpoint=None): if checkpoint is not None: with open(checkpoint, 'rb') as fp: state = pickle.load(fp) self.agent.restore_from_object(state) done = False episode_reward = 0 obs = self.env.reset() actions = [] while not done: action = self.agent.compute_action(obs) actions.append(action) obs, reward, done, info = self.env.step(action) episode_reward += reward results = {'action': actions, 'reward': episode_reward} return results