Python PPOTrainer.save_to_objectの例

プログラミング言語: Python

名前空間/パッケージ名: ray.rllib.agents.ppo

クラス/型: PPOTrainer

メソッド/関数: save_to_object

hotexamples.comのコード掲載数: 2

Python PPOTrainer.save_to_object - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのray.rllib.agents.ppo.PPOTrainer.save_to_objectの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

PPOTrainer(30)

train(30)

restore(30)

get_policy(26)

save(22)

compute_action(17)

stop(11)

with_updates(8)

set_weights(3)

get_weights(3)

compute_single_action(3)

import_model(2)

restore_from_object(2)

save_to_object(2)

export_policy_model(1)

export_model(1)

load_checkpoint(1)

merge_trainer_configs(1)

evaluate(1)

env_creator(1)

default_resource_request(1)

latest_avg_trainer_result(1)

コード例 #1

ファイルを表示

ファイル: ppo.py プロジェクト: toandaominh1997/automlkiller

class PPOrl(object):
    def __init__(self, env, env_config, config):
        self.config = config
        self.config['env_config'] = env_config
        self.env = env(env_config)
        self.agent = PPOTrainer(config=self.config, env=env)

    def fit(self, checkpoint=None, n_iter=2000, save_checkpoint=10):
        if checkpoint is None:
            checkpoint = os.path.join(os.getcwd(), 'data/checkpoint_rl.pkl')
        for idx in trange(n_iter):
            result = self.agent.train()
            LOGGER.warning('result: ', result)
            if (idx + 1) % save_checkpoint == 0:
                LOGGER.warning('Save checkpoint at: {}'.format(idx + 1))
                state = self.agent.save_to_object()
                with open(checkpoint, 'wb') as fp:
                    pickle.dump(state, fp, protocol=pickle.HIGHEST_PROTOCOL)
        return result

    def predict(self, checkpoint=None):
        if checkpoint is not None:
            with open(checkpoint, 'rb') as fp:
                state = pickle.load(fp)
            self.agent.restore_from_object(state)
        done = False
        episode_reward = 0
        obs = self.env.reset()
        actions = []
        while not done:
            action = self.agent.compute_action(obs)
            actions.append(action)
            obs, reward, done, info = self.env.step(action)
            episode_reward += reward
        results = {'action': actions, 'reward': episode_reward}
        return results

コード例 #2

ファイルを表示

        "vf_clip_param": 10.0
    }

    last_improve = 150

    iteration = 22
    improved = 0
    while True:
        trainer = PPOTrainer(env="fire_mage", config=rnn_config)
        print(dir(trainer))
        #trainer.restore('./checkpoints_flush/checkpoint_379/checkpoint-379')

        step = 0
        best_val = 0.0
        if False:
            save_0 = trainer.save_to_object()
        while True:
            if False:
                save_0 = trainer.save_to_object()
                result = trainer.train()
                while result['episode_reward_mean'] > best_val:
                    print('UPENING')
                    best_save = deepcopy(save_0)
                    best_val = result['episode_reward_mean']
                    save_0 = trainer.save_to_object()
                    trainer.save('./checkpoints_flush')
                    result = trainer.train()
                print('REVERTING')
                trainer.restore_from_object(best_save)
            else:
                result = trainer.train()