Python DDQN.train 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: agents.DDQN

클래스/타입: DDQN

메소드/함수: train

hotexamples.com에서의 예제들: 4

Python DDQN.train - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 agents.DDQN.DDQN.train에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

DDQN(7)

train(4)

test(1)

자주 사용되는 메소드들

DDQN (7)

train (4)

test (1)

예제 #1

파일 보기

def ddqn(env_type, experiment_id, config_file):
    params = read_yaml(config_file)
    params['model_type'] = 'DDQN'
    params['env_type'] = env_type
    params['experiment_id'] = experiment_id

    save_config(params, experiment_id)
    env = make_env(env_type, params)
    env.make_world(wall_prob=params.wall_prob, food_prob=0)
    q_net = create_nn(params)
    agent = DDQN(params, env, q_net, nn.MSELoss(), optim.RMSprop)
    agent.train(params.episodes, params.episode_step, params.random_step,
                params.min_greedy, params.max_greedy, params.greedy_step,
                params.update_period)

예제 #2

파일 보기

def ddqn(env_type, experiment_id, config_file):
    '''
    Double Deep Q-learning

    Args:
        env_type: Evnrionment Type
        experiment_id: Id for the experiment
        config_file: Path of the config file
    '''

    params = read_yaml(config_file)
    params['model_type'] = 'DDQN'
    params['env_type'] = env_type
    params['experiment_id'] = experiment_id

    save_config(params, experiment_id)
    env = make_env(env_type, params)
    env.make_world(wall_prob=params.wall_prob, wall_seed=20, food_prob=0)
    q_net = create_nn(params)
    agent = DDQN(params, env, q_net, nn.MSELoss(), optim.RMSprop)
    agent.train(params.episodes, params.episode_step, params.random_step,
                params.min_greedy, params.max_greedy, params.greedy_step,
                params.update_period)

예제 #3

파일 보기

def calc_reference_deviation(virtual_env, real_env, config):

    state_reward_concat = None

    for i in range(10):
        agent = DDQN(env=real_env, config=config)
        _, _, replay_buffer_train = agent.train(env=virtual_env)

        states, _, _, rewards, _ = replay_buffer_train.get_all()
        state_reward = torch.cat((states, rewards), 1)

        if state_reward_concat == None:
            state_reward_concat = state_reward
        else:
            state_reward_concat = torch.cat((state_reward_concat, state_reward), 0)

        print(state_reward_concat.shape)
        print(torch.std(state_reward_concat, dim=0))

    return torch.std(state_reward_concat, dim=0).item()

예제 #4

파일 보기

파일: bohb_params_DDQN_ICM_cartpole.py 프로젝트: automl/learning_environments

    def compute(self, working_dir, bohb_id, config_id, cso, budget, *args, **kwargs):
        with open("default_config_cartpole.yaml", 'r') as stream:
            default_config = yaml.safe_load(stream)

        config = self.get_specific_config(cso, default_config, budget)
        print('----------------------------')
        print("START BOHB ITERATION")
        print('CONFIG: ' + str(config))
        print('CSO:    ' + str(cso))
        print('BUDGET: ' + str(budget))
        print('----------------------------')

        info = {}

        # generate environment
        env_fac = EnvFactory(config)
        env = env_fac.generate_real_env()

        ddqn = DDQN(env=env,
                    config=config,
                    icm=True)

        score_list = []
        for _ in range(5):
            rewards, _, _ = ddqn.train(env)
            score_i = len(rewards)
            score_list.append(score_i)

        score = np.mean(score_list)

        info['config'] = str(config)

        print('----------------------------')
        print('FINAL SCORE: ' + str(score))
        print("END BOHB ITERATION")
        print('----------------------------')

        return {
                "loss": score,
                "info": info
                }