Python Noise 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: models

클래스/타입: Noise

hotexamples.com에서의 예제들: 3

Python Noise - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 models.Noise에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

GaussianNoise(2)

OrnsteinUhlenbeckActionNoise(2)

예제 #1

파일 보기

파일: time_delay_ddpg.py 프로젝트: ehddnr747/MADDPG

    actor_main = DDPGActor(observation_dim, action_dim, actor_lr, device)
    actor_target = DDPGActor(observation_dim, action_dim, actor_lr, device)
    critic_main = DDPGCritic(observation_dim, action_dim, critic_lr, device)
    critic_target = DDPGCritic(observation_dim, action_dim, critic_lr, device)

    target_initialize(actor_main, actor_target)
    target_initialize(critic_main, critic_target)

    iter_i = 0
    epi_i = 0
    save_flag = False

    while iter_i < max_iteration:

        noise = Noise.OrnsteinUhlenbeckActionNoise(mu=np.zeros([action_dim]),
                                                   sigma=sigma)

        noise.reset()
        timestep = env.reset()
        ep_reward = 0.0
        prev_action = np.zeros([action_dim])

        # timestep, reward, discount, observation
        _, _, _, s = timestep

        s = utils.state_1d_flat(s)

        s_a = np.append(s, prev_action)
        s_a = torch.FloatTensor(s_a).to(device)

        step_i = 0

예제 #2

파일 보기

    actor_main = DDPGActor(state_action_dim, action_dim, actor_lr, device)
    actor_target = DDPGActor(state_action_dim, action_dim, actor_lr, device)
    critic_main = DDPGCritic(state_action_dim, action_dim, critic_lr, device)
    critic_target = DDPGCritic(state_action_dim, action_dim, critic_lr, device)

    target_initialize(actor_main, actor_target)
    target_initialize(critic_main, critic_target)

    # start training agent
    for epi_i in range(1, max_episode + 1):

        sigma = np.random.uniform(sigma_min, sigma_max)

        assert noise_type in ["ou", "gaussian"]
        if noise_type == "ou":
            noise = Noise.OrnsteinUhlenbeckActionNoise(
                mu=np.zeros([action_dim]), sigma=sigma * np.ones([action_dim]))
        else:
            noise = Noise.GaussianNoise(action_dim=action_dim, sigma=sigma)

        noise.reset()
        timestep = env.reset()
        ep_reward = 0.0
        prev_action = np.zeros([action_dim])

        # timestep, reward, discount, observation
        _, _, _, s = timestep
        s = utils.state_1d_flat(s)

        s_a = np.append(s, prev_action)
        s_a = torch.FloatTensor(s_a).to(device)

예제 #3

파일 보기

파일: time_delayed_precise_ddpg_pytorch_suite.py 프로젝트: ehddnr747/MADDPG

    critic_main = DDPGCritic(state_control_dim, control_dim, critic_lr, device)
    critic_target = DDPGCritic(state_control_dim, control_dim, critic_lr,
                               device)

    target_initialize(actor_main, actor_target)
    target_initialize(critic_main, critic_target)

    # start training agent
    for epi_i in range(1, max_episode + 1):

        sigma = np.random.uniform(sigma_min, sigma_max)

        assert noise_type in ["ou", "gaussian"]
        if noise_type == "ou":
            noise = Noise.OrnsteinUhlenbeckActionNoise(
                mu=np.zeros([action_dim]),
                sigma=sigma,
                actions_per_control=actions_per_control)
            # this noise is only for single action, for a control you need to repeat sampling
        else:
            noise = Noise.GaussianNoise(action_dim=control_dim, sigma=sigma)

        noise.reset()
        timestep = env.reset()
        ep_reward = 0.0
        prev_action = np.zeros([actions_per_control, action_dim])

        # timestep, reward, discount, observation
        _, _, _, s = timestep
        s = utils.state_1d_flat(s)

        s_a = np.append(s, prev_action.reshape([-1]))