Python Agent.sample_trajectory примеры использования

Язык программирования: Python

Пространство имен/Пакет: agent.Agent

Класс/Тип: Agent

Метод/Функция: sample_trajectory

Примеров на hotexamples.com: 1

Python Agent.sample_trajectory - 1 пример найден. Это лучшие примеры Python кода для agent.Agent.Agent.sample_trajectory, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

Agent(11)

__init__(3)

execute(3)

avg_performance(1)

compute_action(1)

restore(1)

rollout(1)

run_episode(1)

sample_trajectory(1)

update_policy(1)

Пример #1

Показать файл

Файл: optimize.py Проект: adrienBolland/Direct-Environment-Search-with-Gradient-Ascent

def optimize_joint(system_nn, pol_nn, log_writer, **kwargs):
    # unpack kwargs
    horizon = kwargs.get("horizon")
    nb_iterations = kwargs.get("nb_iterations")
    batch_size = kwargs.get("batch_size")

    policy_fit = kwargs.get("policy", False)
    system_fit = kwargs.get("system", False)

    mc_samples = kwargs.get("mc_samples", 128)

    env = Environment(system_nn)
    agent = Agent(pol_nn, env, horizon)

    # Optimizers
    parameters_list = []
    if policy_fit:
        parameters_list = parameters_list + list(pol_nn.parameters())

    if system_fit:
        parameters_list = parameters_list + list(system_nn.parameters())
    if parameters_list:
        lr = kwargs.get("learning_rate", .001)
        optimizer = Adam(parameters_list, lr=lr)

        for it in range(nb_iterations):
            loss = {}
            params = {}

            # set gradient to zero
            optimizer.zero_grad()

            # generate the batch
            _, states_batch, dist_batch, _, oha_batch, rew_batch = agent.sample_trajectory(
                batch_size)

            # Loss #
            system_loss = system_error(system_nn, pol_nn, states_batch,
                                       dist_batch, oha_batch, rew_batch)

            system_loss.backward(retain_graph=policy_fit)

            optimizer.step()
            system_nn.project_parameters()
            pol_nn.project_parameters()

            if system_fit and log_writer is not None:
                params['system'] = system_nn.unwrapped.named_parameters()
                log_writer.add_system_parameters(system_nn.parameters_dict(),
                                                 step=it)

            if policy_fit and log_writer is not None:
                params['policy'] = pol_nn.named_parameters()
                actions = pol_nn(
                    states_batch)  # (B, H, A), need to stack along the B dim
                log_writer.add_policy_histograms(actions.view(
                    -1, actions.shape[2]),
                                                 step=it)

            if log_writer is not None:
                loss['loss'] = system_loss.item()

                log_writer.add_grad_histograms(params, step=it)
                log_writer.add_loss(loss, step=it)

                # performance of the agent on the epoch
                ep_perf, return_estimate = agent.avg_performance(mc_samples)
                log_writer.add_expected_return(ep_perf, step=it)
                log_writer.add_return(return_estimate, step=it)

    return env, agent