Python Gridworld.true_values_for_sample примеры использования

Язык программирования: Python

Пространство имен/Пакет: ml.rl.test.gridworld.gridworld

Класс/Тип: Gridworld

Метод/Функция: true_values_for_sample

Примеров на hotexamples.com: 4

Python Gridworld.true_values_for_sample - 4 примера найдено. Это лучшие примеры Python кода для ml.rl.test.gridworld.gridworld.Gridworld.true_values_for_sample, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

Gridworld(28)

generate_samples(20)

preprocess_samples(15)

true_values_for_sample(4)

true_q_epsilon_values(2)

true_rewards_for_sample(1)

Пример #1

Показать файл

Файл: gridworld_enum.py Проект: tony32769/BlueWhale

 def true_values_for_sample(self, enum_states, actions,
                            assume_optimal_policy: bool):
     states = []
     for state in enum_states:
         states.append({int(list(state.values())[0]): 1})
     return Gridworld.true_values_for_sample(self, states, actions,
                                             assume_optimal_policy)

Пример #2

Показать файл

Файл: test_gridworld.py Проект: tony32769/BlueWhale

    def test_evaluator_ground_truth(self):
        environment = Gridworld()
        states, actions, rewards, next_states, next_actions, is_terminal,\
            possible_next_actions, _ = environment.generate_samples(100000, 1.0)
        true_values = environment.true_values_for_sample(
            states, actions, False)
        # Hijack the reward timeline to insert the ground truth
        reward_timelines = []
        for tv in true_values:
            reward_timelines.append({0: tv})
        trainer = self.get_sarsa_trainer(environment)
        evaluator = Evaluator(trainer, DISCOUNT)
        tdps = environment.preprocess_samples(
            states,
            actions,
            rewards,
            next_states,
            next_actions,
            is_terminal,
            possible_next_actions,
            reward_timelines,
            self.minibatch_size,
        )

        for tdp in tdps:
            trainer.stream_tdp(tdp, evaluator)

        self.assertLess(evaluator.td_loss[-1], 0.05)
        self.assertLess(evaluator.mc_loss[-1], 0.05)

Пример #3

Показать файл

    def test_evaluator_ground_truth_no_dueling(self):
        environment = Gridworld()
        samples = environment.generate_samples(500000, 1.0, DISCOUNT)
        true_values = environment.true_values_for_sample(
            samples.states, samples.actions, False)
        # Hijack the reward timeline to insert the ground truth
        samples.episode_values = true_values
        trainer = self.get_sarsa_trainer(environment, False)
        evaluator = Evaluator(environment.ACTIONS, 10, DISCOUNT, None, None)
        tdps = environment.preprocess_samples(samples, self.minibatch_size)

        for tdp in tdps:
            trainer.train(tdp, evaluator)

        self.assertLess(evaluator.mc_loss[-1], 0.1)

Пример #4

Показать файл

Файл: test_gridworld.py Проект: wds2014/BlueWhale

    def test_evaluator_ground_truth(self):
        environment = Gridworld()
        samples = environment.generate_samples(200000, 1.0)
        true_values = environment.true_values_for_sample(
            samples.states, samples.actions, False)
        # Hijack the reward timeline to insert the ground truth
        samples.reward_timelines = []
        for tv in true_values:
            samples.reward_timelines.append({0: tv})
        trainer = self.get_sarsa_trainer(environment)
        evaluator = Evaluator(environment.ACTIONS, 10, DISCOUNT, None, None)
        tdps = environment.preprocess_samples(samples, self.minibatch_size)

        for _ in range(2):
            for tdp in tdps:
                trainer.train_numpy(tdp, evaluator)

        self.assertLess(evaluator.mc_loss[-1], 0.1)