Python PolicyParameters 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: mdp.common

메소드/함수: PolicyParameters

hotexamples.com에서의 예제들: 5

Python PolicyParameters - 5개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 mdp.common.PolicyParameters에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

 def __init__(self):
     super().__init__()
     self._max_cars: int = 20      # problem statement = 20
     self._environment_parameters = EnvironmentParameters(
         max_cars=self._max_cars,
         extra_rules=True,  # change this for extra rules in book as per challenge
     )
     self._comparison_settings = common.Settings(
         gamma=0.9,
         policy_parameters=common.PolicyParameters(
             policy_type=common.PolicyType.TABULAR_DETERMINISTIC,
         ),
         algorithm_parameters=common.AlgorithmParameters(
             theta=0.1  # accuracy of policy_evaluation
         ),
         display_every_step=True,
     )
     self._graph3d_values = common.Graph3DValues(
         x_label="Cars at 1st location",
         y_label="Cars at 2nd location",
         z_label="V(s)",
         x_min=0,
         x_max=self._max_cars,
         y_min=0,
         y_max=self._max_cars,
     )
     self._grid_view_parameters = common.GridViewParameters(
         grid_view_type=common.GridViewType.JACKS,
         show_result=True,
         show_policy=True,
     )

예제 #2

파일 보기

파일: settings.py 프로젝트: RobinLeeCarter/Cliff

class Settings(common.Settings):
    gamma: float = 1.0
    runs: int = 1
    training_episodes: int = 500_000
    episode_print_frequency: int = 10_000
    policy_parameters: common.PolicyParameters = common.PolicyParameters(
        policy_type=common.PolicyType.TABULAR_DETERMINISTIC, )

예제 #3

파일 보기

class Settings(common.Settings):
    runs: int = 100
    # runs_multiprocessing: common.ParallelContextType =common.ParallelContextType.FORK_GLOBAL
    training_episodes: int = 100
    policy_parameters: common.PolicyParameters = common.PolicyParameters(
        policy_type=common.PolicyType.TABULAR_NONE)
    algorithm_parameters: common.AlgorithmParameters = AlgorithmParameters()

예제 #4

파일 보기

 def __init__(self, environment: TabularEnvironment,
              policy_parameters: common.PolicyParameters):
     super().__init__(environment, policy_parameters)
     self.epsilon: float = self._policy_parameters.epsilon
     greedy_policy_parameters = common.PolicyParameters(
         policy_type=common.PolicyType.TABULAR_DETERMINISTIC,
         store_matrix=False,
     )
     self.greedy_policy: Deterministic = Deterministic(
         self._environment, greedy_policy_parameters)

예제 #5

파일 보기

파일: gambler_value_iteration_v.py 프로젝트: RobinLeeCarter/Cliff

class Settings(common.Settings):
    gamma: float = 1.0  # 0.99999
    policy_parameters: common.PolicyParameters = common.PolicyParameters(
        policy_type=common.PolicyType.TABULAR_DETERMINISTIC, )
    display_every_step: bool = False