Python PolicyNet 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: unstable_baselines.nets

메소드/함수: PolicyNet

hotexamples.com에서의 예제들: 3

Python PolicyNet - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 unstable_baselines.nets.PolicyNet에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

 def test_policy_net_categorical_wo_net(self):
     batch_size = 5
     act_dim = 16
     obs_dim = 60
     action_space = gym.spaces.Discrete(act_dim)
     pi = ub_nets.PolicyNet(action_space)
     obs = tf.zeros((batch_size, obs_dim), dtype=tf.float32)
     dist = pi(obs)
     self.assertTrue(isinstance(dist, ub_prob.Categorical))
     act = dist.sample()
     self.assertArrayEqual((batch_size, ), act.shape)
     self.assertEqual(2, len(pi.trainable_variables))

예제 #2

파일 보기

 def test_policy_net_diag_gaussian_wo_net(self):
     batch_size = 5
     act_dim = 16
     obs_dim = 60
     low = np.ones((act_dim, ), dtype=np.float32) * -1.0
     high = np.ones((act_dim, ), dtype=np.float32) * 1.0
     action_space = gym.spaces.Box(low=low, high=high)
     pi = ub_nets.PolicyNet(action_space, squash=False)
     obs = tf.zeros((batch_size, obs_dim), dtype=tf.float32)
     dist = pi(obs)
     self.assertTrue(isinstance(dist, ub_prob.MultiNormal))
     act = dist.sample()
     self.assertArrayEqual((batch_size, act_dim), act.shape)
     self.assertEqual(4, len(pi.trainable_variables))

예제 #3

파일 보기

 def test_policy_net_exception(self):
     space = gym.spaces.MultiDiscrete([3, 4])
     with self.assertRaises(ValueError):
         ub_nets.PolicyNet(space)