Python EpsilonGreedyPolicy.action_probability示例

编程语言: Python

命名空间/包名称: policy

方法/功能: action_probability

hotexamples.com的示例: 1

Python EpsilonGreedyPolicy.action_probability - 已找到1个示例。这些是从开源项目中提取的最受好评的policy.EpsilonGreedyPolicy.action_probability现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

EpsilonGreedyPolicy(10)

action_probability(1)

epsilon(1)

getActions(1)

getNextAction(1)

n(1)

take_action(1)

updateQ(1)

示例#1

显示文件

文件： train.py 项目： animatinator/ReinforcementLearningIntroduction

		T = len(episode) - 1
		
		G = 0.0
		W = 1.0
		
		for t in range(T-1, -1, -1):
			# Get key variables from this episode step.
			St = episode[t].state
			At = episode[t].action
			Rt_1 = episode[t+1].reward

			# Update Q-values and visit counts.
			G = (LAMBDA * G) + Rt_1
			Q.increment_count(St, At, W)
			Qs_a = Q.get(St, At)
			new_Qs_a = Qs_a + (W / Q.get_count(St, At)) * (G - Qs_a)
			Q.set(St, At, new_Qs_a)
			
			# Update the policy.
			Pi.update(St, Q.get_max_action(St))
			
			# Stop this episode if it's no longer behaving greedily.
			if At != Pi.get_action(St):
				break
			
			W /= soft_policy.action_probability(St, At)
	
	plt.plot([x for x in range(TRAIN_STEPS)], rewards)
	plt.show()
	
	save_policy(Pi)