Reinforcement Learning algorithm simulation with Grid world

Optimal value function

find the optimal value for each grid cell

Deterministic

Stochastic

Q value iteration

Here we save the the value for each state action pair. Which is defining how good an action is by taking the action and how much we can get from the state we land in.

Policy evaluation

In this case instead of finding the max value over all action. we will take the value for the defined policy
So the only difference in the equation is the absence of max() python policy_evaluation.py

Name		Name	Last commit message	Last commit date
Latest commit History 34 Commits
images		images
.gitignore		.gitignore
README.md		README.md
World.py		World.py
optimal value function (stochastic).py		optimal value function (stochastic).py
optimal value function(determinstic).py		optimal value function(determinstic).py
policy_evaluation.py		policy_evaluation.py
policy_iteration.py		policy_iteration.py
q_value_iteration.py		q_value_iteration.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

images

images

.gitignore

.gitignore

README.md

README.md

World.py

World.py

optimal value function (stochastic).py

optimal value function (stochastic).py

optimal value function(determinstic).py

optimal value function(determinstic).py

policy_evaluation.py

policy_evaluation.py

policy_iteration.py

policy_iteration.py

q_value_iteration.py

q_value_iteration.py

Repository files navigation

Reinforcement Learning algorithm simulation with Grid world

Optimal value function

Deterministic

Stochastic

Q value iteration

Policy evaluation

About

Releases

Packages

Languages

ShuvenduRoy/Grid_world

Folders and files

Latest commit

History

Repository files navigation

Reinforcement Learning algorithm simulation with Grid world

Optimal value function

Deterministic

Stochastic

Q value iteration

Policy evaluation

About

Resources

Stars

Watchers

Forks

Languages