Python MDP.value_iteration Exemples

Langage de programmation: Python

Espace de nommage/Pack: MDP

Class/Type: MDP

Méthode/Fonction: value_iteration

Exemples au hotexamples.com: 5

Python MDP.value_iteration - 5 exemples trouvés. Ce sont les exemples réels les mieux notés de MDP.MDP.value_iteration extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

MDP(30)

getRewards(12)

probNextStates(12)

add_state(5)

get_action(5)

num_states(4)

get_action_list(4)

get_state_list(4)

__init__(3)

value_iteration(3)

reset(3)

get_parked(3)

get_Q_policy(3)

allStates(2)

num_actions(2)

numStates(2)

numActions(2)

initMDP(2)

get_available(2)

get_handicapped(2)

startState(2)

endStates(2)

gamma(2)

randomWalkSamples(1)

add_action(1)

valueIteration(1)

update_reward_only(1)

randomAction(1)

update_info(1)

representValues(1)

solve(1)

transform(1)

set_policy(1)

show(1)

train(1)

printAns(1)

take_action(1)

printResult(1)

buildMDP(1)

policyIteration(1)

apply_action_on_grid(1)

calc_rewards(1)

computePolicy(1)

environment(1)

getOptimalPolicy(1)

getOptimalValues(1)

build(1)

get_actions(1)

policyEvaluation(1)

get_reward(1)

Méthodes fréquemment utilisées

MDP (30)

getRewards (12)

probNextStates (12)

add_state (5)

get_action (5)

num_states (4)

get_action_list (4)

get_state_list (4)

__init__ (3)

value_iteration (3)

Méthodes fréquemment utilisées

reset (3)

get_parked (3)

get_Q_policy (3)

allStates (2)

num_actions (2)

numStates (2)

numActions (2)

initMDP (2)

get_available (2)

get_handicapped (2)

startState (2)

endStates (2)

gamma (2)

randomWalkSamples (1)

add_action (1)

valueIteration (1)

update_reward_only (1)

randomAction (1)

update_info (1)

representValues (1)

Méthodes fréquemment utilisées

startState (2)

endStates (2)

gamma (2)

randomWalkSamples (1)

add_action (1)

valueIteration (1)

update_reward_only (1)

randomAction (1)

update_info (1)

representValues (1)

solve (1)

transform (1)

set_policy (1)

show (1)

train (1)

printAns (1)

take_action (1)

printResult (1)

buildMDP (1)

policyIteration (1)

apply_action_on_grid (1)

calc_rewards (1)

computePolicy (1)

environment (1)

getOptimalPolicy (1)

getOptimalValues (1)

build (1)

get_actions (1)

policyEvaluation (1)

get_reward (1)

Méthodes fréquemment utilisées

solve (1)

transform (1)

set_policy (1)

show (1)

train (1)

printAns (1)

take_action (1)

printResult (1)

buildMDP (1)

policyIteration (1)

apply_action_on_grid (1)

calc_rewards (1)

computePolicy (1)

environment (1)

getOptimalPolicy (1)

getOptimalValues (1)

build (1)

get_actions (1)

policyEvaluation (1)

get_reward (1)

get_spot (1)

get_state (1)

get_time (1)

get_transition_function (1)

buildTransitionMatrices (1)

add_transition (1)

make_decision (1)

Exemple #1

0

Afficher le fichier

Fichier : runsim.py Projet : nthatte/ACRLHW5

grid_mdp = GridWorldMDP(map_struct['seed_map'], map_struct['goal'], map_struct['start'], map_struct['bridge_probabilities'], map_struct['bridge_locations']) init_value = {} for s in grid_mdp.states: init_value[s.tostring()] = np.linalg.norm( s - grid_mdp.goal_state) mdp = MDP(grid_mdp.states, grid_mdp.valid_actions_function, grid_mdp.cost_function) #value_fcn = mdp.value_iteration(value = value_fcn, plot=True, world_size = 50) value_fcn = mdp.value_iteration(value=init_value, plot=True, world_size=50) #set up dubins astar dub = dubins_astar(world_points, value_fcn) astar = AStar(motion_primitives, dub.cost_function, dub.heuristic, dub.valid_edge, dub.state_equality, plot=False) astar_state = np.array( [state['x'], state['y'], state['theta']]) else: '''

Exemple #2

0

Afficher le fichier

Fichier : runsim.py Projet : nthatte/ACRLHW5

#set up grid world mdp ''' grid_mdp = GridWorldMDP(map_struct['seed_map'], map_struct['goal']) ''' grid_mdp = GridWorldMDP(map_struct['seed_map'], map_struct['goal'], map_struct['start'], map_struct['bridge_probabilities'], map_struct['bridge_locations']) init_value = {} for s in grid_mdp.states: init_value[s.tostring()] = np.linalg.norm(s - grid_mdp.goal_state) mdp = MDP(grid_mdp.states, grid_mdp.valid_actions_function, grid_mdp.cost_function) #value_fcn = mdp.value_iteration(value = value_fcn, plot=True, world_size = 50) value_fcn = mdp.value_iteration(value = init_value, plot=True, world_size = 50) #set up dubins astar dub = dubins_astar(world_points, value_fcn) astar = AStar(motion_primitives, dub.cost_function, dub.heuristic, dub.valid_edge, dub.state_equality, plot = False) astar_state = np.array([state['x'],state['y'],state['theta']]) else: ''' following_dist = 0.0 temp_idx = dub.last_idx while following_dist < dub.look_ahead_dist temp_idx -= 1 path_diff = numpy.array([,]) following_dist += np.linalg.norm(path_diff)

Exemple #3

0

Afficher le fichier

Fichier : test_MDP.py Projet : nthatte/ACRLHW5

def valid_actions_function(state): if np.array_equal(state,goal_state): return [np.array([ 0, 0])] else: return [a for a in actions if valid_state(state + a)] def cost_function(state, action): return np.linalg.norm(action) mdp = MDP(states, valid_actions_function, cost_function, converge_thr = 1) #V, pi = mdp.value_iteration(policy = init_policy, plot = True, world_size = world_size) #V, pi = mdp.value_iteration(policy = init_policy, value = init_value, plot = True, world_size = world_size) #V, pi = mdp.value_iteration(policy = init_policy) #V, pi = mdp.value_iteration(policy = init_policy, value = init_value) #V, pi = mdp.value_iteration(value = init_value, plot = True, world_size = world_size) V, pi = mdp.value_iteration(value = init_value) #V, pi = mdp.value_iteration(plot = True, world_size = world_size) #V, pi = mdp.value_iteration() value_mat = np.zeros((world_size,world_size)) Sx = [] Sy = [] Ax = [] Ay = [] for s in states: value_mat[s[0], s[1]] = V[s.tostring()] Sx.append(s[0]) Sy.append(s[1]) Ax.append(pi[s.tostring()][0]) Ay.append(pi[s.tostring()][1])

Exemple #4

0

Afficher le fichier

dists_to_bridge = [np.sqrt(dists_to_bridge[0]**2 + dists_to_bridge[1]**2)] prob_open = 1.0 replan_cost = 0.0 for (i, dist_to_bridge) in enumerate(dists_to_bridge): if dist_to_bridge <= radius: prob_open *= bridge_probabilities[i] if replan_costs[i] > replan_cost: replan_cost = replan_costs[i] i += 1 return action_cost + (1.0-prob_open)*replan_cost ''' mdp = MDP(states, valid_actions_function, cost_function, converge_thr=1, gamma=1) #V = mdp.value_iteration(policy = init_policy, plot = True, world_size = world_size) #V = mdp.value_iteration(policy = init_policy, value = init_value, plot = True, world_size = world_size) #V = mdp.value_iteration(policy = init_policy) #V = mdp.value_iteration(policy = init_policy, value = init_value) V = mdp.value_iteration(value=init_value, plot=True, world_size=world_size) #V = mdp.value_iteration(value = init_value) #V = mdp.value_iteration(plot = True, world_size = world_size) #V = mdp.value_iteration() ''' with open(map_name +'value.pickle', 'wb') as handle: pickle.dump(V, handle) '''

Exemple #5

0

Afficher le fichier

Fichier : test_MDP_map.py Projet : nthatte/ACRLHW5

dists_to_bridge = np.sqrt(dists_to_bridge[:,0]**2 + dists_to_bridge[:,1]**2) else: dists_to_bridge = state - bridge_locations dists_to_bridge = [np.sqrt(dists_to_bridge[0]**2 + dists_to_bridge[1]**2)] prob_open = 1.0 replan_cost = 0.0 for (i, dist_to_bridge) in enumerate(dists_to_bridge): if dist_to_bridge <= radius: prob_open *= bridge_probabilities[i] if replan_costs[i] > replan_cost: replan_cost = replan_costs[i] i += 1 return action_cost + (1.0-prob_open)*replan_cost ''' mdp = MDP(states, valid_actions_function, cost_function, converge_thr = 1, gamma = 1) #V = mdp.value_iteration(policy = init_policy, plot = True, world_size = world_size) #V = mdp.value_iteration(policy = init_policy, value = init_value, plot = True, world_size = world_size) #V = mdp.value_iteration(policy = init_policy) #V = mdp.value_iteration(policy = init_policy, value = init_value) V = mdp.value_iteration(value = init_value, plot = True, world_size = world_size) #V = mdp.value_iteration(value = init_value) #V = mdp.value_iteration(plot = True, world_size = world_size) #V = mdp.value_iteration() ''' with open(map_name +'value.pickle', 'wb') as handle: pickle.dump(V, handle) '''