Ejemplos de Problem1.apply_value_iteration en Python

Lenguaje de programación: Python

Clase / Tipo: Problem1

Método / Función: apply_value_iteration

Ejemplos en hotexamples.com: 4

Python Problem1.apply_value_iteration - 4 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de Problem1.apply_value_iteration extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

URLSplit(6)

Cohort(2)

MultiCohort(2)

apply_value_iteration(2)

get_value_of_polynomial(2)

newton_interpolation(2)

Problem1(1)

SetOfGames(1)

dataStreamGenerate(1)

gen_dfa(1)

get_optimal_policy(1)

main(1)

print_polynomial(1)

smallest_factor(1)

solve(1)

sumMultiples(1)

Ejemplo n.º 1

Mostrar archivo

Archivo: Problem2.py Proyecto: mjchao/Solving-Markov-Decision-Processes

def apply_monte_carlo_simulation( costOfLiving , numTimes ):
    utilMap = UtilityMap()
    transitionModel = TransitionModel()
    rewardSet = RewardSet( costOfLiving )
    utilMap = Problem1.apply_value_iteration( utilMap , transitionModel , rewardSet )
    policy = utilMap.get_optimal_policy( transitionModel )
   
    rewards = []
    for _ in range( numTimes ):
        rewards.append( simulate_run( 2 , 3 , policy , rewardSet ) ) 
    return rewards

Ejemplo n.º 2

Mostrar archivo

def apply_monte_carlo_simulation(costOfLiving, numTimes):
    utilMap = UtilityMap()
    transitionModel = TransitionModel()
    rewardSet = RewardSet(costOfLiving)
    utilMap = Problem1.apply_value_iteration(utilMap, transitionModel,
                                             rewardSet)
    policy = utilMap.get_optimal_policy(transitionModel)

    rewards = []
    for _ in range(numTimes):
        rewards.append(simulate_run(2, 3, policy, rewardSet))
    return rewards

Ejemplo n.º 3

Mostrar archivo

Archivo: Problem2.py Proyecto: mjchao/Solving-Markov-Decision-Processes

def solve():
    utilMap = UtilityMap()
    transitionModel = TransitionModel()
    rewardSet = RewardSet( -0.04 )
    utilMap = Problem1.apply_value_iteration( utilMap , transitionModel , rewardSet )
    
    rewards10 = apply_monte_carlo_simulation( -0.04 , 10 )
    print "10 run mean:", sum( rewards10 ) / 10.0
    print "10 run stddev:" , numpy.std( numpy.array( rewards10 ) )
    rewards100 = apply_monte_carlo_simulation( -0.04 , 100 )
    print "100 run mean:" , sum( rewards100 ) / 100.0
    print "100 run stddev:" , numpy.std( numpy.array( rewards100 ) )
    rewards1000 = apply_monte_carlo_simulation( -0.04 , 1000 )
    print "1000 run mean:" , sum( rewards1000 ) / 1000.0
    print "1000 run stddev:" , numpy.std( numpy.array( rewards1000 ) )
    return (utilMap , rewards10 , rewards100 , rewards1000)

Ejemplo n.º 4

Mostrar archivo

def solve():
    utilMap = UtilityMap()
    transitionModel = TransitionModel()
    rewardSet = RewardSet(-0.04)
    utilMap = Problem1.apply_value_iteration(utilMap, transitionModel,
                                             rewardSet)

    rewards10 = apply_monte_carlo_simulation(-0.04, 10)
    print "10 run mean:", sum(rewards10) / 10.0
    print "10 run stddev:", numpy.std(numpy.array(rewards10))
    rewards100 = apply_monte_carlo_simulation(-0.04, 100)
    print "100 run mean:", sum(rewards100) / 100.0
    print "100 run stddev:", numpy.std(numpy.array(rewards100))
    rewards1000 = apply_monte_carlo_simulation(-0.04, 1000)
    print "1000 run mean:", sum(rewards1000) / 1000.0
    print "1000 run stddev:", numpy.std(numpy.array(rewards1000))
    return (utilMap, rewards10, rewards100, rewards1000)