Esempi in Python per compute_tabular_value

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: pyrl.algorithms.valueiter

Metodo/funzione: compute_tabular_value

Esempi su hotexamples.com: 3

compute_tabular_value in Python: 3 esempi trovati. Questi sono i migliori esempi reali in Python per pyrl.algorithms.valueiter.compute_tabular_value, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Esempio n. 1

Mostra file

File: evaluate.py Progetto: txd866/rl-curriculum

def reward_tabular_normalized(policy, task, tol=1e-4):
    '''
    compute the expected reward / reward by value iteration
    averaged over states.
    '''
    gtV = compute_tabular_value(task, tol) # ground truth values by value iteration.
    V = reward_tabular(policy, task, tol)
    return V / gtV

Esempio n. 2

Mostra file

File: evaluate.py Progetto: txd866/rl-curriculum

def expected_reward_tabular_normalized(policy, task, tol=1e-4):
    '''
    compute the expected reward / reward by value iteration
    averaged over states.
    '''
    gtV = compute_tabular_value(task, tol) # ground truth values by value iteration.
    V = reward_tabular(policy, task, tol)
    rewards = [V[state] / gtV[state] for state in task.get_valid_states()]
    return np.mean(rewards)

Esempio n. 3

Mostra file

File: evaluate.py Progetto: txd866/rl-curriculum

def reward_tabular_normalized_fix_start(policy, task, tol=1e-4):
    '''
    compute the expected reward / reward by value iteration
    averaged over states.
    '''
    states = [task.start_state]
    gtV = compute_tabular_value(task, tol) # ground truth values by value iteration.
    V = reward_tabular(policy, task, tol)
    rewards = {state: V[state] / gtV[state] for state in task.get_valid_states()}
    return np.mean([rewards[state] for state in states])