Esempi in Python per Policy.set_probability

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: policy

Classe/tipologia: Policy

Metodo/funzione: set_probability

Esempi su hotexamples.com: 1

Policy.set_probability in Python: 1 esempio trovato. Questo è il miglior esempio reale in Python per policy.Policy.set_probability, estratto da progetti open source. Lo puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

Policy(30)

action_prob(20)

__init__(13)

act(12)

checkWin(6)

build_deterministic(5)

action(4)

MakeMove(3)

build(3)

CheckLegal(3)

CRAWLER_NUMBER(2)

query(2)

qFunc(2)

choose_action(2)

fromString(2)

INVALID(2)

epsilonGreedy(2)

check_policy(1)

user(1)

classifier(1)

group(1)

script(1)

set_probability(1)

APPLY_TIME_INTERVAL(1)

actions_probas_from(1)

check(1)

calculate_probs(1)

apply_accumulated_gradients(1)

add_models(1)

B(1)

action_masks(1)

_placeholders(1)

_func(1)

__getitem__(1)

W(1)

TIME_INTERVAL_ST(1)

TIME_INTERVAL_ED(1)

CRAWLER_TYPE(1)

weights(1)

Esempio n. 1

Mostra file

File: learning.py Progetto: LeoPerard/a2di

def value_iteration(mdp, gamma=0.9, epsilon=0.0001):
    states = mdp.states
    actions = mdp.actions

    policy = Policy(mdp.states, mdp.actions)
    Vcurrent = np.zeros(len(mdp.states))
    Vprevious = None
    fix_point = False
    while not fix_point:
        Vprevious = deepcopy(Vcurrent)
        for fromstate in states:
            values = []
            for action in mdp.actions:
                value = 0.
                for tostate in mdp.get_neighbors(fromstate):
                    p = mdp.get_probability(action, fromstate, tostate)
                    r = mdp.get_reward(action, fromstate, tostate)
                    v = Vprevious[tostate]
                    value += p * (r + gamma * v)
                values.append(value)
            Vcurrent[fromstate] = max(values)
            del values
        fix_point = np.linalg.norm(Vcurrent - Vprevious, np.inf) < epsilon

        for fromstate in states:
            values = []
            for action in actions:
                value = 0.
                for tostate in mdp.get_neighbors(fromstate):
                    p = mdp.get_probability(action, fromstate, tostate)
                    r = mdp.get_reward(action, fromstate, tostate)
                    v = Vcurrent[tostate]
                    value += p * (r + gamma * v)
                values.append(value)
            acts = np.argwhere(values == np.amax(values)).flatten().tolist()
            for a in acts:
                policy.set_probability(1. / len(acts), fromstate, a)
            for a in [ac for ac in actions if ac not in acts]:
                policy.set_probability(0., fromstate, a)
            del values
    return Vcurrent, policy