Esempi in Python per Policy.build_deterministic

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: policy

Classe/tipologia: Policy

Metodo/funzione: build_deterministic

Esempi su hotexamples.com: 5

Policy.build_deterministic in Python: 5 esempi trovati. Questi sono i migliori esempi reali in Python per policy.Policy.build_deterministic, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

Policy(30)

action_prob(20)

__init__(13)

act(12)

checkWin(6)

build_deterministic(5)

action(4)

MakeMove(3)

build(3)

CheckLegal(3)

CRAWLER_NUMBER(2)

query(2)

qFunc(2)

choose_action(2)

fromString(2)

INVALID(2)

epsilonGreedy(2)

check_policy(1)

user(1)

classifier(1)

group(1)

script(1)

set_probability(1)

APPLY_TIME_INTERVAL(1)

actions_probas_from(1)

check(1)

calculate_probs(1)

apply_accumulated_gradients(1)

add_models(1)

B(1)

action_masks(1)

_placeholders(1)

_func(1)

__getitem__(1)

W(1)

TIME_INTERVAL_ST(1)

TIME_INTERVAL_ED(1)

CRAWLER_TYPE(1)

weights(1)

Esempio n. 1

Mostra file

File: td_learning.py Progetto: obs145628/paco

def sarsa_lambda(w, alpha, lambd, nsimus, gamma):

    n = w.width  * w.height
    Q = np.zeros((n, 4))

    for k in range(1, nsimus + 1):
        w.reset()
        E = np.zeros((n, 4))
        
        s = w.player.cell.pos
        a = Policy.e_greedy_action_from_qvs(s, 1 / k, Q)
        
        while not w.finished:
            reward = w.take_action(a)
            s2 = w.player.cell.pos
            a2 = Policy.e_greedy_action_from_qvs(s2, 1 / k, Q)

            err = reward + gamma * Q[s2][a2] - Q[s][a]
            E[s][a] += 1
            
            for si in range(n):
                for ai in range(4):
                    Q[si][ai] += alpha * err * E[si][ai]
                    E[si][ai] *= gamma * lambd

            s = s2
            a = a2

    return Policy.build_deterministic(Policy.qvs_to_table(Q))

Esempio n. 2

Mostra file

    def qvs_to_policy(self, qvs):

        w = self.world
        n = w.width * w.height
        policy = [0] * n

        for s in range(n):
            policy[s] = np.argmax(qvs[s])

        return Policy.build_deterministic(policy)

Esempio n. 3

Mostra file

    def policy_iteration(self, policy=None):

        w = self.world

        if policy == None:
            policy = Policy.build_deterministic([0] * w.width * w.height)

        while True:
            old_policy = policy
            vs = self.iterative_policy_evaluation(policy, 20)
            qvs = self.qvs_from_vs(vs)
            policy = self.qvs_to_policy(qvs)
            if policy == old_policy:
                break

        return policy

Esempio n. 4

Mostra file

File: td_learning.py Progetto: obs145628/paco

def sarsa_offline(w, alpha, nsimus, gamma):

    n = w.width  * w.height
    Q = np.zeros((n, 4))

    for t in range(1, nsimus + 1):
        w.reset()
        s = w.player.cell.pos
        epsilon = 1 / t
        
        while not w.finished:
            a = Policy.e_greedy_action_from_qvs(s, epsilon, Q)
            reward = w.take_action(a)
            s2 = w.player.cell.pos

            Q[s][a] += alpha * (reward + gamma * np.max(Q[s2]) - Q[s][a])

            s = s2

    return Policy.build_deterministic(Policy.qvs_to_table(Q))

Esempio n. 5

Mostra file

File: td_learning.py Progetto: obs145628/paco

def sarsa(w, alpha, nsimus, gamma):

    n = w.width  * w.height
    Q = np.zeros((n, 4))

    for k in range(1, nsimus + 1):
        w.reset()
        s = w.player.cell.pos
        a = Policy.e_greedy_action_from_qvs(s, 1 / k, Q)
        
        while not w.finished:
            reward = w.take_action(a)
            s2 = w.player.cell.pos
            a2 = Policy.e_greedy_action_from_qvs(s2, 1 / k, Q)

            Q[s][a] += alpha * (reward + gamma * Q[s2][a2] - Q[s][a])

            s = s2
            a = a2

    return Policy.build_deterministic(Policy.qvs_to_table(Q))