Python Policy.build_deterministicの例

プログラミング言語: Python

名前空間/パッケージ名: policy

クラス/型: Policy

メソッド/関数: build_deterministic

hotexamples.comのコード掲載数: 5

Python Policy.build_deterministic - 5件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのpolicy.Policy.build_deterministicの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

Policy(30)

action_prob(20)

__init__(13)

act(12)

checkWin(6)

build_deterministic(5)

action(4)

MakeMove(3)

build(3)

CheckLegal(3)

CRAWLER_NUMBER(2)

query(2)

qFunc(2)

choose_action(2)

fromString(2)

INVALID(2)

epsilonGreedy(2)

check_policy(1)

user(1)

classifier(1)

group(1)

script(1)

set_probability(1)

APPLY_TIME_INTERVAL(1)

actions_probas_from(1)

check(1)

calculate_probs(1)

apply_accumulated_gradients(1)

add_models(1)

B(1)

action_masks(1)

_placeholders(1)

_func(1)

__getitem__(1)

W(1)

TIME_INTERVAL_ST(1)

TIME_INTERVAL_ED(1)

CRAWLER_TYPE(1)

weights(1)

コード例 #1

ファイルを表示

ファイル: td_learning.py プロジェクト: obs145628/paco

def sarsa_lambda(w, alpha, lambd, nsimus, gamma):

    n = w.width  * w.height
    Q = np.zeros((n, 4))

    for k in range(1, nsimus + 1):
        w.reset()
        E = np.zeros((n, 4))
        
        s = w.player.cell.pos
        a = Policy.e_greedy_action_from_qvs(s, 1 / k, Q)
        
        while not w.finished:
            reward = w.take_action(a)
            s2 = w.player.cell.pos
            a2 = Policy.e_greedy_action_from_qvs(s2, 1 / k, Q)

            err = reward + gamma * Q[s2][a2] - Q[s][a]
            E[s][a] += 1
            
            for si in range(n):
                for ai in range(4):
                    Q[si][ai] += alpha * err * E[si][ai]
                    E[si][ai] *= gamma * lambd

            s = s2
            a = a2

    return Policy.build_deterministic(Policy.qvs_to_table(Q))

コード例 #2

ファイルを表示

    def qvs_to_policy(self, qvs):

        w = self.world
        n = w.width * w.height
        policy = [0] * n

        for s in range(n):
            policy[s] = np.argmax(qvs[s])

        return Policy.build_deterministic(policy)

コード例 #3

ファイルを表示

    def policy_iteration(self, policy=None):

        w = self.world

        if policy == None:
            policy = Policy.build_deterministic([0] * w.width * w.height)

        while True:
            old_policy = policy
            vs = self.iterative_policy_evaluation(policy, 20)
            qvs = self.qvs_from_vs(vs)
            policy = self.qvs_to_policy(qvs)
            if policy == old_policy:
                break

        return policy

コード例 #4

ファイルを表示

ファイル: td_learning.py プロジェクト: obs145628/paco

def sarsa_offline(w, alpha, nsimus, gamma):

    n = w.width  * w.height
    Q = np.zeros((n, 4))

    for t in range(1, nsimus + 1):
        w.reset()
        s = w.player.cell.pos
        epsilon = 1 / t
        
        while not w.finished:
            a = Policy.e_greedy_action_from_qvs(s, epsilon, Q)
            reward = w.take_action(a)
            s2 = w.player.cell.pos

            Q[s][a] += alpha * (reward + gamma * np.max(Q[s2]) - Q[s][a])

            s = s2

    return Policy.build_deterministic(Policy.qvs_to_table(Q))

コード例 #5

ファイルを表示

ファイル: td_learning.py プロジェクト: obs145628/paco

def sarsa(w, alpha, nsimus, gamma):

    n = w.width  * w.height
    Q = np.zeros((n, 4))

    for k in range(1, nsimus + 1):
        w.reset()
        s = w.player.cell.pos
        a = Policy.e_greedy_action_from_qvs(s, 1 / k, Q)
        
        while not w.finished:
            reward = w.take_action(a)
            s2 = w.player.cell.pos
            a2 = Policy.e_greedy_action_from_qvs(s2, 1 / k, Q)

            Q[s][a] += alpha * (reward + gamma * Q[s2][a2] - Q[s][a])

            s = s2
            a = a2

    return Policy.build_deterministic(Policy.qvs_to_table(Q))