Python EpsilonGreedyPolicy.take_action示例

编程语言: Python

命名空间/包名称: policy

方法/功能: take_action

hotexamples.com的示例: 1

Python EpsilonGreedyPolicy.take_action - 已找到1个示例。这些是从开源项目中提取的最受好评的policy.EpsilonGreedyPolicy.take_action现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

EpsilonGreedyPolicy(10)

action_probability(1)

epsilon(1)

getActions(1)

getNextAction(1)

n(1)

take_action(1)

updateQ(1)

示例#1

显示文件

文件： train.py 项目： gabrielhuang/connectfour

def q_learn(board_prototype, nepisodes, alpha, gamma, epsilon):
    '''
    Q-Learning using Epsilon-greedy policy
    http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node65.html
    '''
    global Q
    Q = {}
    for episode in xrange(nepisodes):
        # Create empty board with right size
        board = board_prototype.clone()
        for i in range(board.ncols()*board.nrows()):
            q_greedy_policy = QGreedyPolicy(Q)
            eps_greedy_policy = EpsilonGreedyPolicy(q_greedy_policy, epsilon)
            
            color = Board.BLACK if i%2 else Board.RED
            
            old_state = board.to_tuple()      # s
            
            if color == Board.RED:
                board.flip()
            action = eps_greedy_policy.take_action(board) # a
            winner = board.play(color, action)
            reward = get_reward(board, we_are=Board.BLACK) # r_t
            if color == Board.RED:
                board.flip()            
            
            new_state = board.to_tuple()         # s'
            
            Q.setdefault(old_state, {})
            Q[old_state].setdefault(action, 0.)
            current = Q[old_state][action] # Q(s,a)

            Q.setdefault(new_state, {})
            best = max_action(Q[new_state], value_if_empty=0.) # max_a Q(s',a)
            
            # Q(s,a) <- Q(s,a) + alpha * (r_t + gamma * max_a Q(s',a) - Q(s,a))
            Q[old_state][action] = current + alpha * (reward + gamma * best - current)
            if winner != Board.EMPTY:
                break 
    return Q