Ejemplo n.º 1
0
 def p_r__aseq(self, a_seq, beta=1):  # P(r | a)
     pos = self.agent
     p_move__item = np.ones((1, len(self.items)))
     for a in a_seq:
         p_move__item *= self._p_move__item(pos, beta)[[a]]
         pos = pos + self.move_action.actions[a]
     prob = np.dot(p_move__item, self.p_item__reward)
     return probutil.normalized_2d_array(prob, 1)[0]
Ejemplo n.º 2
0
 def p_dist_a__r(self, s=None, beta=1):  # P(r | a)
     s = self.agent if s is None else s
     p_move__item = self._p_move__item(s, beta)
     prob = np.dot(p_move__item, self.p_item__reward)
     return probutil.normalized_2d_array(prob, 0)
Ejemplo n.º 3
0
 def p_aseq__r(self, beta=1):  # P(r | a)
     p_move__item = self._p_move__item(self.agent, beta)
     prob = np.dot(p_move__item, self.p_item__reward)
     return probutil.normalized_2d_array(prob, 1)
Ejemplo n.º 4
0
 def p_r__a(self, beta=1):  # P(r | a)
     return probutil.normalized_2d_array(self.p_item__reward, 1)