Python rm_policy示例

编程语言: Python

命名空间/包名称: tf_contextual_prediction_with_expert_advice

方法/功能: rm_policy

hotexamples.com的示例: 9

Python rm_policy - 已找到9个示例。这些是从开源项目中提取的最受好评的tf_contextual_prediction_with_expert_advice.rm_policy现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

def rrm_loss(regrets, action_utilities, ignore_negative_regrets=True):
    regrets = tf.convert_to_tensor(regrets)
    return rrm_loss_given_policy(
        regrets,
        rm_policy(regrets),
        action_utilities,
        ignore_negative_regrets=ignore_negative_regrets)

示例#2

显示文件

文件： rrm.py 项目： dmorrill10/research2018

    def __init__(self,
                 *args,
                 softmax_temperatures=[],
                 use_cumulative_values=False,
                 **kwargs):
        def f(temp):
            def g(z):
                return tf.nn.softmax(z[:, :-1] /
                                     self._adjusted_temperature(temp))

        policies = ([lambda z: cpea.rm_policy(z[:, :-1] - z[:, -1:])] +
                    list(map(f), softmax_temperatures))
        super(SplitRrm, self).__init__(policies, *args, **kwargs)

示例#3

显示文件

文件： rrm.py 项目： dmorrill10/research2018

    def loss(self, predictions, policy, cfv):
        q, v = predictions[:, :-1], predictions[:, -1:]
        r = q - v

        pi_rm = cpea.rm_policy(r)

        q_diffs = tf.square(q - cfv)
        q_loss = tf.reduce_mean(tf.reduce_sum(q_diffs, axis=1)) / 2.0

        ev = tf.stop_gradient(tf.reduce_sum(cfv * pi_rm, axis=1,
                                            keepdims=True))

        v_loss = tf.reduce_mean(tf.square(v - ev)) / 2.0
        return q_loss + v_loss

示例#4

显示文件

def rrm_utilities(model, contexts, action_utilities):
    return utility(rm_policy(model(contexts)), action_utilities)

示例#5

显示文件

 def policy_activation(self, pre_activations):
     return rm_policy(pre_activations)

示例#6

显示文件

文件： rrm.py 项目： dmorrill10/research2018

 def meta_policy(self):
     return cpea.rm_policy(self.meta_qregrets)

示例#7

显示文件

文件： rrm.py 项目： dmorrill10/research2018

 def loss(self, predictions, policy, cfv):
     r = tf.stop_gradient(
         cpea.rm_policy(cfv -
                        tf.reduce_sum(cfv * policy, axis=1, keepdims=True)))
     error = tf.square(r - predictions) / 2.0
     return tf.reduce_mean(tf.reduce_sum(error, axis=1))

示例#8

显示文件

文件： rrm.py 项目： dmorrill10/research2018

 def loss(self, predictions, policy, cfv):
     r = tf.stop_gradient(
         cpea.rm_policy(cfv -
                        tf.reduce_sum(cfv * policy, axis=1, keepdims=True)))
     log_policy = tf.log(tf.clip_by_value(policy, 1e-15, 1 - 1e-15))
     return -tf.reduce_mean(tf.reduce_sum(r * log_policy, axis=1))

示例#9

显示文件

文件： rrm.py 项目： dmorrill10/research2018

 def loss(self, predictions, policy, cfv):
     pi = cpea.rm_policy(predictions)
     inst_r = cfv - cpea.utility(pi, cfv)
     inst_q = tf.stop_gradient(tf.maximum(inst_r, -tf.nn.relu(predictions)))
     return tf.reduce_mean(
         tf.reduce_sum(tf.square(predictions - inst_q), axis=1)) / 2.0