Python rm_policy 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: tf_contextual_prediction_with_expert_advice

메소드/함수: rm_policy

hotexamples.com에서의 예제들: 9

Python rm_policy - 9개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 tf_contextual_prediction_with_expert_advice.rm_policy에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

def rrm_loss(regrets, action_utilities, ignore_negative_regrets=True):
    regrets = tf.convert_to_tensor(regrets)
    return rrm_loss_given_policy(
        regrets,
        rm_policy(regrets),
        action_utilities,
        ignore_negative_regrets=ignore_negative_regrets)

예제 #2

파일 보기

파일: rrm.py 프로젝트: dmorrill10/research2018

    def __init__(self,
                 *args,
                 softmax_temperatures=[],
                 use_cumulative_values=False,
                 **kwargs):
        def f(temp):
            def g(z):
                return tf.nn.softmax(z[:, :-1] /
                                     self._adjusted_temperature(temp))

        policies = ([lambda z: cpea.rm_policy(z[:, :-1] - z[:, -1:])] +
                    list(map(f), softmax_temperatures))
        super(SplitRrm, self).__init__(policies, *args, **kwargs)

예제 #3

파일 보기

파일: rrm.py 프로젝트: dmorrill10/research2018

    def loss(self, predictions, policy, cfv):
        q, v = predictions[:, :-1], predictions[:, -1:]
        r = q - v

        pi_rm = cpea.rm_policy(r)

        q_diffs = tf.square(q - cfv)
        q_loss = tf.reduce_mean(tf.reduce_sum(q_diffs, axis=1)) / 2.0

        ev = tf.stop_gradient(tf.reduce_sum(cfv * pi_rm, axis=1,
                                            keepdims=True))

        v_loss = tf.reduce_mean(tf.square(v - ev)) / 2.0
        return q_loss + v_loss

예제 #4

파일 보기

def rrm_utilities(model, contexts, action_utilities):
    return utility(rm_policy(model(contexts)), action_utilities)

예제 #5

파일 보기

 def policy_activation(self, pre_activations):
     return rm_policy(pre_activations)

예제 #6

파일 보기

파일: rrm.py 프로젝트: dmorrill10/research2018

 def meta_policy(self):
     return cpea.rm_policy(self.meta_qregrets)

예제 #7

파일 보기

파일: rrm.py 프로젝트: dmorrill10/research2018

 def loss(self, predictions, policy, cfv):
     r = tf.stop_gradient(
         cpea.rm_policy(cfv -
                        tf.reduce_sum(cfv * policy, axis=1, keepdims=True)))
     error = tf.square(r - predictions) / 2.0
     return tf.reduce_mean(tf.reduce_sum(error, axis=1))

예제 #8

파일 보기

파일: rrm.py 프로젝트: dmorrill10/research2018

 def loss(self, predictions, policy, cfv):
     r = tf.stop_gradient(
         cpea.rm_policy(cfv -
                        tf.reduce_sum(cfv * policy, axis=1, keepdims=True)))
     log_policy = tf.log(tf.clip_by_value(policy, 1e-15, 1 - 1e-15))
     return -tf.reduce_mean(tf.reduce_sum(r * log_policy, axis=1))

예제 #9

파일 보기

파일: rrm.py 프로젝트: dmorrill10/research2018

 def loss(self, predictions, policy, cfv):
     pi = cpea.rm_policy(predictions)
     inst_r = cfv - cpea.utility(pi, cfv)
     inst_q = tf.stop_gradient(tf.maximum(inst_r, -tf.nn.relu(predictions)))
     return tf.reduce_mean(
         tf.reduce_sum(tf.square(predictions - inst_q), axis=1)) / 2.0