Python Critic.build_train_opの例

プログラミング言語: Python

名前空間/パッケージ名: model

クラス/型: Critic

メソッド/関数: build_train_op

hotexamples.comのコード掲載数: 2

Python Critic.build_train_op - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのmodel.Critic.build_train_opの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

Critic(30)

eval(30)

state_dict(30)

parameters(30)

load_state_dict(30)

zero_grad(22)

cuda(20)

forward(18)

train(16)

to(6)

cpu(4)

apply(4)

predict(4)

get_action_gradients(3)

save(3)

reset_parameters(3)

build_train_op(2)

model(2)

update(2)

to_gpu(2)

named_parameters(2)

backward(2)

load_dict(2)

Q1(2)

build(2)

get_asmhd(1)

update_target_network(1)

compute_loss(1)

forward_with_dropout(1)

get_asinventoryd(1)

target_predict(1)

set_weights(1)

share_memory(1)

build_training(1)

save_checkpoint(1)

get_value(1)

get_weights(1)

get_wsd(1)

apply_grad(1)

load_checkpoint(1)

load(1)

コード例 #1

ファイルを表示

class Agent(object):
    def __init__(self, sess, hps, rm):
        self.sess = sess
        self.hps = hps
        self.rm = rm
        self.ou = OrnsteinUhlenbeck(hps['a_dim'])
        self.gamma = hps['gamma']
        self.tau = hps['tau']
        self.a_bound = hps['a_bound']
        self.noise_decay = hps['noise_decay']

        self.actor = Actor(self.sess, self.hps, 'actor', trainable=True)
        self.actor_target = Actor(self.sess,
                                  self.hps,
                                  'actor_target',
                                  trainable=False)
        self.critic = Critic(self.sess, self.hps, 'critic', trainable=True)
        self.critic_target = Critic(self.sess,
                                    self.hps,
                                    'critic_target',
                                    trainable=False)

        self.critic.build_train_op(self.actor, 'critic')
        self.actor.build_train_op(self.critic, 'actor')

        self.actor_soft_update_op = build_soft_update_op(
            self.sess, 'actor_target', 'actor', self.tau)
        self.critic_soft_update_op = build_soft_update_op(
            self.sess, 'critic_target', 'critic', self.tau)

    def explore(self, state, i):
        action = self.actor.act(state)
        # action += ( self.ou.sample() * self.a_bound * self.noise_decay ** i )
        action += (self.ou.sample() * self.noise_decay**i)
        return action

    def exploit(self, state):
        action = self.actor.act(state)
        return action

    def learn(self):
        s1, a1, r1, s2 = self.rm.sample()

        # Optimize critic
        a2 = self.actor_target.act(s2)
        q2 = self.critic_target.predict(s2, a2)
        y1 = r1 + self.gamma * q2
        loss, _ = self.critic.backward(s1, a1, y1)

        # Optimize actor
        loss, _ = self.actor.backward(s1)

        self.sess.run(self.actor_soft_update_op)
        self.sess.run(self.critic_soft_update_op)

コード例 #2

ファイルを表示

ファイル: ddpg.py プロジェクト: anthnyprschka/py-simspark-agent

class DDPGAgent(BaseAgent):
    def __init__(self, sess, hps, rm):

        # TODO: Here muss ich vermutlich auch noch die Parameter
        # für den BaseAgent einfügen
        super(DDPGAgent, self).__init__()

        self.sess = sess
        self.hps = hps
        self.rm = rm
        self.ou = OrnsteinUhlenbeck(hps['a_dim'])
        self.gamma = hps['gamma']
        self.tau = hps['tau']
        self.a_bound = hps['a_bound']
        self.noise_decay = hps['noise_decay']

        self.actor = Actor(self.sess, self.hps, 'actor', trainable=True)
        self.actor_target = Actor(self.sess,
                                  self.hps,
                                  'actor_target',
                                  trainable=False)
        self.critic = Critic(self.sess, self.hps, 'critic', trainable=True)
        self.critic_target = Critic(self.sess,
                                    self.hps,
                                    'critic_target',
                                    trainable=False)

        self.critic.build_train_op(self.actor, 'critic')
        self.actor.build_train_op(self.critic, 'actor')

        self.actor_soft_update_op = build_soft_update_op(
            self.sess, 'actor_target', 'actor', self.tau)
        self.critic_soft_update_op = build_soft_update_op(
            self.sess, 'critic_target', 'critic', self.tau)

    def explore(self, state, i):
        action = self.actor.act(state)
        # action += ( self.ou.sample() * self.a_bound * self.noise_decay ** i )
        action += (self.ou.sample() * self.noise_decay**i)
        return action

    def exploit(self, state):
        action = self.actor.act(state)
        return action

    def think(self, state, i):
        if self.hps['mode'] == 'training':
            self.explore(state, i)
        else:
            self.exploit(state)

    def learn(self):
        s1, a1, r1, s2 = self.rm.sample()

        # Optimize critic
        a2 = self.actor_target.act(s2)
        q2 = self.critic_target.predict(s2, a2)
        y1 = r1 + self.gamma * q2
        loss, _ = self.critic.backward(s1, a1, y1)

        # Optimize actor
        loss, _ = self.actor.backward(s1)

        self.sess.run(self.actor_soft_update_op)
        self.sess.run(self.critic_soft_update_op)