Python Actor.build_train_op 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: model

클래스/타입: Actor

메소드/함수: build_train_op

hotexamples.com에서의 예제들: 2

Python Actor.build_train_op - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 model.Actor.build_train_op에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Actor(30)

load_state_dict(30)

eval(30)

cuda(18)

forward(15)

cpu(4)

act(4)

get_action(3)

nombre(3)

genero(2)

load(2)

build(2)

build_train_op(2)

backward(2)

nacimiento(2)

all(2)

actores(2)

load_dict(1)

load_checkpoint(1)

get_policy_action(1)

learn(1)

insert(1)

imagen(1)

id_actor(1)

model(1)

get_wsd(1)

get_weights(1)

format(1)

get_asmhd(1)

get_asinventoryd(1)

forward_with_dropout(1)

float(1)

distribution(1)

compute_loss(1)

codigo(1)

close_session(1)

choose_action(1)

build_training(1)

area(1)

apply_grad(1)

apply(1)

add_role(1)

semetre(1)

예제 #1

파일 보기

class Agent(object):
    def __init__(self, sess, hps, rm):
        self.sess = sess
        self.hps = hps
        self.rm = rm
        self.ou = OrnsteinUhlenbeck(hps['a_dim'])
        self.gamma = hps['gamma']
        self.tau = hps['tau']
        self.a_bound = hps['a_bound']
        self.noise_decay = hps['noise_decay']

        self.actor = Actor(self.sess, self.hps, 'actor', trainable=True)
        self.actor_target = Actor(self.sess,
                                  self.hps,
                                  'actor_target',
                                  trainable=False)
        self.critic = Critic(self.sess, self.hps, 'critic', trainable=True)
        self.critic_target = Critic(self.sess,
                                    self.hps,
                                    'critic_target',
                                    trainable=False)

        self.critic.build_train_op(self.actor, 'critic')
        self.actor.build_train_op(self.critic, 'actor')

        self.actor_soft_update_op = build_soft_update_op(
            self.sess, 'actor_target', 'actor', self.tau)
        self.critic_soft_update_op = build_soft_update_op(
            self.sess, 'critic_target', 'critic', self.tau)

    def explore(self, state, i):
        action = self.actor.act(state)
        # action += ( self.ou.sample() * self.a_bound * self.noise_decay ** i )
        action += (self.ou.sample() * self.noise_decay**i)
        return action

    def exploit(self, state):
        action = self.actor.act(state)
        return action

    def learn(self):
        s1, a1, r1, s2 = self.rm.sample()

        # Optimize critic
        a2 = self.actor_target.act(s2)
        q2 = self.critic_target.predict(s2, a2)
        y1 = r1 + self.gamma * q2
        loss, _ = self.critic.backward(s1, a1, y1)

        # Optimize actor
        loss, _ = self.actor.backward(s1)

        self.sess.run(self.actor_soft_update_op)
        self.sess.run(self.critic_soft_update_op)

예제 #2

파일 보기

파일: ddpg.py 프로젝트: anthnyprschka/py-simspark-agent

class DDPGAgent(BaseAgent):
    def __init__(self, sess, hps, rm):

        # TODO: Here muss ich vermutlich auch noch die Parameter
        # für den BaseAgent einfügen
        super(DDPGAgent, self).__init__()

        self.sess = sess
        self.hps = hps
        self.rm = rm
        self.ou = OrnsteinUhlenbeck(hps['a_dim'])
        self.gamma = hps['gamma']
        self.tau = hps['tau']
        self.a_bound = hps['a_bound']
        self.noise_decay = hps['noise_decay']

        self.actor = Actor(self.sess, self.hps, 'actor', trainable=True)
        self.actor_target = Actor(self.sess,
                                  self.hps,
                                  'actor_target',
                                  trainable=False)
        self.critic = Critic(self.sess, self.hps, 'critic', trainable=True)
        self.critic_target = Critic(self.sess,
                                    self.hps,
                                    'critic_target',
                                    trainable=False)

        self.critic.build_train_op(self.actor, 'critic')
        self.actor.build_train_op(self.critic, 'actor')

        self.actor_soft_update_op = build_soft_update_op(
            self.sess, 'actor_target', 'actor', self.tau)
        self.critic_soft_update_op = build_soft_update_op(
            self.sess, 'critic_target', 'critic', self.tau)

    def explore(self, state, i):
        action = self.actor.act(state)
        # action += ( self.ou.sample() * self.a_bound * self.noise_decay ** i )
        action += (self.ou.sample() * self.noise_decay**i)
        return action

    def exploit(self, state):
        action = self.actor.act(state)
        return action

    def think(self, state, i):
        if self.hps['mode'] == 'training':
            self.explore(state, i)
        else:
            self.exploit(state)

    def learn(self):
        s1, a1, r1, s2 = self.rm.sample()

        # Optimize critic
        a2 = self.actor_target.act(s2)
        q2 = self.critic_target.predict(s2, a2)
        y1 = r1 + self.gamma * q2
        loss, _ = self.critic.backward(s1, a1, y1)

        # Optimize actor
        loss, _ = self.actor.backward(s1)

        self.sess.run(self.actor_soft_update_op)
        self.sess.run(self.critic_soft_update_op)