Ejemplos de Actor.build en Python

Lenguaje de programación: Python

Namespace/Package Name: model

Clase / Tipo: Actor

Método / Función: build

Ejemplos en hotexamples.com: 2

Python Actor.build - 2 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de model.Actor.build extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

Actor(30)

load_state_dict(30)

eval(30)

cuda(18)

forward(15)

cpu(4)

act(4)

get_action(3)

nombre(3)

genero(2)

load(2)

build(2)

build_train_op(2)

backward(2)

nacimiento(2)

all(2)

actores(2)

load_dict(1)

load_checkpoint(1)

get_policy_action(1)

learn(1)

insert(1)

imagen(1)

id_actor(1)

model(1)

get_wsd(1)

get_weights(1)

format(1)

get_asmhd(1)

get_asinventoryd(1)

forward_with_dropout(1)

float(1)

distribution(1)

compute_loss(1)

codigo(1)

close_session(1)

choose_action(1)

build_training(1)

area(1)

apply_grad(1)

apply(1)

add_role(1)

semetre(1)

Ejemplo n.º 1

Mostrar archivo

Archivo: run_A3C.py Proyecto: xiemingtong/DQL

class Brain(object):
    def __init__(self):
        self.env = gym.make(GAME)

        self.actor = Actor(N_FEATURE, N_ACTION, A_BOUND)
        self.critic = Critic(N_FEATURE, N_ACTION)
        self.actor.build(input_shape=(None, self.actor.n_feature))
        self.critic.build(input_shape=(None, self.critic.n_feature))

    def work(self, queues_para, queues_buffer):
        self.syn_global_para()

        while True:
            for i in np.arange(N_WORKER):
                grad_ac, grad_ct = queues_buffer[i].get()
                self.actor.apply_grad(grad_ac)
                self.critic.apply_grad(grad_ct)

                para_ac = self.actor.get_weights()
                para_ct = self.critic.get_weights()
                queues_para[i].put([para_ac, para_ct])


            if GLOBAL_EPISODE.value == MAX_EPISODE:
                break

    def syn_global_para(self):
        para_ac = self.actor.get_weights()
        para_ct = self.critic.get_weights()
        for i in np.arange(N_WORKER):
            queues_para[i].put([para_ac, para_ct])

Ejemplo n.º 2

Mostrar archivo

Archivo: run_A3C.py Proyecto: xiemingtong/DQL

class Worker(object):
    def __init__(self, name):
        self.name = name
        self.env = gym.make(GAME)

        self.actor = Actor(N_FEATURE, N_ACTION, A_BOUND)
        self.critic = Critic(N_FEATURE, N_ACTION)
        self.actor.build(input_shape=(None, self.actor.n_feature))
        self.critic.build(input_shape=(None, self.critic.n_feature))

    def work(self, queue_para, queue_buffer):
        buffer_s, buffer_r, buffer_a, buffer_s_ = [], [], [], []

        ## syn_net_paras
        self.updata_para(queue_para)

        while GLOBAL_EPISODE.value < MAX_EPISODE:
            episode_reword = 0
            obsveration = self.env.reset()

            for episode_step in np.arange(1, MAX_STEP):
                if self.name == 'worker_0':
                    self.env.render()
                # self.env.render()

                obsveration = obsveration[np.newaxis, :]
                action = self.actor.choose_action(obsveration)
                obsveration_, reward, done, _ = self.env.step(action)
                done = True if episode_step == MAX_STEP - 1 else False

                obsveration = np.squeeze(obsveration)
                action = np.squeeze(action, axis=(0, 1))
                reward = np.squeeze(reward, axis=(0))
                obsveration_ = np.squeeze(obsveration_)

                episode_reword += reward
                buffer_s.append(obsveration)
                buffer_a.append(action)
                buffer_r.append((reward + 8) / 8)
                buffer_s_.append(obsveration_)

                if episode_step % UPDATE_CIRCLE == 0 or done:
                    s = tf.convert_to_tensor(buffer_s, dtype=tf.float32)
                    a = tf.convert_to_tensor(buffer_a, dtype=tf.float32)
                    r = tf.convert_to_tensor(buffer_r, dtype=tf.float32)
                    s_ = tf.convert_to_tensor(buffer_s_, dtype=tf.float32)

                    td_error, grad_ct = self.critic.compute_loss(s, r, s_)
                    grad_ac = self.actor.compute_loss(s, a, td_error)
                    queue_buffer.put([grad_ac, grad_ct])

                    self.updata_para(queue_para)

                    buffer_s.clear()
                    buffer_a.clear()
                    buffer_s_.clear()
                    buffer_r.clear()

                    if done:
                        LOCK_STEP.acquire()
                        i = GLOBAL_EPISODE.value
                        if i == 0:
                            GLOBAL_REWARD[i] = episode_reword
                        else:
                            GLOBAL_REWARD[i] = 0.9 * GLOBAL_REWARD[i - 1] + 0.1 * episode_reword
                            print('name: {}, global episode: {}, average reward: {}'.format(self.name, i,
                                                                                            GLOBAL_REWARD[i - 1]))

                        GLOBAL_EPISODE.value += 1
                        LOCK_STEP.release()
                        break

                obsveration = obsveration_

    def updata_para(self, queue_para):
        para_ac, para_ct = queue_para.get()
        self.actor.set_weights(para_ac)
        self.critic.set_weights(para_ct)