Python Actor.actionの例

プログラミング言語: Python

名前空間/パッケージ名: actor

クラス/型: Actor

メソッド/関数: action

hotexamples.comのコード掲載数: 3

Python Actor.action - 3件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのactor.Actor.actionの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

Actor(30)

__init__(30)

eval(11)

choose_action(4)

get_will_save(4)

get_reflex_save(4)

get_fortitude_save(4)

get_action(4)

forward(4)

draw(4)

take_damage(4)

add_movie(4)

act(3)

from_SQLiteRow(3)

action(3)

build(2)

get_actions(2)

get_base_attack_bonus(2)

get_full_attack(2)

create_actor_model(2)

copy_weights(2)

from_string(2)

characterid(2)

mat_name(1)

get_details(1)

setstate(1)

route(1)

push_task(1)

get_alignment_var(1)

get_attack_bonus(1)

get_attack_damage(1)

position(1)

get_base_attribute_score(1)

get_date_debut(1)

get_filter(1)

move_to(1)

get_first_name(1)

act_one_episode(1)

get_full_name(1)

get_rect(1)

mover(1)

_from_string(1)

move_towards(1)

has_private_parking(1)

isAlive(1)

get_action_for_train(1)

attack(1)

getArtistByid(1)

decayEligibilities(1)

build_train_op(1)

コード例 #1

ファイルを表示

ファイル: agent_q.py プロジェクト: tomo920/reinforcement_learning

class Agent:
    def __init__(self, state_size, action_size):
        self.actor = Actor(state_size, action_size)
        self.critic = Critic(state_size, action_size)
        self.state_batch = []
        self.action_batch = []
        self.next_state_batch = []
        self.reward_batch = []
        self.done_bach = []

    def choose_action(self, state):
        state = np.array([state])
        return self.actor.action(state)[0][0]

    def store(self, state, action, next_state, reward, done):
        self.state_batch.append(state)
        self.action_batch.append(action)
        self.next_state_batch.append(next_state)
        self.reward_batch.append(reward)
        self.done_bach.append(done)

    def train(self):
        state_batch = np.vstack(self.state_batch)
        action_batch = np.vstack(self.action_batch)
        next_state_batch = np.vstack(self.next_state_batch)
        reward_batch = np.vstack(self.reward_batch)
        done_bach = np.vstack(self.done_bach)
        next_action_batch = self.actor.action(next_state_batch)

        self.state_batch = []
        self.action_batch = []
        self.next_state_batch = []
        self.reward_batch = []
        self.done_bach = []

コード例 #2

ファイルを表示

class Agent:
    def __init__(self, state_size, action_size, buffer_size, minibatch_size,
                 action_high, action_low):
        sess = tf.Session()
        self.actor = Actor(sess, state_size, action_size, action_high,
                           action_low)
        self.critic = Critic(sess, state_size, action_size)
        self.noiser = OUnoise(action_size, action_high, action_low)
        self.buffer = Buffer(buffer_size)
        self.minibatch_size = minibatch_size
        self.action_high = action_high
        self.action_low = action_low
        self.training = False
        sess.run(tf.global_variables_initializer())

    def choose_action(self, state):
        state = np.array([state])
        action = self.actor.action(state)[0]
        action = action + self.noiser._noise()
        #clip
        for i, (high, low) in enumerate(zip(self.action_high,
                                            self.action_low)):
            if action[i] > high:
                action[i] = high
            elif action[i] < low:
                action[i] = low
        return action

    def train(self, transition):
        self.buffer.store(transition)
        if not self.training and len(
                self.buffer.transitions) == self.minibatch_size:
            self.training = True
        if self.training:
            minibatch = np.array(
                random.sample(self.buffer.transitions, self.minibatch_size))
            state_batch = np.vstack(minibatch[:, 0])
            action_batch = np.vstack(minibatch[:, 1])
            next_state_batch = np.vstack(minibatch[:, 2])
            reward_batch = np.vstack(minibatch[:, 3])
            done_batch = np.vstack(minibatch[:, 4])
            next_action_batch = self.actor.next_action(next_state_batch)
            q_target = reward_batch + (
                1 - done_batch) * gamma * self.critic.next_q_value(
                    next_state_batch, next_action_batch)
            self.critic.train(state_batch, action_batch, q_target)
            action_grad_batch = self.critic.action_grad(
                state_batch, self.actor.action(state_batch))
            self.actor.train(state_batch, action_grad_batch)
            self.critic.update_target()
            self.actor.update_target()

コード例 #3

ファイルを表示

ファイル: ddpg.py プロジェクト: tomo920/reinforcement_learning

class Agent:
    def __init__(self, state_size, action_size, buffer_size, minibatch_size,
                 action_high, action_low):
        sess = tf.Session()
        self.actor = Actor(sess, state_size, action_size, action_high,
                           action_low)
        self.critic = Critic(sess, state_size, action_size)
        self.noiser = OUnoise(action_size, action_high, action_low)
        self.buffer = Buffer(buffer_size)
        self.minibatch_size = minibatch_size
        self.action_high = action_high
        self.action_low = action_low
        self.action_size = action_size
        self.training = False
        self.policy_update = False
        sess.run(tf.global_variables_initializer())

    def clip_num(self, num, num_high, num_low):
        for i, (high, low) in enumerate(zip(num_high, num_low)):
            if num[i] > high:
                num[i] = high
            elif num[i] < low:
                num[i] = low
        return num

    def choose_action(self, state):
        state = np.array([state])
        action = self.actor.action(state)[0]
        action = action + self.noiser._noise()
        return self.clip_num(action, self.action_high, self.action_low)

    def train(self, transition):
        self.buffer.store(transition)
        if not self.training and len(
                self.buffer.transitions) == self.minibatch_size:
            self.training = True
        if self.training:
            minibatch = np.array(
                random.sample(self.buffer.transitions, self.minibatch_size))
            state_batch = np.vstack(minibatch[:, 0])
            action_batch = np.vstack(minibatch[:, 1])
            next_state_batch = np.vstack(minibatch[:, 2])
            reward_batch = np.vstack(minibatch[:, 3])
            done_batch = np.vstack(minibatch[:, 4])
            next_action_batch = self.actor.next_action(next_state_batch)
            next_noise = []
            for _ in range(self.minibatch_size):
                noise = sigma * np.random.randn(
                    self.action_size)  #noise for next action
                noise = self.clip_num(noise, np.array(c * self.action_size),
                                      -np.array(c * self.action_size))
                next_noise.append(noise)
            next_noise = np.vstack(next_noise)
            next_action_batch = self.clip_num(next_action_batch + next_noise,
                                              self.action_high,
                                              self.action_low)
            next_q1 = self.critic.next_q_value(self.critic.q1,
                                               next_state_batch,
                                               next_action_batch)
            next_q2 = self.critic.next_q_value(self.critic.q2,
                                               next_state_batch,
                                               next_action_batch)
            next_q = np.vstack(
                np.amin(np.concatenate([next_q1, next_q2], axis=1), axis=1))
            q_target = reward_batch + (1 - done_batch) * gamma * next_q
            self.critic.train(state_batch, action_batch, q_target)
            if self.policy_update:
                action_grad_batch = self.critic.action_grad(
                    state_batch, self.actor.action(state_batch))
                self.actor.train(state_batch, action_grad_batch)
                self.critic.update_target()
                self.actor.update_target()
                self.policy_update = False
            else:
                self.policy_update = True