Python Actor.get_actions 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: actor

클래스/타입: Actor

메소드/함수: get_actions

hotexamples.com에서의 예제들: 2

Python Actor.get_actions - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 actor.Actor.get_actions에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Actor(30)

__init__(30)

eval(11)

choose_action(4)

get_will_save(4)

get_reflex_save(4)

get_fortitude_save(4)

get_action(4)

forward(4)

draw(4)

take_damage(4)

add_movie(4)

act(3)

from_SQLiteRow(3)

action(3)

build(2)

get_actions(2)

get_base_attack_bonus(2)

get_full_attack(2)

create_actor_model(2)

copy_weights(2)

from_string(2)

characterid(2)

mat_name(1)

get_details(1)

setstate(1)

route(1)

push_task(1)

get_alignment_var(1)

get_attack_bonus(1)

get_attack_damage(1)

position(1)

get_base_attribute_score(1)

get_date_debut(1)

get_filter(1)

move_to(1)

get_first_name(1)

act_one_episode(1)

get_full_name(1)

get_rect(1)

mover(1)

_from_string(1)

move_towards(1)

has_private_parking(1)

isAlive(1)

get_action_for_train(1)

attack(1)

getArtistByid(1)

decayEligibilities(1)

build_train_op(1)

예제 #1

파일 보기

파일: actor_critic.py 프로젝트: sarikayamehmet/AUTOMATIC_OPTIONS

class ActorCritic(object):
    def __init__(self,
                 state_dim,
                 action_dim,
                 final_activation=tf.nn.tanh,
                 action_bound=0.4,
                 training_batch_size=32,
                 GAMMA=0.95,
                 lr=0.001,
                 replay_buffer_size=1024):
        self.ID = random_string(10)
        self.state_dim = state_dim
        self.action_dim = action_dim
        self.final_activation = final_activation
        self.action_bound = action_bound
        self.GAMMA = GAMMA
        self.lr = lr
        self.replay_buffer_size = replay_buffer_size
        self.replay_buffer = ReplayBuffer(replay_buffer_size)
        self.training_batch_size = training_batch_size
        with tf.variable_scope(self.ID) as scope:
            self.actor = Actor(self.state_dim, self.action_dim,
                               self.action_bound, self.lr,
                               self.final_activation)
            self.critic = Critic(self.state_dim, self.action_dim, self.lr)

    def add_to_replay_buffer(self, state, action, reward, resulting_state):
        self.replay_buffer.add(state, action, reward, resulting_state)

    def add_batch_to_replay_buffer(self, states, actions, rewards,
                                   resulting_states):
        for s, a, r, rs in zip(states, actions, rewards, resulting_states):
            self.replay_buffer.add(s, a, r, rs)

    def get_batch(self, training_batch_size=None):
        if not training_batch_size:
            training_batch_size = self.training_batch_size
        return self.replay_buffer.sample_batch(training_batch_size)

    def train_from_replay_buffer(self, should_print=False):
        # small trouble: if it's done, you don't want to run this thing on it.
        # I takes the new state, I predict an action, I predict that pair's q val,
        # I do: reward + GAMMA*next_q_val. I then do critic.optimize_q_val
        if not self.replay_buffer.size():
            print('buffer empty!')
            return 0
        states, actions, rewards, resulting_states = self.replay_buffer.sample_batch(
            self.training_batch_size)
        predicted_action = self.actor.get_actions(resulting_states)
        predicted_vals = self.critic.predict_q_val(resulting_states,
                                                   predicted_action)
        true_vals = rewards + (self.GAMMA * predicted_vals)
        # print(true_vals[4])
        losses = self.critic.optimize_q_val(states, actions, true_vals)
        grads = self.critic.get_action_grads(states, actions)
        self.actor.train_from_batch(states, grads)
        return losses
        if should_print:
            actual_q, out = self.critic.return_q_and_out(
                states, actions, true_vals)
            print('ACTUAL_Q: {}\n\n'.format(actual_q))
            print('OUT: {}'.format(out))
        return losses

    def get_actions(self, states):
        return self.actor.get_actions(states)

예제 #2

파일 보기

    next_state = state
    if done:
        break

actor = Actor(env.action_space, env.observation_space)
critic = Critic(env.action_space, env.observation_space, actor.sess)
for ep in range(1000):
    # batch train
    total_reward = 0
    env.reset()
    action = env.action_space.sample()
    state, reward, done, _ = env.step(action)
    for _ in range(1000):
        # training
        states, actions, rewards, next_states = memory.sample(20)
        next_actions = actor.get_actions(next_states)
        next_qs = critic.get_qs(next_states, next_actions)
        loss, q = critic.train(states, actions, rewards, next_qs)
        action_gradients = critic.get_action_gradients(states, actions)
        actor.train(states, action_gradients[0])

        env.render()
        action = actor.get_action_for_train(state, ep)
        next_state, reward, done, _ = env.step(action)
        memory.add((state, action, reward, next_state))
        # print(state, action, reward, next_state)
        total_reward += reward
        # print(action, reward, total_reward)
        state = next_state
        if done:
            break