Python Actor.get_actions примеры использования

Язык программирования: Python

Пространство имен/Пакет: actor

Класс/Тип: Actor

Метод/Функция: get_actions

Примеров на hotexamples.com: 2

Python Actor.get_actions - 2 примера найдено. Это лучшие примеры Python кода для actor.Actor.get_actions, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

Actor(30)

__init__(30)

eval(11)

choose_action(4)

get_will_save(4)

get_reflex_save(4)

get_fortitude_save(4)

get_action(4)

forward(4)

draw(4)

take_damage(4)

add_movie(4)

act(3)

from_SQLiteRow(3)

action(3)

build(2)

get_actions(2)

get_base_attack_bonus(2)

get_full_attack(2)

create_actor_model(2)

copy_weights(2)

from_string(2)

characterid(2)

mat_name(1)

get_details(1)

setstate(1)

route(1)

push_task(1)

get_alignment_var(1)

get_attack_bonus(1)

get_attack_damage(1)

position(1)

get_base_attribute_score(1)

get_date_debut(1)

get_filter(1)

move_to(1)

get_first_name(1)

act_one_episode(1)

get_full_name(1)

get_rect(1)

mover(1)

_from_string(1)

move_towards(1)

has_private_parking(1)

isAlive(1)

get_action_for_train(1)

attack(1)

getArtistByid(1)

decayEligibilities(1)

build_train_op(1)

Пример #1

Показать файл

Файл: actor_critic.py Проект: sarikayamehmet/AUTOMATIC_OPTIONS

class ActorCritic(object):
    def __init__(self,
                 state_dim,
                 action_dim,
                 final_activation=tf.nn.tanh,
                 action_bound=0.4,
                 training_batch_size=32,
                 GAMMA=0.95,
                 lr=0.001,
                 replay_buffer_size=1024):
        self.ID = random_string(10)
        self.state_dim = state_dim
        self.action_dim = action_dim
        self.final_activation = final_activation
        self.action_bound = action_bound
        self.GAMMA = GAMMA
        self.lr = lr
        self.replay_buffer_size = replay_buffer_size
        self.replay_buffer = ReplayBuffer(replay_buffer_size)
        self.training_batch_size = training_batch_size
        with tf.variable_scope(self.ID) as scope:
            self.actor = Actor(self.state_dim, self.action_dim,
                               self.action_bound, self.lr,
                               self.final_activation)
            self.critic = Critic(self.state_dim, self.action_dim, self.lr)

    def add_to_replay_buffer(self, state, action, reward, resulting_state):
        self.replay_buffer.add(state, action, reward, resulting_state)

    def add_batch_to_replay_buffer(self, states, actions, rewards,
                                   resulting_states):
        for s, a, r, rs in zip(states, actions, rewards, resulting_states):
            self.replay_buffer.add(s, a, r, rs)

    def get_batch(self, training_batch_size=None):
        if not training_batch_size:
            training_batch_size = self.training_batch_size
        return self.replay_buffer.sample_batch(training_batch_size)

    def train_from_replay_buffer(self, should_print=False):
        # small trouble: if it's done, you don't want to run this thing on it.
        # I takes the new state, I predict an action, I predict that pair's q val,
        # I do: reward + GAMMA*next_q_val. I then do critic.optimize_q_val
        if not self.replay_buffer.size():
            print('buffer empty!')
            return 0
        states, actions, rewards, resulting_states = self.replay_buffer.sample_batch(
            self.training_batch_size)
        predicted_action = self.actor.get_actions(resulting_states)
        predicted_vals = self.critic.predict_q_val(resulting_states,
                                                   predicted_action)
        true_vals = rewards + (self.GAMMA * predicted_vals)
        # print(true_vals[4])
        losses = self.critic.optimize_q_val(states, actions, true_vals)
        grads = self.critic.get_action_grads(states, actions)
        self.actor.train_from_batch(states, grads)
        return losses
        if should_print:
            actual_q, out = self.critic.return_q_and_out(
                states, actions, true_vals)
            print('ACTUAL_Q: {}\n\n'.format(actual_q))
            print('OUT: {}'.format(out))
        return losses

    def get_actions(self, states):
        return self.actor.get_actions(states)

Пример #2

Показать файл

    next_state = state
    if done:
        break

actor = Actor(env.action_space, env.observation_space)
critic = Critic(env.action_space, env.observation_space, actor.sess)
for ep in range(1000):
    # batch train
    total_reward = 0
    env.reset()
    action = env.action_space.sample()
    state, reward, done, _ = env.step(action)
    for _ in range(1000):
        # training
        states, actions, rewards, next_states = memory.sample(20)
        next_actions = actor.get_actions(next_states)
        next_qs = critic.get_qs(next_states, next_actions)
        loss, q = critic.train(states, actions, rewards, next_qs)
        action_gradients = critic.get_action_gradients(states, actions)
        actor.train(states, action_gradients[0])

        env.render()
        action = actor.get_action_for_train(state, ep)
        next_state, reward, done, _ = env.step(action)
        memory.add((state, action, reward, next_state))
        # print(state, action, reward, next_state)
        total_reward += reward
        # print(action, reward, total_reward)
        state = next_state
        if done:
            break