Python Value.get_value примеры использования

Язык программирования: Python

Пространство имен/Пакет: value

Класс/Тип: Value

Метод/Функция: get_value

Примеров на hotexamples.com: 1

Python Value.get_value - 1 пример найден. Это лучшие примеры Python кода для value.Value.get_value, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

Value(30)

from_pointer(9)

setValue(8)

get_or_raise(5)

__init__(5)

illegal_operation(5)

notify_of_external_update(3)

set(3)

getType(2)

get_or_default(2)

load_state_dict(2)

parameters(2)

get(1)

get_value(1)

draw(1)

on(1)

print_value(1)

close_session(1)

add_value(1)

type(1)

value(1)

Пример #1

Показать файл

class ActorCritic:
    def __init__(self, env, discount):
        self.discount = discount
        self.memory = collections.deque(maxlen=MEMORY_SIZE)
        self.policy = Policy(env, HIDDEN_UNITS)
        self.value = Value(env, HIDDEN_UNITS)

    def get_action(self, s, sess):
        return self.policy.get_action(s, sess)

    def get_value(self, s, sess):
        return self.value.get_value(s, sess)

    def on_reward(self, s, a, r, s_, done):
        self.memory.append((s, a, r, s_, done))

    def train(self, lr_policy, lr_value, sess):
        batch_size = min(len(self.memory), BATCH_SIZE)
        samples = random.sample(self.memory, batch_size)

        ss = np.zeros(shape=[batch_size, 2])
        ss_ = np.zeros(shape=[batch_size, 2])
        acts = np.zeros(shape=[batch_size, 1])
        for i, (s, a, r, s_, done) in enumerate(samples):
            ss[i] = s
            ss_[i] = s_
            acts[i] = a

        pvs = self.value.get_value(ss, sess)
        vs_ = self.value.get_value(ss_, sess)

        vs = np.zeros(shape=[batch_size, 1])
        advantages = np.zeros(shape=[batch_size, 1])
        for i, (s, a, r, s_, done) in enumerate(samples):
            vs[i] = r
            if not done:
                vs[i] += self.discount * vs_[i]
        advantages = vs - pvs

        self.value.train(ss, vs, lr_value, sess)
        self.policy.train(ss, acts, advantages, lr_policy, sess)