Python EpsilonGreedyPolicy примеры использования

Язык программирования: Python

Пространство имен/Пакет: policies

Класс/Тип: EpsilonGreedyPolicy

Примеров на hotexamples.com: 1

Python EpsilonGreedyPolicy - 1 пример найден. Это лучшие примеры Python кода для policies.EpsilonGreedyPolicy, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

EpsilonGreedyPolicy(12)

select_action(4)

act(1)

action(1)

random_action(1)

update_epsilon(1)

Пример #1

Показать файл

e0 = 0.90
e1 = 0.10
decay_fun = sch_exp_decay
cos_ann = True
ann_cyc = 5

schedule = Schedule(t0,
                    t1,
                    e0,
                    e1,
                    decay_fun,
                    cosine_annealing=cos_ann,
                    annealing_cycles=ann_cyc)

# Policy
policy = EpsilonGreedyPolicy(schedule=schedule, value_function=Q)

# Reward Function
reward_fun = rf_info2d_pos

# Action Pre/Post-Processing Action
act_fun = act_disc2cont

# Agent
lr = 1e-4
gamma = 0.99
doubleQ = True  # Run doubleQ-DQN sampling from Q_target and bootstraping from Q
rb = True
rb_max_size = 1e6
rb_batch_size = 64
tau = 0.1