Python SelfPlay.evaluate_policy примеры использования

Язык программирования: Python

Пространство имен/Пакет: games.algos.self_play

Класс/Тип: SelfPlay

Метод/Функция: evaluate_policy

Примеров на hotexamples.com: 2

Python SelfPlay.evaluate_policy - 2 примера найдено. Это лучшие примеры Python кода для games.algos.self_play.SelfPlay.evaluate_policy, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

train_model(2)

evaluate_policy(2)

SelfPlay(1)

Пример #1

Показать файл

def resume_self_play():
    env = TicTacToeEnv()
    saves = [f for f in listdir(save_dir) if isfile(join(save_dir, f))]
    recent_file = max(saves)
    policy = EpsilonGreedy(QConvTicTacToe(env), 0)
    opposing_policy = EpsilonGreedy(QConvTicTacToe(env), 1)
    self_play = SelfPlay(policy, opposing_policy)
    policy.q.policy_net.load_state_dict(torch.load(join(save_dir, recent_file)))
    self_play.evaluate_policy(100)

Пример #2

Показать файл

def resume_self_play():
    env = Connect4Env()
    saves = [f for f in listdir(save_dir) if isfile(join(save_dir, f))]
    recent_file = max(saves)
    policy = EpsilonGreedy(QLinear(env), 0)
    opposing_policy = EpsilonGreedy(QLinear(env), 0)  # Acts greedily
    self_play = SelfPlay(policy, opposing_policy)
    policy.q.policy_net.load_state_dict(torch.load(join(save_dir, recent_file)))
    self_play.evaluate_policy(100)