Exemple #1
0
output_layer_size = 9  # кол-во возможных действий агента
learning_rate = 0.01  # фактор обучения
gamma = 0.5  # фактор дисконтирования
delta = 0.0001  # коэффициент уменьшения learning_rate
batch_size = 10  # размер пакета обучения: сколько игр нужно отыграть для начала анализа
decay_rate = 0.95  # коэффициент затухания для RMSProp leaky суммы квадрата градиента

agent_manager = AgentManager(
    # server_helper_creators=list(map(lambda hash_id: lambda: ServerHelperExamination(hash_id), hash_ids)),
    server_helper_creators=(
        (lambda: [lambda: ServerHelperTournament(user_id, tournament_id)],
         lambda: [])[tournament_id == 0]()) +
    ((lambda: [lambda: ServerHelperExamination(hash_id)],
      lambda: [])[hash_id == 0]()) + ((lambda: list(
          map(
              lambda map_number: lambda: ServerHelperTraining(
                  user_id, case_id, map_number), map_numbers)),
                                       lambda: [])[case_id == 0]()),
    attempts_count=50,
    file_name=file_name,
    input_layer_size=input_layer_size,
    hidden_layer_size=hidden_layer_size,
    output_layer_size=output_layer_size,
    learning_rate=learning_rate,
    gamma=gamma,
    delta=delta,
    batch_size=batch_size,
    decay_rate=decay_rate)

agent_manager.check(iteration_count=1)