Esempi in Python per run_seq2slate_tsp

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: reagent.test.ranking.seq2slate_utils

Metodo/funzione: run_seq2slate_tsp

Esempi su hotexamples.com: 2

run_seq2slate_tsp in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per reagent.test.ranking.seq2slate_utils.run_seq2slate_tsp, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Esempio n. 1

Mostra file

File: test_seq2slate_simulation.py Progetto: vishalbelsare/Horizon

 def test_seq2slate_transformer_simulation_hard_tsp(self):
     """
     Solve Traveling Salesman Problem. Data comes from multiple sets of cities.
     """
     device = torch.device("cuda")
     batch_size = 4096
     epochs = 8
     num_batches = 300
     expect_reward_threshold = 1.02
     hidden_size = 32
     num_candidates = 6
     diverse_input = True
     learning_rate = 0.001
     learning_method = SIMULATION
     policy_gradient_interval = 1
     run_seq2slate_tsp(
         MODEL_TRANSFORMER,
         batch_size,
         epochs,
         num_candidates,
         num_batches,
         hidden_size,
         diverse_input,
         learning_rate,
         expect_reward_threshold,
         learning_method,
         policy_gradient_interval,
         device,
     )

Esempio n. 2

Mostra file

 def test_seq2slate_transformer_off_policy_simple_tsp(self):
     """
     Solve Traveling Salesman Problem. Data comes from one set of nodes (cities).
     """
     device = torch.device("cpu")
     batch_size = 4096
     epochs = 1
     num_batches = 100
     expect_reward_threshold = 1.02
     hidden_size = 32
     num_candidates = 6
     diverse_input = False
     learning_rate = 0.001
     learning_method = OFF_POLICY
     policy_gradient_interval = 1
     run_seq2slate_tsp(
         MODEL_TRANSFORMER,
         batch_size,
         epochs,
         num_candidates,
         num_batches,
         hidden_size,
         diverse_input,
         learning_rate,
         expect_reward_threshold,
         learning_method,
         policy_gradient_interval,
         device,
     )