Ejemplos de Agent.Chooser en Python

Lenguaje de programación: Python

Clase / Tipo: Agent

Método / Función: Chooser

Ejemplos en hotexamples.com: 2

Python Agent.Chooser - 2 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de Agent.Chooser de paquete cleanrl extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

Agent(30)

AlphaBetaAgent(6)

AgentFactory(4)

ACPGAg(2)

Chooser(2)

Brain(2)

CFAgent(2)

Agent_PG(1)

consumption_value_low(1)

runAwayBehaviour(1)

production_value(1)

placeall(1)

make(1)

deserializeAgent(1)

createAgentList(1)

consumption_value_high(1)

AgentTool(1)

CopyToTargetNetwork(1)

ActionValue(1)

AbsorbSample(1)

AgentQLearn(1)

BS_Agent(1)

AlphabetaAgent(1)

scriptedBehaviour(1)

Ejemplo n.º 1

Mostrar archivo

    'exploration': 0
})
num_episodes = 10 * 1000
max_step_in_one_episode = 1000000000
update_freq = 4
num_pre_train = 1000
save_mode_per_episode = 1000

tf.reset_default_graph()

env = bird.GameState()
training_net = Agent.TrainingQNetwork(act_num=2)
frozen_net = Agent.FrozenQNetwork(act_num=2)
memory = Agent.ExperienceMemory()
model = Agent.Model()
chooser = Agent.Chooser(act_num=2, num_pre_train=num_pre_train)
updater = Agent.Updater()


def next_step(a):
    action = np.zeros(shape=[
        2,
    ])
    action[a] = 1
    nextObservation = np.zeros(shape=[84, 84, 4], dtype=np.uint8)
    reward = 0
    reward_sum = 0
    terminal = False
    for i in range(4):
        next_image, reward, terminal = env.frame_step(action)
        reward_sum += reward

Ejemplo n.º 2

Mostrar archivo

})
num_episodes = 10 * 1000
max_step_in_one_episode = 100
train_freq = 1
update_freq = 1000
num_pre_train = 1000
save_mode_every = 1000

tf.reset_default_graph()

env = bird.GameState()
training_net = Agent.TrainingQNetwork(act_num=2)
frozen_net = Agent.FrozenQNetwork(act_num=2)
memory = Agent.ExperienceMemory()
model = Agent.Model()
chooser = Agent.Chooser(2, num_pre_train=num_pre_train)
updater = Agent.Updater()


def next_step(a):
    action = np.zeros(shape=[
        2,
    ])
    action[a] = 1
    nextObservation = np.zeros(shape=[84, 84, 4], dtype=np.uint8)
    reward = 0
    reward_sum = 0
    terminal = False
    for i in range(4):
        next_image, reward, terminal = env.frame_step(action)
        reward_sum += reward