Python Agent.Chooser 예제들

프로그래밍 언어: Python

클래스/타입: Agent

메소드/함수: Chooser

hotexamples.com에서의 예제들: 2

Python Agent.Chooser - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 Agent.Chooser 패키지로부터 cleanrl에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Agent(30)

AlphaBetaAgent(6)

AgentFactory(4)

ACPGAg(2)

Chooser(2)

Brain(2)

CFAgent(2)

Agent_PG(1)

consumption_value_low(1)

runAwayBehaviour(1)

production_value(1)

placeall(1)

make(1)

deserializeAgent(1)

createAgentList(1)

consumption_value_high(1)

AgentTool(1)

CopyToTargetNetwork(1)

ActionValue(1)

AbsorbSample(1)

AgentQLearn(1)

BS_Agent(1)

AlphabetaAgent(1)

scriptedBehaviour(1)

예제 #1

파일 보기

    'exploration': 0
})
num_episodes = 10 * 1000
max_step_in_one_episode = 1000000000
update_freq = 4
num_pre_train = 1000
save_mode_per_episode = 1000

tf.reset_default_graph()

env = bird.GameState()
training_net = Agent.TrainingQNetwork(act_num=2)
frozen_net = Agent.FrozenQNetwork(act_num=2)
memory = Agent.ExperienceMemory()
model = Agent.Model()
chooser = Agent.Chooser(act_num=2, num_pre_train=num_pre_train)
updater = Agent.Updater()


def next_step(a):
    action = np.zeros(shape=[
        2,
    ])
    action[a] = 1
    nextObservation = np.zeros(shape=[84, 84, 4], dtype=np.uint8)
    reward = 0
    reward_sum = 0
    terminal = False
    for i in range(4):
        next_image, reward, terminal = env.frame_step(action)
        reward_sum += reward

예제 #2

파일 보기

})
num_episodes = 10 * 1000
max_step_in_one_episode = 100
train_freq = 1
update_freq = 1000
num_pre_train = 1000
save_mode_every = 1000

tf.reset_default_graph()

env = bird.GameState()
training_net = Agent.TrainingQNetwork(act_num=2)
frozen_net = Agent.FrozenQNetwork(act_num=2)
memory = Agent.ExperienceMemory()
model = Agent.Model()
chooser = Agent.Chooser(2, num_pre_train=num_pre_train)
updater = Agent.Updater()


def next_step(a):
    action = np.zeros(shape=[
        2,
    ])
    action[a] = 1
    nextObservation = np.zeros(shape=[84, 84, 4], dtype=np.uint8)
    reward = 0
    reward_sum = 0
    terminal = False
    for i in range(4):
        next_image, reward, terminal = env.frame_step(action)
        reward_sum += reward