Python TransitionSampler 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: hobotrl.sampling

클래스/타입: TransitionSampler

hotexamples.com에서의 예제들: 2

Python TransitionSampler - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 hobotrl.sampling.TransitionSampler에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

TransitionSampler(4)

자주 사용되는 메소드들

TransitionSampler (4)

예제 #1

파일 보기

파일: exp_DrSimKub_AsyncDQN_LanePaper_ExpID00.py 프로젝트: hobotrl/hobotrl

 state_shape = env.observation_space.shape
 __agent = DQN(
     f_create_q=f_net, state_shape=state_shape,
     # OneStepTD arguments
     num_actions=num_actions, discount_factor=gamma, ddqn=if_ddqn,
     # target network sync arguments
     target_sync_interval=target_sync_interval,
     target_sync_rate=target_sync_rate,
     # epsilon greedy arguments
     greedy_epsilon=greedy_epsilon,
     # optimizer arguments
     network_optimizer=LocalOptimizer(optimizer_td, max_grad_norm),
     # sampler arguments
     sampler=TransitionSampler(
         replay_buffer,
         batch_size=batch_size,
         interval=update_interval,
         minimum_count=sample_mimimum_count),
     # checkpoint
     global_step=global_step
  )
 # Utilities
 stepsSaver = StepsSaver(our_log_dir)
 reward_vector2scalar = FuncReward(gamma)
 # Configure sess
 config = tf.ConfigProto()
 config.gpu_options.per_process_gpu_memory_fraction = gpu_mem_fraction
 with __agent.create_session(
         config=config, save_dir=tf_log_dir,
         save_checkpoint_secs=save_checkpoint_secs) as sess, \
     AsynchronousAgent(

예제 #2

파일 보기

파일: exp_GTA.py 프로젝트: hobotrl/hobotrl

    state_shape=state_shape,
    # OneStepTD arguments
    num_actions=len(ACTIONS),
    discount_factor=0.9,
    ddqn=False,
    # target network sync arguments
    target_sync_interval=1,
    target_sync_rate=target_sync_rate,
    # epsilon greeedy arguments
    greedy_epsilon=0.2,
    # optimizer arguments
    network_optimizer=hrl.network.LocalOptimizer(optimizer_td, 10.0),
    # max_gradient=10.0,
    # sampler arguments
    sampler=TransitionSampler(BalancedMapPlayback(num_actions=len(ACTIONS),
                                                  capacity=15000),
                              batch_size=8,
                              interval=1),
    # checkpoint
    global_step=global_step)


def log_info(update_info):
    global action_fraction
    global action_td_loss
    global agent
    global next_state
    global ACTIONS
    global n_steps
    global done
    global cum_td_loss
    global cum_reward