Python PriortizedReplay 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: practice_2nd_implementation_alg

클래스/타입: PriortizedReplay

hotexamples.com에서의 예제들: 2

Python PriortizedReplay - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 practice_2nd_implementation_alg.PriortizedReplay에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

sample_batch(2)

add(2)

PriortizedReplay(1)

sample_batch_(1)

예제 #1

파일 보기

if args.obj is not None:
    obj = args.obj

envs = []
for g, seeds in zip(graphs, e_seeds_list):
    env = NetworkEnv(fullGraph=g,
                     seeds=seeds,
                     opt_reward=0,
                     nop_r=args.nop_reward,
                     times_mean=args.times_mean_env,
                     bad_reward=args.bad_reward,
                     clip_max=args.max_reward,
                     clip_min=args.min_reward,
                     normalize=args.norm_reward)
    envs.append(env)
replay = PriortizedReplay(BUFF_SIZE, 10, beta=0.6)
# BUFF_SIZE2 = 80
replay_her = PriortizedReplay(BUFF_SIZE, 10, beta=0.6)

goal_envs = []
for g, seeds in zip(graphs, e_seeds_list):
    env = NetworkEnv2(fullGraph=g,
                      seeds=seeds,
                      opt_reward=0,
                      nop_r=args.nop_reward,
                      times_mean=2,
                      bad_reward=args.bad_reward,
                      clip_max=args.max_reward,
                      clip_min=args.min_reward,
                      normalize=args.norm_reward,
                      budget=budget)

예제 #2

파일 보기

    ch.append(np.mean(rs))
    print("Change for %s is %f" % (gp, ch[-1]))
logging.info('Change Results:' + str(obj1) + ' ' + str(S1))

final_goal = 0

if args.obj is not None:
    obj = args.obj

envs = []
for g, seeds in zip(graphs, e_seeds_list):
    env = NetworkEnv(fullGraph=g, seeds=seeds, opt_reward=0, nop_r=args.nop_reward,
                     times_mean=args.times_mean_env, bad_reward=args.bad_reward, clip_max=args.max_reward,
                     clip_min=args.min_reward, normalize=args.norm_reward)
    envs.append(env)
replay = PriortizedReplay(BUFF_SIZE, 10, beta=0.6)
# BUFF_SIZE2 = 80
replay_her = PriortizedReplay(BUFF_SIZE, 10, beta=0.6)

goal_envs = []
for g, seeds in zip(graphs, e_seeds_list):
    env = NetworkEnv2(fullGraph=g, seeds=seeds, opt_reward=0, nop_r=args.nop_reward,
                     times_mean=args.times_mean_env, bad_reward=args.bad_reward, clip_max=args.max_reward,
                     clip_min=args.min_reward, normalize=args.norm_reward, budget=budget)
    goal_envs.append(env)

logging.info('State Dimensions: ' + str(action_dim))
logging.info('Action Dimensions: ' + str(action_dim))

acmodel = DQNTrainer(input_dim=input_dim, state_dim=action_dim, action_dim=action_dim, replayBuff=replay, lr=LR,
                     use_cuda=use_cuda, gamma=args.gamma,