Python PolicyGradient.choose_action1 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: policy_gradient

클래스/타입: PolicyGradient

메소드/함수: choose_action1

hotexamples.com에서의 예제들: 2

Python PolicyGradient.choose_action1 - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 policy_gradient.PolicyGradient.choose_action1에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

PolicyGradient(30)

learn(14)

store_transition(13)

choose_action(11)

plot_cost(3)

choose_action1(2)

ep(2)

get_distribution(2)

solve_environment(1)

run_simulation(1)

run(1)

quiet(1)

learning(1)

plot(1)

paper(1)

multi_solve_environment(1)

game_rewards(1)

episode_rewards(1)

discount_rewards(1)

costs(1)

train(1)

예제 #1

파일 보기

     reward = reward_step
     if stepIdx > 100:
         s, a, r = PG.store_transition(observation_step, action,
                                       reward)
     if stepIdx % 6 == 0 and stepIdx > 100:
         PG.learn()
 for k in range(len(observation)):
     ss = observation[k].copy()
     ss.extend(matrixOfChanAlloc.copy().reshape(
         1, nOfenb * nOfchannel).tolist()[0])
     # print(ss)
     observation_step = np.array(ss).reshape(
         nOfenb * nOfchannel + 4, 1).ravel()
     print("observation_step: ", observation_step)
     if observation_step[1] > 0:
         action = PG.choose_action1(observation_step,
                                    matrixOfChanAlloc, stepIdx)
         if action < 12:
             action_list.append(observation_step[0])
             action_list.append(observation_step[1])
             action_list.append(action)
         else:
             action_list.append(0)
             action_list.append(0)
             action_list.append(0)
         reward = 0
         if k == len(observation) - 1 or observation[k + 1][1] == 0:
             #大step
             d = ()
             for b in range(len(action_list)):
                 d += (spaces.Discrete(int(action_list[b])), )
             action_ = spaces.Tuple(d)

예제 #2

파일 보기

                    ss = []
                    for a in observation:
                        for b in a:
                            ss.append(b)

                    ss.extend(matrixOfChanAlloc.copy().reshape(
                        1, nOfenb * nOfchannel).tolist()[0])  #请求+信道占用

                    observation_step = np.array(ss).reshape(
                        nOfenb * nOfchannel + sizeperq * len(observation),
                        1).ravel()  #变换为网络输入所要求的维度
                    print("observation_step: ", observation_step)
                    if observation_step[k * sizeperq +
                                        1] > 0:  #判断RNTI是否大于0 是否为有效请求
                        action = PG.choose_action1(observation_step,
                                                   matrixOfChanAlloc,
                                                   observation[k][0])  #选取动作

                        if action < nOfchannel:  #判断是否为有效动作
                            observation[k][4] = action  #改变状态
                            addaction(observation[k][0], observation[k][1],
                                      action, action_list)  #存储分配策略到action_list
                        else:
                            addaction(0, 0, 0, action_list)  #空动作

                    reward = 0  #eposide没有结束reward为0
                    if stepIdx > 100 and k < numue - 1:  #stepIndex大于100开始进入学习过程，开始存储信息
                        s, a, r = PG.store_transition(
                            observation_step,
                            action + observation[k][0] * nOfchannel, reward)