Python QLearningTable.choose_action_real 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: RL_brain

클래스/타입: QLearningTable

메소드/함수: choose_action_real

hotexamples.com에서의 예제들: 2

Python QLearningTable.choose_action_real - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 RL_brain.QLearningTable.choose_action_real에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

QLearningTable(30)

choose_action(12)

learn(10)

epsilon(5)

feedQTable(3)

q_table(3)

choose_action_real(2)

gamma(1)

plotCumulativeReward(1)

plot_cost(1)

print_q_table(1)

saveQTable(1)

save_q_table(1)

step(1)

예제 #1

파일 보기

def calTime(filename):
    """
    使用Q表来计算完成所有任务消耗的时间
    :param filename:
    :return:
    """
    task = createTask()
    env = Maze(task)
    RL = QLearningTable(actions=list(range(env.n_actions)), filename=filename)
    Time1 = []
    # Time2 = []
    for i in range(10000):
        observation = env.reset()
        while True:
            action = RL.choose_action_real(str(observation))
            observation_, reward, done = env.step(action)
            # print(observation,action,reward)
            observation = observation_
            if done:
                time1 = findmax(task)
                # time2 = calOmegaT(task,np.array([255])[0])
                Time1.append(time1)
                # Time2.append(time2)
                break
    # print(np.mean(Time1))
    # print(np.mean(Time2))
    return np.mean(Time1)

예제 #2

파일 보기

파일: run_this.py 프로젝트: dyc8818/ec-rl

            E1 = E
            t += Baseline(user, G, E1, KE, edgeuser)
        random.append(t / 10)

        # 穷举法
        H = topology()  # 任务图
        E2 = E
        t = Brute(user, H, E2, KE, edgeuser)  # (用户，应用，能量，能量限制)
        brute.append(t)

        # Q-learning
        observation = env.reset()
        stade = copy.deepcopy(observation)
        while True:
            # RL 大脑根据 state 的观测值挑选 action
            action = RL.choose_action_real(str(observation))
            # 探索者在环境中实施这个 action, 并得到环境返回的下一个 state 观测值, reward 和 done (是否是掉下地狱或者升上天堂)
            observation_, reward, done = env.step(action, user)
            # RL 从这个序列 (state, action, reward, state_) 中学习
            RL.learn(str(stade), action, reward, str(observation_))
            # 将下一个 state 的值传到下一次循环
            stade = copy.deepcopy(observation_)
            # 如果掉下地狱或者升上天堂, 这回合就结束了
            if done:
                break
        q_learning.append(7000 - reward)
        print(reward)

    x = [5, 10, 15, 20, 25, 30, 35, 40, 45]
    plt.plot(x, random, marker='o', label="$Random$", c='b')
    plt.plot(x, brute, marker='x', label="$Brute-force$", c='y')