Python solve_mdp_by_qlearning示例

编程语言: Python

命名空间/包名称: algo_evaluation.mdp.simulations.solve_mdp

方法/功能: solve_mdp_by_qlearning

hotexamples.com的示例: 4

Python solve_mdp_by_qlearning - 已找到4个示例。这些是从开源项目中提取的最受好评的algo_evaluation.mdp.simulations.solve_mdp.solve_mdp_by_qlearning现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： forest_mdp.py 项目： babineaum/bag-of-algorithms

def test_qlearning_discounted_reward(discount_factor_range=(0.1, 0.3, 0.5, 0.9, 0.99), num_sim=50):
    dfs = []
    for factor in discount_factor_range:
        series = []
        for n in range(10000, 10000 + num_sim):
            P, R = forest(S=50, p=0.0, r1=50, r2=25)
            mdp = solve_mdp.solve_mdp_by_qlearning(P, R, discount=factor, max_iter=n)
            series.append(mdp)
        df = pd.concat(series, axis=1).T
        dfs.append(df)
    return pd.concat(dfs)

示例#2

显示文件

文件： forest_mdp.py 项目： babineaum/bag-of-algorithms

def test_qlearning_algorithm(
    forest_states_size=50, fire_prob=0.01, r1=50, r2=25, discount=0.9, num_sim_range=(10000, 10050), verbose=False
):
    P, R = forest(S=forest_states_size, r1=r1, r2=r2, p=fire_prob)
    min_value, max_value = num_sim_range
    series = []
    for n in range(min_value, max_value):
        s = solve_mdp.solve_mdp_by_qlearning(P, R, discount=discount, max_iter=n, verbose=verbose)
        series.append(s)
    df = pd.concat(series, axis=1)
    return df.T

示例#3

显示文件

文件： forest_mdp.py 项目： babineaum/bag-of-algorithms

def test_qlearning_deterministic(fireprob_range=(0.0, 0.1, 0.2, 0.5, 1.0), num_sim=50):
    dfs = []
    for factor in fireprob_range:
        series = []
        for n in range(10000, 10000 + num_sim):
            P, R = forest(S=50, p=factor, r1=50, r2=25)
            vi = solve_mdp.solve_mdp_by_qlearning(P, R, max_iter=n)
            vi = vi.append(pd.Series(factor, index=["fire_probability"]))
            series.append(vi)
        df = pd.concat(series, axis=1).T
        dfs.append(df)
    return pd.concat(dfs)

示例#4

显示文件

def test_qlearning_algorithm(transitions, rewards,
                             discount=0.9,
                             num_sim_range=(10000, 10050),
                             verbose=False):
    P, R = transitions, rewards
    min_value, max_value = num_sim_range
    series = []
    for n in range(min_value, max_value):
        s = solve_mdp.solve_mdp_by_qlearning(P, R, discount=discount, max_iter=n, verbose=verbose)
        series.append(s)
    df = pd.concat(series, axis=1)
    return df.T