Python train_reinforcement_strategy_temporal_differenceの例

プログラミング言語: Python

名前空間/パッケージ名: rl_learning

メソッド/関数: train_reinforcement_strategy_temporal_difference

hotexamples.comのコード掲載数: 4

Python train_reinforcement_strategy_temporal_difference - 4件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのrl_learning.train_reinforcement_strategy_temporal_differenceの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

コード例 #1

ファイルを表示

ファイル: test_trained_models.py プロジェクト: atuljosh/machine_learning_notes

def test_training_TD_for_gridworld(model_class, train=True):
    gridworld = GridWorld()
    if train:
        policy, model = rl.train_reinforcement_strategy_temporal_difference(
            epochs=50000, game_obs=gridworld, model_class=model_class
        )
    rl.test_policy(gridworld)

コード例 #2

ファイルを表示

def test_training_TD_for_blackjack(model_class):
    blackjack = BlackJack()
    policy, model = rl.train_reinforcement_strategy_temporal_difference(
        epochs=5000, game_obs=blackjack, model_class=model_class)
    df = pd.DataFrame(policy).T
    df.columns = ['player_value', 'dealer_value', 'decision', 'score']
    policy_Q_table = df.pivot('player_value', 'dealer_value')['decision']
    print policy_Q_table
    policy_Q_score = df.pivot('player_value', 'dealer_value')['score']
    print policy_Q_score

    # Add ipython notebook 3D ghaph

    # Test policy
    rl.test_policy(blackjack)

    return policy, model

コード例 #3

ファイルを表示

ファイル: test_trained_models.py プロジェクト: atuljosh/machine_learning_notes

def test_training_TD_for_blackjack(model_class):
    blackjack = BlackJack()
    policy, model = rl.train_reinforcement_strategy_temporal_difference(
        epochs=5000, game_obs=blackjack, model_class=model_class
    )
    df = pd.DataFrame(policy).T
    df.columns = ["player_value", "dealer_value", "decision", "score"]
    policy_Q_table = df.pivot("player_value", "dealer_value")["decision"]
    print policy_Q_table
    policy_Q_score = df.pivot("player_value", "dealer_value")["score"]
    print policy_Q_score

    # Add ipython notebook 3D ghaph

    # Test policy
    rl.test_policy(blackjack)

    return policy, model

コード例 #4

ファイルを表示

def test_training_TD_for_gridworld(model_class, train=True):
    gridworld = GridWorld()
    if train:
        policy, model = rl.train_reinforcement_strategy_temporal_difference(
            epochs=50000, game_obs=gridworld, model_class=model_class)
    rl.test_policy(gridworld)