Python Blackjack.new_state Beispiele

Programmiersprache: Python

Namespace / Paketname: Blackjack

Klasse / Typ: Blackjack

Methode / Funktion: new_state

Beispiele auf hotexamples.com: 1

Python Blackjack.new_state - 1 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die Blackjack.Blackjack.new_state, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

Blackjack(25)

get_card_value(5)

play_game(4)

visualize_action_value(4)

_dealer_deals_cards(3)

play(2)

reset(2)

new_game(2)

display_game(2)

startGame(1)

stand(1)

setNumOfPlayers(1)

setNumOfDecks(1)

removePlayer(1)

print_turn(1)

player_stand(1)

start_game(1)

player_hit(1)

visualize_state_value(1)

new_state(1)

observation(1)

next_player(1)

hit(1)

get_current_player(1)

get_all_hands(1)

getNumOfPlayers(1)

getNumOfDecks(1)

end_game(1)

deal(1)

active_player(1)

_step(1)

_reset(1)

_player_makes_bet(1)

_get_player_hit(1)

_finish_round(1)

winner(1)

Beispiel #1

Datei anzeigen

Datei: model.py Projekt: GouravWadhwa/ReinforcementLearning

            break

    return states, actions, rewards

blackjack = Blackjack ()

average_policy = np.zeros ((2, 21, 11), dtype=np.float)

for k in range (1001) :
    policy = np.ones ((2, 21, 11))
    policy[:, 18:21, :] = 0

    q_values = np.zeros ((2, 21, 11, 2))

    for i in range (5000) :
        initial_state = blackjack.new_state ()
        states, actions, rewards = generate_episode (initial_state, policy)

        G = 0
        for j in range (len(actions)-1, -1, -1) :
            G = G + rewards[j+1]

            q_values[states[j][0], states[j][1], states[j][2], int (actions[j])] = 0.1 * q_values[states[j][0], states[j][1], states[j][2], int (actions[j])] + 0.9 * G
        
        policy = np.argmax (q_values, axis=-1)

    average_policy += policy

average_policy /= 1001
average_policy = np.round (average_policy, decimals=2)