Esempi in Python per Blackjack.new_state

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: Blackjack

Classe/tipologia: Blackjack

Metodo/funzione: new_state

Esempi su hotexamples.com: 1

Blackjack.new_state in Python: 1 esempio trovato. Questo è il miglior esempio reale in Python per Blackjack.Blackjack.new_state, estratto da progetti open source. Lo puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

Blackjack(25)

get_card_value(5)

play_game(4)

visualize_action_value(4)

_dealer_deals_cards(3)

play(2)

reset(2)

new_game(2)

display_game(2)

startGame(1)

stand(1)

setNumOfPlayers(1)

setNumOfDecks(1)

removePlayer(1)

print_turn(1)

player_stand(1)

start_game(1)

player_hit(1)

visualize_state_value(1)

new_state(1)

observation(1)

next_player(1)

hit(1)

get_current_player(1)

get_all_hands(1)

getNumOfPlayers(1)

getNumOfDecks(1)

end_game(1)

deal(1)

active_player(1)

_step(1)

_reset(1)

_player_makes_bet(1)

_get_player_hit(1)

_finish_round(1)

winner(1)

Esempio n. 1

Mostra file

File: model.py Progetto: GouravWadhwa/ReinforcementLearning

            break

    return states, actions, rewards

blackjack = Blackjack ()

average_policy = np.zeros ((2, 21, 11), dtype=np.float)

for k in range (1001) :
    policy = np.ones ((2, 21, 11))
    policy[:, 18:21, :] = 0

    q_values = np.zeros ((2, 21, 11, 2))

    for i in range (5000) :
        initial_state = blackjack.new_state ()
        states, actions, rewards = generate_episode (initial_state, policy)

        G = 0
        for j in range (len(actions)-1, -1, -1) :
            G = G + rewards[j+1]

            q_values[states[j][0], states[j][1], states[j][2], int (actions[j])] = 0.1 * q_values[states[j][0], states[j][1], states[j][2], int (actions[j])] + 0.9 * G
        
        policy = np.argmax (q_values, axis=-1)

    average_policy += policy

average_policy /= 1001
average_policy = np.round (average_policy, decimals=2)