Python Blackjack._step Beispiele

Programmiersprache: Python

Namespace / Paketname: Blackjack

Klasse / Typ: Blackjack

Methode / Funktion: _step

Beispiele auf hotexamples.com: 2

Python Blackjack._step - 2 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die Blackjack.Blackjack._step, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

Blackjack(25)

get_card_value(5)

play_game(4)

visualize_action_value(4)

_dealer_deals_cards(3)

play(2)

reset(2)

new_game(2)

display_game(2)

startGame(1)

stand(1)

setNumOfPlayers(1)

setNumOfDecks(1)

removePlayer(1)

print_turn(1)

player_stand(1)

start_game(1)

player_hit(1)

visualize_state_value(1)

new_state(1)

observation(1)

next_player(1)

hit(1)

get_current_player(1)

get_all_hands(1)

getNumOfPlayers(1)

getNumOfDecks(1)

end_game(1)

deal(1)

active_player(1)

_step(1)

_reset(1)

_player_makes_bet(1)

_get_player_hit(1)

_finish_round(1)

winner(1)

Beispiel #1

Datei anzeigen

Datei: Off_Policy_MC_Control.py Projekt: xiaolin360/ReinforcementLearning

def Off_policy_MC_Control(env,episode_nums,discount_factor=1.0):

    env = Blackjack()
    Q = defaultdict(lambda:np.zeros(env.nA))
    target_policy = defaultdict(float)

    return_count=defaultdict(float)


    for i_episode in range(1,1+episode_nums):
        env._reset()
        state = env.observation()
        episode=[]
        prob_b=[]
        if i_episode % 1000 == 0:
            print("\rEpisode {}/{}.".format(i_episode, episode_nums))
            sys.stdout.flush()
        for i in range(100):

            A = sample_policy(Q,state,env.nA)
            probs = A
            action = np.random.choice(np.arange(env.nA),p=probs)

            next_state,reward,done = env._step(action)
            episode.append((state,action,reward))
            prob_b.append(probs[action])
            if done:
                break
            else:
                state = next_state

        seperate_episode = set([(tuple(x[0]), x[1]) for x in episode])

        G =0.0
        W =1
        prob_b=prob_b[::-1]
        for idx,eps in enumerate(episode[::-1]):
            state,action,reward  = eps
            pair=(state,action)
            G = discount_factor*G+reward
            return_count[pair]+=W
            Q[state][action]+=W*1.0/return_count[pair]*(G-Q[state][action])
            target_policy[state] = np.argmax(Q[state])
            if target_policy[state]!=action:
                break
            W = W*1.0/prob_b[idx]

    return Q

Beispiel #2

Datei anzeigen

Datei: MC_Control_with_epsilon_greedy.py Projekt: xiaokun12/ReinforcementLearning-1

def MC_Control_with_epsilon_greedy(env,episode_nums,discount_factor=1.0, epsilon=0.1):

    env = Blackjack()
    Q = defaultdict(lambda:np.zeros(env.nA))
    return_sum=defaultdict(float)
    return_count=defaultdict(float)

    for i_episode in range(1,1+episode_nums):
        env._reset()
        state = env.observation()
        episode=[]
        if i_episode % 1000 == 0:
            print("\rEpisode {}/{}.".format(i_episode, episode_nums))
            sys.stdout.flush()
        for i in range(100):

            A = epsilon_greedy_policy(Q,state,env.nA,epsilon)

            probs = A
            action = np.random.choice(np.arange(env.nA),p=probs)

            next_state,reward,done = env._step(action)
            episode.append((state,action,reward))
            if done:
                break
            else:
                state = next_state

        seperate_episode = set([(tuple(x[0]), x[1]) for x in episode])

        for state,action in seperate_episode:
            for idx,e in enumerate(episode):
                if e[0]==state and e[1]==action:
                    first_visit_idx = idx
                    break
            pair = (state,action)
            G = sum([e[2]*(discount_factor**i) for i,e in enumerate(episode[first_visit_idx:])])
            return_sum[pair]+=G
            return_count[pair]+=1.0
            Q[state][action]=return_sum[pair]*1.0/return_count[pair]
    return Q