Python BlackjackEnv 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: Blackjack_

클래스/타입: BlackjackEnv

hotexamples.com에서의 예제들: 7

Python BlackjackEnv - 7개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 Blackjack_.BlackjackEnv에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

BlackjackEnv(7)

자주 사용되는 메소드들

BlackjackEnv (7)

예제 #1

파일 보기

파일: model-free control.py 프로젝트: amousni/DRLinBlackjack

def td_fa_test():
    env = BlackjackEnv()
    estimator = Estimator()
    with tf.Session() as sess:
        sess.run(tf.global_variables_initializer())
        td_fa(env, sess, estimator)
        sess.close()

예제 #2

파일 보기

파일: Q-network.py 프로젝트: amousni/DRLinBlackjack

def q_network_test():
    env = BlackjackEnv()
    estimator = Estimator(0.001)
    with tf.Session() as sess:
        sess.run(tf.global_variables_initializer())
        V = q_network(env, sess, estimator, episode_num=10000)
    plotting.plot_value_function(V, title='Optimal Value Function')

예제 #3

파일 보기

파일: model-free control.py 프로젝트: amousni/DRLinBlackjack

def mc_control_with_epsilon_greedy_test():
    env = BlackjackEnv()
    Q = mc_control_with_epsilon_greedy(env, episode_nums=10000)
    V = defaultdict(float)
    for state, actions in Q.items():
        max_q = np.max(actions)
        V[state] = max_q
    plotting.plot_value_function(V, title='Optimal Value Function')

예제 #4

파일 보기

파일: model-free control.py 프로젝트: amousni/DRLinBlackjack

def q_learning_test():
    env = BlackjackEnv()
    Q = q_learning(env, episode_nums=10000)
    V = defaultdict(float)
    for state, actions in Q.items():
        max_q = np.max(actions)
        V[state] = max_q
    plotting.plot_value_function(V, title='Optimal Value Function')

예제 #5

파일 보기

파일: AC.py 프로젝트: amousni/DRLinBlackjack

def main():
    env = BlackjackEnv()
    actor = Actor()
    estimator = Estimator()
    with tf.Session() as sess:
        sess.run(tf.global_variables_initializer())
        V = ac_test4debug(sess, env, actor, estimator, episode_num=10000)
    plotting.plot_value_function(V, title='Optimal Value Function')

예제 #6

파일 보기

def td_network_test():
    env = BlackjackEnv()
    estimator = Estimator(learning_rate=0.003)
    with tf.Session() as sess:
        sess.run(tf.global_variables_initializer())
        V = td_network(env, sess, estimator)
        #print(sess.run(estimator.w))
        #print(sess.run(estimator.b))
    plotting.plot_value_function(V, title='Optimal Value')

예제 #7

파일 보기

파일: DynaQ.py 프로젝트: amousni/DRLinBlackjack

def dyna_q_test():
    env = BlackjackEnv()
    estimator = Estimator(0.003)
    model = Model(0.003)
    with tf.Session() as sess:
        sess.run(tf.global_variables_initializer())
        V = dyna_q(env,
                   sess,
                   estimator,
                   model,
                   episode_num=3000,
                   train_model_times=3000,
                   train_with_model_times=3)
    plotting.plot_value_function(V, title='Optimal Value Function')