Python DQN.add 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: dqn

클래스/타입: DQN

메소드/함수: add

hotexamples.com에서의 예제들: 2

Python DQN.add - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 dqn.DQN.add에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

DQN(30)

act(18)

action(5)

_init_tf(2)

add(2)

anneal_epsilon(2)

__init__(1)

act_greedily(1)

action_choose(1)

action_values(1)

add_to_memory(1)

adjust_epsilon(1)

append_data(1)

예제 #1

파일 보기

파일: mountainCar.py 프로젝트: hnkryden/open-ai-gym

def main(lr=0.001, episodeMemory=100, replaySize=64, gamma=0.95):
    np.random.seed(0)
    env = gym.make('MountainCar-v0')
    model = keras.Sequential()
    model.add(
        Dense(128, activation="relu", input_dim=3,
              kernel_initializer='normal'))
    model.add(Dense(52, activation="relu"))
    model.add(Dense(1, kernel_initializer='normal', activation="linear"))
    adam = keras.optimizers.Adam(lr=lr)
    model.compile(loss='mean_squared_error', optimizer=adam)

    #gamma = 0.95
    memorySize = 200 * episodeMemory
    dqn = DQN(model, gamma, memorySize, replaysize=replaySize, _env=env)
    dqnScore = dqnScorerMountainCar(dqn, _env=env)
    nrofEpisodes = 1001
    #nrofEpisodes = 20

    res = np.zeros(shape=(nrofEpisodes, 2))

    for episode in range(nrofEpisodes):
        env.reset()
        action = 0
        obs, _, done, _ = env.step(action)
        #if (episode % 100) == 10:
        if (episode % 100) == 10:
            print("episode ", episode)
            dqnScore.printDistance()
            #dqnScore.plot_cost_to_ßgo_mountain_car()
            #print(res[episode-1,:])
            print("--- %s seconds ---" % (time.time() - start_time))
        iter = 0
        while not done:
            iter += 1
            action = dqn.action(obs)
            new_obs, reward, done, info = env.step(action)
            if (done and (iter < 199)):
                reward = (200 - iter) / 10
                print("****Success*****", -iter)

            dqn.add(action, obs, new_obs, reward)
            obs = new_obs

            #if(episode % 100) == 10:
            #    env.render()j
        dqn.replay()
        env.reset()
        dqnScore.updateResult(iter)
        #res[episode,:] = [np.min(x[:,0]),np.max(x[:,0])]
    title = "eps_%d_mem_%d_rep_%d_gamma_%d" % (nrofEpisodes, episodeMemory,
                                               replaySize, gamma * 100)
    dqnScore.plotResults(title)
    dqnScore.plot_cost_to_go_mountain_car(title)

예제 #2

파일 보기

파일: cartpole.py 프로젝트: afcarl/NeuralNet

    Q = model(obs, save=False)
    #print Q[0]
    if epsilon > rand() or step < 100:
        action = randint(0, 2)
    else:
        action = np.argmax(Q[0])
    epsilon -= 2e-4
    if epsilon < 0.:
        epsilon = 0.
    obs, reward, done, _ = env.step(action)
    reward = 0.
    if done:
        reward = -1.
        episode += 1

    Memory.add(last_obs, action, reward, obs, done)

    if done:
        obs = env.reset()
    last_obs = deepcopy(obs)
    if done and episode % 100 == 0:
        print 'episode:', episode, 'step:', step, 'eps:', epsilon, 'ave:', time / 100., 'Q:', Q[
            0]
        time = 0.

    #t = deepcopy(Q)
    if step < 100:
        continue
    sample = [Memory.ReplayMemory[(Memory.count - 1) % 10**6]]  #sample(16)
    #sample = []
    #for i in range(10):