Python QAgent.validate_episode 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: agent

클래스/타입: QAgent

메소드/함수: validate_episode

hotexamples.com에서의 예제들: 6

Python QAgent.validate_episode - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 agent.QAgent.validate_episode에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

QAgent(8)

validate_episode(6)

train_episode(4)

evaluate_mine(2)

train(2)

fit(2)

test_mine(2)

_update_training_reward(2)

run(1)

update_state(1)

update_Qvalue(1)

save(1)

play(1)

reset_to_zero_state(1)

play_mine(1)

load(1)

get_reward(1)

evaluate_ms(1)

evaluate(1)

choose_action(1)

act(1)

_update_validation_reward(1)

validate_model(1)

예제 #1

파일 보기

파일: agent_test.py 프로젝트: khkim1/oo-ddqn

from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import numpy as np
import tensorflow as tf

from agent import QAgent
from configs import object_seaquest_config
from util import get_log_dir


if __name__ == '__main__':
    config = object_seaquest_config
    log_dir = get_log_dir('log', config['game']+'_'+str(config['double_q'])) # Name of logging directory
    agent = QAgent(config=config, log_dir=log_dir)
    saver = tf.train.Saver(max_to_keep=None)

    saver.restore(agent.session, '%s/episode_%d.ckpt'%("log/log/2017-12-09_23-40-34_SeaquestDeterministic-v4_True",800))

    print('Validate....\n==============')
    scores = agent.validate_episode(epsilon=0, visualise=True)

예제 #2

파일 보기

파일: train_model.py 프로젝트: khkim1/oo-ddqn

    print(
        'episode: %d, step: %d, eps: %.4f, model loss (ant, ball, pro): %.4f, %.4f, %.4f'
        % (episode, agent.steps, agent.epsilon, loss[0], loss[1], loss[2]))

    if episode > 10:
        del reward_list[0]

    avg_trng_reward = np.mean(reward_list)

    if episode % config['episodes_validate'] == 0 and episode != 0:
        agent.validate_model(epsilon=0.05)

        #if agent.steps % config['steps_validate'] == 0:
        print('Validate....\n==============')
        scores = [
            agent.validate_episode(epsilon=0.05)
            for i in range(config['episodes_validate_runs'])
        ]
        agent._update_validation_reward(np.mean(scores))
        print(scores)
        '''
        # Record scores
        f = open('learning_curves/trial1/rewards.txt', 'a')
        f.write('%d, %d, %f, %f, %f, %f, %f\n' %(agent.steps, episode, avg_trng_reward, np.mean(scores), loss[0], loss[1], loss[2]))
        f.close()
        '''
        '''
        if episode % 200 == 0 and episode != 0:
            agent.validate_episode(epsilon=0.05, visualise=True)
        '''
    '''

예제 #3

파일 보기

    saver = tf.train.Saver(max_to_keep=None)
    reward_list = []

    for episode in range(config['episodes']):
        print('episode: %d, step: %d, eps: %.4f' % (episode, agent.steps, agent.epsilon))
        # Store the rewards...
        cur_trng_reward = agent.train_episode()
        agent._update_training_reward(cur_trng_reward)
        reward_list.append(cur_trng_reward)

        if episode > 10:
            del reward_list[0]

        avg_trng_reward = np.mean(reward_list)

        if episode % config['episodes_validate']==0 and episode != 0:
        #if agent.steps % config['steps_validate'] == 0:
            print('Validate....\n==============')
            scores = [agent.validate_episode(epsilon=0.0) for i in range(config['episodes_validate_runs'])]
            agent._update_validation_reward(np.mean(scores))
            print(scores)
            f = open('learning_curves/trial13/rewards6.txt', 'a')
            f.write('%d, %d, %f, %f\n' %(agent.steps, episode, avg_trng_reward, np.mean(scores)))
            f.close()

        '''
        # Store every validation interval
        if episoded% config['episodes_save_interval']==0:
            saver.save(agent.session,'%s/episode_%d.ckpt'%(log_dir,episode))
        '''

예제 #4

파일 보기

        agent._update_training_reward(cur_trng_reward)
        reward_list.append(cur_trng_reward)

        if episode > 10:
            del reward_list[0]

        avg_trng_reward = np.mean(reward_list)

        tol = 1e-5
        if episode % config['episodes_validate'] == 0 and episode != 0:
            #if agent.steps % config['steps_validate'] == 0:
            #eps = 0.1 + np.min([40.0/(episode+tol), 0.9])
            eps = 0.1
            print('Validate....\n==============')
            scores = [
                agent.validate_episode(epsilon=eps)
                for i in range(config['episodes_validate_runs'])
            ]
            agent._update_validation_reward(np.mean(scores))
            print('epsilon: %f' % eps)
            print(scores)
            f = open('learning_curves/trial2/rewards1.txt', 'a')
            f.write('%d, %d, %f, %f\n' %
                    (agent.steps, episode, avg_trng_reward, np.mean(scores)))
            f.close()
            if episode % 200 == 0 and episode != 0:
                agent.validate_episode(epsilon=eps, visualise=True)
        '''
        # Store every validation interval
        if episoded% config['episodes_save_interval']==0:
            saver.save(agent.session,'%s/episode_%d.ckpt'%(log_dir,episode))

예제 #5

파일 보기

파일: train_agent.py 프로젝트: khkim1/oo-ddqn

            grad_list.append(grad_cur)
            avg_grad = np.mean(grad_list)
        if episode > 10:
            del reward_list[0]
        if len(grad_list) > 10:
            del grad_list[0]

        avg_trng_reward = np.mean(reward_list)

        tol = 1e-5
        if episode % config['episodes_validate'] == 0 and episode != 0:
            #if agent.steps % config['steps_validate'] == 0:
            eps = 0.1 + np.min([40.0 / (episode + tol), 0.9])
            print('Validate....\n==============')
            scores = [
                agent.validate_episode(epsilon=eps)
                for i in range(config['episodes_validate_runs'])
            ]
            agent._update_validation_reward(np.mean(scores))
            print('epsilon: %f' % eps)
            print(scores)
            f = open('learning_curves/trial1/rewards3.txt', 'a')
            f.write('%d, %d, %f, %f\n' %
                    (agent.steps, episode, avg_trng_reward, np.mean(scores)))
            f.close()

        # Store every validation interval
        if episode % config['episodes_save_interval'] == 0:
            saver.save(agent.session,
                       '%s/episode_%d.ckpt' % (log_dir, episode))

예제 #6

파일 보기

        cur_trng_reward = agent.train_episode()
        agent._update_training_reward(cur_trng_reward)
        reward_list.append(cur_trng_reward)

        if episode > 10:
            del reward_list[0]

        avg_trng_reward = np.mean(reward_list)

        tol = 1e-5
        if episode % config['episodes_validate']==0 and episode != 0:
        #if agent.steps % config['steps_validate'] == 0:
            #eps = 0.1 + np.min([40.0/(episode+tol), 0.9])
            eps = 0.1
            print('Validate....\n==============')
            scores = [agent.validate_episode(epsilon=eps) for i in range(config['episodes_validate_runs'])]
            agent._update_validation_reward(np.mean(scores))
            print('epsilon: %f' %eps)
            print(scores)
            f = open('learning_curves/trial2/rewards3.txt', 'a')
            f.write('%d, %d, %f, %f\n' %(agent.steps, episode, avg_trng_reward, np.mean(scores)))
            f.close()
            if episode % 200 == 0 and episode != 0:
                agent.validate_episode(epsilon=eps, visualise=True)

        '''
        # Store every validation interval
        if episoded% config['episodes_save_interval']==0:
            saver.save(agent.session,'%s/episode_%d.ckpt'%(log_dir,episode))
        '''