Python Agents.QAgent Exemples

Langage de programmation: Python

Class/Type: Agents

Méthode/Fonction: QAgent

Exemples au hotexamples.com: 5

Python Agents.QAgent - 5 exemples trouvés. Ce sont les exemples réels les mieux notés de Agents.QAgent à partir du pack prewikka extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

QAgent(5)

NormalMCTS(4)

RLWM_actionSoftmax(4)

Critic(4)

RandomAgent(3)

RLWM_modulation(3)

IdealValueAgent(2)

RLWM_allFree(2)

addToJobList(2)

RLWM_noise(2)

Agent(2)

DepMCTS(2)

DepUnDepMCTS(2)

Actor(2)

SimulatedMCTS(2)

FlippingMCTS(2)

RLWM_noneFree(2)

A_star_real_time_tree_search(1)

ReinforcementAgent3(1)

SarsaLambda(1)

SmallFC_FW(1)

UTreeAgent(1)

VIAgent(1)

Vandal(1)

Zooming(1)

SmallAgent(1)

Human(1)

QTableAgent(1)

DiegoConvAgent(1)

Agent1d(1)

Agents(1)

AgentsQWidget(1)

Att(1)

BasicAgent(1)

CAgent(1)

FeatEmbed(1)

Laser(1)

Greedy(1)

Greedy_tree_search(1)

GridExplorer3dof(1)

GridExplorer6dof(1)

HingeArm3dof(1)

HingeArm6dof(1)

A_star_tree_search(1)

agent(1)

Méthodes fréquemment utilisées

QAgent (5)

NormalMCTS (4)

RLWM_actionSoftmax (4)

Critic (4)

RandomAgent (3)

RLWM_modulation (3)

IdealValueAgent (2)

RLWM_allFree (2)

addToJobList (2)

RLWM_noise (2)

Méthodes fréquemment utilisées

Agent (2)

DepMCTS (2)

DepUnDepMCTS (2)

Actor (2)

SimulatedMCTS (2)

FlippingMCTS (2)

RLWM_noneFree (2)

A_star_real_time_tree_search (1)

ReinforcementAgent3 (1)

SarsaLambda (1)

SmallFC_FW (1)

UTreeAgent (1)

VIAgent (1)

Vandal (1)

Zooming (1)

SmallAgent (1)

Human (1)

QTableAgent (1)

DiegoConvAgent (1)

Agent1d (1)

Méthodes fréquemment utilisées

SmallFC_FW (1)

UTreeAgent (1)

VIAgent (1)

Vandal (1)

Zooming (1)

SmallAgent (1)

Human (1)

QTableAgent (1)

DiegoConvAgent (1)

Agent1d (1)

Agents (1)

AgentsQWidget (1)

Att (1)

BasicAgent (1)

CAgent (1)

FeatEmbed (1)

Laser (1)

Greedy (1)

Greedy_tree_search (1)

GridExplorer3dof (1)

GridExplorer6dof (1)

HingeArm3dof (1)

HingeArm6dof (1)

A_star_tree_search (1)

agent (1)

Méthodes fréquemment utilisées

Agents (1)

AgentsQWidget (1)

Att (1)

BasicAgent (1)

CAgent (1)

FeatEmbed (1)

Laser (1)

Greedy (1)

Greedy_tree_search (1)

GridExplorer3dof (1)

GridExplorer6dof (1)

HingeArm3dof (1)

HingeArm6dof (1)

A_star_tree_search (1)

agent (1)

Exemple #1

0

Afficher le fichier

def test_mountain_car(n_states,qhat_file='Data/mc_qhat.pkl',max_eps = 10000): """ Compares aggregated mountain car with n_states with a simple discretised version of the same. Supplying a precalculated qhat file will drastically speed computation """ divs = int(np.floor(np.sqrt(n_states))) if qhat_file: with open(qhat_file,'rb') as f: qhat = pickle.load(f) else: qhat = evaluate_MC_qhat() agg = Aggregation.generateAggregation(qhat,target_divisions=n_states) mc_d = Problems.MountainCar(representation='disc',divisions = divs) mc_a = Problems.MountainCar(representation='aggr',aggregation=agg,divisions=100) ag_d = Agents.QAgent(mc_d,alpha=1e-3) ag_a = Agents.QAgent(mc_a,alpha=1e-3) d_eps = ag_d.run_n_episodes(max_eps) a_eps = ag_a.run_n_episodes(max_eps) n_eps = np.array([2**i for i in range(1,int(np.log2(max_eps))+1)]) data = pd.DataFrame() data['n_eps'] = n_eps data['disc'] = d_eps data['aggr'] = a_eps return data

Exemple #2

0

Afficher le fichier

def test_Q(self): p_raw, p_agg = setupESA() ql_raw = Agents.QAgent(p_raw, 1) ql_agg = Agents.QAgent(p_agg, 1) ql_raw.episode(timeout=1000) ql_agg.episode(timeout=1000) delta_r = sum(abs(ql_raw.qValues[0] - p_raw.qValues[0])) / 4 delta_a = sum(abs(ql_agg.qValues[0] - p_agg.qValues[0])) / 2 print("\nQ learning raw delta = {}, agg delta = {}".format( delta_r, delta_a)) self.assertTrue(delta_r < 1e-1) self.assertTrue(delta_a < 1e-1)

Exemple #3

0

Afficher le fichier

def compare_raw_agg_ql(param_tuples,timeout=1000,gamma=0.5,aggtype='q',log_prob=False,rep=1,alpha=0.005,decayAlpha=False): """ Generates random problems from parameter lists, runs qlearning and records value function deviations for each problem after timeout steps log optionally records problems so that they can be retrieved later """ dmat = np.zeros((len(param_tuples)*rep,9)) if log_prob: problem_dict = {} d = datetime.today().strftime('%d-%m-%Y--%H_%M_%S') filename = 'problems' + d + '.pkl' for i, (n,n_agg,b,acts,e_noise) in enumerate(param_tuples): for j in range(rep): p_r, p_a, _ = Problems.genRandomProblems(n,n_agg,acts,b,gamma=gamma,e_noise=e_noise) pid = hash(str(p_r.transitions)) if log_prob: problem_dict[pid] = {'raw':p_r,'agg':p_a} agent_r = Agents.QAgent(p_r,alpha=alpha) agent_a = Agents.QAgent(p_a,alpha=alpha) agent_r.episode(timeout=timeout,decayAlpha=decayAlpha) agent_a.episode(timeout=timeout,decayAlpha=decayAlpha) delta_r = Evaluation.getDeltas(agent_r,p_r) delta_a = Evaluation.getDeltas(agent_a,p_a,agg=p_a.aggregation) dtilde = Evaluation.nonMarkovianity(p_a.transitions[0], p_a.aggregation) dmat[i*rep+j] = (pid,n,n_agg,b,acts,e_noise,dtilde,np.average(delta_r),np.average(delta_a)) if log_prob: with open(path+filename,'wb') as f: pickle.dump(problem_dict,f) data = pd.DataFrame(data=dmat,columns=['pid','n','n_agg','b','acts','e_noise','nonmarkovianity','d_r','d_a']) return data

Exemple #4

0

Afficher le fichier

def test_convergence_ql(param_tuple,timeout=100,interval=100,gamma=0.9,aggtype='q'): """ Generates a random problem from (single) parameter tuple, runs qlearning and records value function deviation at regular intervals. """ n, n_agg, b, acts, e_noise = param_tuple p_r, p_a, _ = problems.genRandomProblems(n,n_agg,acts,b,gamma=gamma,e_noise=e_noise) agent_r = Agents.QAgent(p_r,alpha=1e-1) agent_a = Agents.QAgent(p_a,alpha=1e-1) dmat = np.zeros((intervals,3)) for i in range(intervals): agent_r.episode(timeout=timeout) agent_a.episode(timeout=timeout) delta_a = Evaluation.getDeltas(agent_a,p_a) delta_r = Evaluation.getDeltas(agent_r,p_r) dmat[i] = (i*interval,delta_a,delta_r) data = pd.DataFrame(data=dmat,columns=['n','d_a','d_r']) return data

Exemple #5

0

Afficher le fichier

def evaluate_MC_qhat(): p = Problems.MountainCar(representation='tile') a = Agents.QAgent(p,alpha=0.01,tiles=True) a.run_n_episodes(35000) qv = agent.approxQValues(100) return qv