Python Agent.compute_target示例

编程语言: Python

命名空间/包名称: model

类/类型: Agent

方法/功能: compute_target

hotexamples.com的示例: 2

Python Agent.compute_target - 已找到2个示例。这些是从开源项目中提取的最受好评的model.Agent.compute_target现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

Agent(30)

act(8)

chooseAction(4)

choose_action(4)

get_action(4)

eval(3)

get_actor_weights(3)

compute_target(2)

EPSILON(1)

acting(1)

acting_train(1)

choose_action_narrow(1)

compute_advantage(1)

count(1)

critic_local(1)

from_vec(1)

示例#1

显示文件

文件： main.py 项目： jiechuanjiang/MARL-Mujoco

            p.append(out[i][0])
    next_obs, reward, terminated, info = env.step(np.hstack(p))
    setps += 1
    ep_len += 1
    for i in range(n_ant):
        buff[i].add(obs, p[i], reward, next_obs, terminated)
    obs = next_obs

    if (terminated) | (ep_len == max_ep_len):
        obs = env.reset()
        terminated = False
        ep_len = 0

    if setps % 10000 == 0:
        print(test_agent())

    if (setps < 1000) | (setps % 50 != 0):
        continue

    for e in range(50):

        for i in range(n_ant):
            X[i], A[i], R[i], next_X[i], D[i] = buff[i].getBatch(batch_size)
        q_e = agents.compute_target([next_X[i] for i in range(n_ant)])
        for i in range(n_ant):
            Q_target[i] = R[i] + (q_e[i] -
                                  alpha * q_e[i + n_ant]) * gamma * (1 - D[i])

        agents.train_critics(X, A, Q_target)
        agents.train_actors(X)
        agents.update()

示例#2

显示文件

	sum_reward += reward
	setps += 1
	buff.add(obs, p, reward, next_obs, terminated)
	obs = next_obs

	if terminated:
		obs = env.reset()
		terminated = False
		reward_list.append(sum_reward)
		sum_reward = 0
		if buff.pointer > buffer_size:

			print(np.mean(reward_list))
			reward_list = []

			for k in range(num_ite):
				states, actions, returns, next_states, dones, gammas = buff.getBatch(mini_batch)
				Q_target = agents.compute_target([next_states])[0]
				Q_target = returns + Q_target*gammas*(1 - dones)
				agents.train_critic(states, actions, Q_target)
				agents.update()

			states, actions, returns, next_states, dones, gammas = buff.getBatch(2000)
			advantages = agents.compute_advantage([states]+[actions[i] for i in range(n_ant)])
			if advantage_norm:
				for i in range(n_ant):
					advantages[i] = (advantages[i] - advantages[i].mean())/(advantages[i].std()+1e-8)
			agents.train_actors(states, actions, advantages)

			buff.reset()