Python Agent.REINFORCE примеры использования

Язык программирования: Python

Пространство имен/Пакет: Agent

Класс/Тип: Agent

Метод/Функция: REINFORCE

Примеров на hotexamples.com: 1

Python Agent.REINFORCE - 1 пример найден. Это лучшие примеры Python кода для Agent.Agent.REINFORCE, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

__init__(30)

act(30)

Agent(30)

Solve(15)

Walk(4)

averagePathLength(3)

TargetPotentialForce(3)

start(2)

pluckTillConnected(2)

infiniteRadium(2)

Prod(2)

Perceive(2)

decide(2)

randomRangeRadiumUnif(2)

SwarmPotentialForce(2)

GetNextState(2)

Util(2)

DoNothing(2)

Clean(2)

groupSize(2)

edgeOccupation(1)

draw(1)

constRadium(1)

isConnected(1)

getRandomVertexPair(1)

getState(1)

make_typo_mistake(1)

pluck(1)

pluckEdge(1)

print_params(1)

randomRangeRadiumNormal(1)

recover(1)

removeEdge(1)

setChannel(1)

setName(1)

setState(1)

set_continuum(1)

changeURL(1)

ASTAR(1)

addEdge(1)

MoveRight(1)

BFS(1)

DQNepisode(1)

ExecuteMovement(1)

GetActions(1)

GetLocationX(1)

GetLocationY(1)

MoveDown(1)

MoveLeft(1)

MoveRandom(1)

Пример #1

Показать файл

              shuffle_gradients=args.reinforce_shuffle)

count = 0
for iteration in range(args.agg_iters):
    agent.train(args.num_epochs, iteration)
    for traj in range(args.traj_per_agg):
        timestep = env.reset()
        rewards = []
        if args.record:
            recorder = Recorder(args.experiment_name, count)
        for t in tqdm(range(args.traj_length), desc='Generating episode'):
            if args.record:
                recorder.record_frame(env.physics.render(camera_id=0), t)
            state = env.physics.state()
            action = agent.choose_action(state)
            timestep = env.step(action)
            new_state, reward = env.physics.state(), timestep.reward
            agent.D_RL.pushTrajectory([state, action, reward, new_state])
            rewards.append(reward)
        print('Trajectory done. Total reward: {}'.format(sum(rewards)))
        writer.add_scalar('total_reward', sum(rewards), count)
        val_loss = agent.validation_loss()
        logger.log([count, sum(rewards), val_loss[0], val_loss[1]])
        print(count, sum(rewards), val_loss[0], val_loss[1])
        #agent.saveifbest(sum(rewards), args.experiment_name)
        if args.reinforce:
            agent.REINFORCE(rewards)
        if args.record:
            recorder.make_movie()
        count += 1