Python Network.batch_initial_inference 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: models

클래스/타입: Network

메소드/함수: batch_initial_inference

hotexamples.com에서의 예제들: 1

Python Network.batch_initial_inference - 1개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 models.Network.batch_initial_inference에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Network(30)

load_state_dict(12)

parameters(9)

save(6)

state_dict(5)

eval(5)

named_parameters(4)

to(3)

predict(3)

fit(3)

get(3)

from_dict(2)

increment_step(2)

shared_objects(2)

initial_inference(2)

objects(1)

overlaps_with(1)

recurrent_inference(1)

arch_parameters(1)

save_checkpoint(1)

save_model(1)

save_network(1)

save_weights(1)

servers(1)

store(1)

train(1)

next_unused_network(1)

load_weights(1)

mlp_parameters(1)

embedding_parameters(1)

batch_initial_inference(1)

batch_recurrent_inference(1)

bulk_create(1)

calc_reward(1)

compile(1)

delete(1)

forward(1)

loss(1)

get_all(1)

get_layer(1)

load_checkpoint(1)

load_dict(1)

load_network(1)

add_model_specific_args(1)

as_dict(1)

train_parameters(1)

예제 #1

파일 보기

파일: training.py 프로젝트: ejmejm/MuZero

def batch_update_weights(optimizer: optim.Optimizer, network: Network, batch):
    optimizer.zero_grad()

    value_loss = 0
    reward_loss = 0
    policy_loss = 0

    # Format training data
    image_batch = np.array([item[0] for item in batch])
    action_batches = np.array([item[1] for item in batch])
    target_batches = np.array([item[2] for item in batch])
    action_batches = np.swapaxes(action_batches, 0, 1)
    target_batches = target_batches.transpose(1, 2, 0)

    # Run initial inference
    values, rewards, policy_logits, hidden_states = network.batch_initial_inference(
        image_batch)
    predictions = [(1, values, rewards, policy_logits)]

    # Run recurrent inferences
    for action_batch in action_batches:
        values, rewards, policy_logits, hidden_states = network.batch_recurrent_inference(
            hidden_states, action_batch)
        predictions.append(
            (1.0 / len(action_batches), values, rewards, policy_logits))

        hidden_states = scale_gradient(hidden_states, 0.5)

    # Calculate losses
    for target_batch, prediction_batch in zip(target_batches, predictions):
        gradient_scale, values, rewards, policy_logits = prediction_batch
        target_values, target_rewards, target_policies = \
            (torch.tensor(list(item), dtype=torch.float32, device=values.device.type) \
            for item in target_batch)

        gradient_scale = torch.tensor(gradient_scale,
                                      dtype=torch.float32,
                                      device=values.device.type)
        value_loss += gradient_scale * scalar_loss(values, target_values)
        reward_loss += gradient_scale * scalar_loss(rewards, target_rewards)
        policy_loss += gradient_scale * cross_entropy_with_logits(
            policy_logits, target_policies, dim=1)

    value_loss = value_loss.mean() / len(batch)
    reward_loss = reward_loss.mean() / len(batch)
    policy_loss = policy_loss.mean() / len(batch)

    total_loss = value_loss + reward_loss + policy_loss
    logging.info('Training step {} losses'.format(network.training_steps()) + \
        ' | Total: {:.5f}'.format(total_loss) + \
        ' | Value: {:.5f}'.format(value_loss) + \
        ' | Reward: {:.5f}'.format(reward_loss) + \
        ' | Policy: {:.5f}'.format(policy_loss))

    # Update weights
    total_loss.backward()
    optimizer.step()
    network.increment_step()

    return total_loss, value_loss, reward_loss, policy_loss