Python Net 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: rl.policy_model

클래스/타입: Net

hotexamples.com에서의 예제들: 3

Python Net - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 rl.policy_model.Net에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Net(3)

eval(2)

load_state_dict(2)

parameters(1)

state_dict(1)

예제 #1

파일 보기

파일: 2_test_rule-base-simulator_nlg-template.py 프로젝트: qbetterk/user-simulator

def load_policy_model(model_dir="model/test_nlg_no_warm_up_with_nlu.pkl"):
    # f.seek(0)
    model = torch.load(model_dir)
    net = Net(state_dim=dialog_config.STATE_DIM, num_actions=dialog_config.SYS_ACTION_CARDINALITY, config=config).to(device)
    net.load_state_dict(model)
    net.eval()
    return net

예제 #2

파일 보기

def load_policy_model(model_dir):
    model = torch.load(model_dir)
    net = Net(state_dim=dialog_config.STATE_DIM,
              num_actions=dialog_config.SYS_ACTION_CARDINALITY,
              config=config).to(device)
    net.load_state_dict(model)
    net.eval()
    return net

예제 #3

파일 보기

def load_policy_model(model_dir="model/test_nlg_no_warm_up_with_nlu.pkl"):
    model = torch.load(model_dir)
    net = Net(state_dim=dialog_config.STATE_DIM,
              num_actions=dialog_config.SYS_ACTION_CARDINALITY,
              config=config).to(device)
    net.load_state_dict(model)
    net.eval()
    return net


if config.resume:
    policy_net = load_policy_model(config.resume_rl_model_dir)
else:
    policy_net = Net(state_dim=state_dim,
                     num_actions=num_actions,
                     config=config).to(device)  #

# optimizer = optim.RMSprop(policy_net.parameters())
optimizer = optim.Adam(lr=config.lr,
                       params=policy_net.parameters(),
                       weight_decay=5e-5)
# net.optimizer = optim.Adam(params=net.parameters(), lr=5e-4, weight_decay=1e-3)
# net.lr_scheduler = optim.lr_scheduler.StepLR(net.optimizer, step_size=500, gamma=0.95)
# net.loss_func = nn.CrossEntropyLoss()

pg_reinforce = PolicyGradientREINFORCE(
    optimizer=optimizer,
    policy_network=policy_net,
    state_dim=state_dim,
    num_actions=num_actions,