Python GaussianPolicy.load示例

编程语言: Python

命名空间/包名称: model

类/类型: GaussianPolicy

方法/功能: load

hotexamples.com的示例: 4

Python GaussianPolicy.load - 已找到4个示例。这些是从开源项目中提取的最受好评的model.GaussianPolicy.load现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

GaussianPolicy(30)

parameters(17)

load_state_dict(12)

state_dict(12)

sample(11)

load(4)

eval(2)

evaluate(2)

train(2)

get_logprob(1)

lod_prob(1)

save(1)

示例#1

显示文件

def run():
    parser = argparse.ArgumentParser()
    parser.add_argument('--env_id', type=str, default='AntBulletEnv-v0')
    parser.add_argument('--log_name', type=str, default='')
    parser.add_argument('--cuda', action='store_true')
    parser.add_argument('--seed', type=int, default=0)
    args = parser.parse_args()

    if args.log_name:
        log_dir = os.path.join('logs', args.env_id, args.log_name)
    else:
        env_dir = os.path.join('logs', args.env_id, '*')
        dirs = glob.glob(env_dir)
        log_dir = max(dirs, key=os.path.getctime)
        print(f'using {log_dir}')

    env = gym.make(args.env_id)
    device = torch.device(
        "cuda" if args.cuda and torch.cuda.is_available() else "cpu")

    policy = GaussianPolicy(
        env.observation_space.shape[0],
        env.action_space.shape[0],
        hidden_units=[256, 256]).to(device)

    policy.load(os.path.join(log_dir, 'model', 'policy.pth'))
    grad_false(policy)

    def exploit(state):
        state = torch.FloatTensor(state).unsqueeze(0).to(device)
        with torch.no_grad():
            _, _, action = policy.sample(state)
        return action.cpu().numpy().reshape(-1)

    env.render()
    while True:
        state = env.reset()
        episode_reward = 0.
        done = False
        while not done:
            env.render()
            action = exploit(state)
            next_state, reward, done, _ = env.step(action)
            episode_reward += reward
            state = next_state
        print(f'total reward: {episode_reward}')
        time.sleep(1)

示例#2

显示文件

def testing():
    parser = argparse.ArgumentParser()
    parser.add_argument('--env_name', type=str, default='HalfCheetah-v2')
    parser.add_argument('--num_episode', type=int, default=10)
    args = parser.parse_args()

    num_episode = args.num_episode

    env = gym.make(args.env_name)
    device = torch.device(
        "cuda" if torch.cuda.is_available() else "cpu")

    policy = GaussianPolicy(
        env.observation_space.shape[0],
        env.action_space.shape[0],
        hidden_units=[256, 256]).to(device)

    policy.load(os.path.join('models', args.env_name, 'policy.pth'))
    grad_false(policy)

    def exploit(state):
        state = torch.FloatTensor(state).unsqueeze(0).to(device)
        with torch.no_grad():
            _, _, action = policy.sample(state)
        return action.cpu().numpy().reshape(-1)

    e_rewrads = []
    for _ in range(num_episode):
        state = env.reset()
        episode_reward = 0.
        done = False
        while not done:
            if num_episode <= 1:
                env.render()
            action = exploit(state)
            next_state, reward, done, _ = env.step(action)
            episode_reward += reward
            state = next_state
        e_rewrads.append(episode_reward)
    print("Average reward of " + args.env_name + " is %.1f"%(np.mean(e_rewrads)))
    print("Average std of " + args.env_name + " is %.1f"%(np.std(e_rewrads)))

示例#3

显示文件

文件： play.py 项目： yskim525/soft-actor-critic.pytorch

def run():
    parser = argparse.ArgumentParser()
    parser.add_argument('--env_id', type=str, default='HalfCheetah-v2')
    parser.add_argument('--log_name', type=str, default='sac-seed0-datetime')
    parser.add_argument('--cuda', action='store_true')
    parser.add_argument('--seed', type=int, default=0)
    args = parser.parse_args()

    log_dir = os.path.join('logs', args.env_id, args.log_name)

    env = gym.make(args.env_id)
    device = torch.device(
        "cuda" if args.cuda and torch.cuda.is_available() else "cpu")

    policy = GaussianPolicy(env.observation_space.shape[0],
                            env.action_space.shape[0],
                            hidden_units=[256, 256]).to(device)

    policy.load(os.path.join(log_dir, 'model', 'policy.pth'))
    grad_false(policy)

    def exploit(state):
        state = torch.FloatTensor(state).unsqueeze(0).to(device)
        with torch.no_grad():
            _, _, action = policy.sample(state)
        return action.cpu().numpy().reshape(-1)

    state = env.reset()
    episode_reward = 0.
    done = False
    while not done:
        env.render()
        action = exploit(state)
        next_state, reward, done, _ = env.step(action)
        episode_reward += reward
        state = next_state

示例#4

显示文件

import torch
from torch.optim import Adam
from torch.utils.tensorboard import SummaryWriter
from rltorch.memory import MultiStepMemory, PrioritizedMemory

from model import TwinnedQNetwork, GaussianPolicy
import random
import gym
from dst_d import DeepSeaTreasure

date = 'sac-seed0-20210512-2219'
critic = TwinnedQNetwork(2, 2, 2, [256, 256])
critic.load('./logs/dst_d-v0/' + date + '/model/critic.pth')

policy = GaussianPolicy(4, 2, [256, 256])
policy.load('./logs/dst_d-v0/' + date + '/model/policy.pth')

device = 'cuda'

vis = visdom.Visdom()
env = gym.make('dst_d-v0')


def q_heatmap(action, prefer):
    prefer = torch.tensor(prefer, dtype=torch.float32)
    action = torch.tensor(action, dtype=torch.float32)

    value = np.empty([11, 11])
    time = np.empty([11, 11])

    for i in range(11):