Python DQN示例

编程语言: Python

命名空间/包名称: model_DDDQN

类/类型: DQN

hotexamples.com的示例: 3

Python DQN - 已找到3个示例。这些是从开源项目中提取的最受好评的model_DDDQN.DQN现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

parameters(3)

DQN(2)

eval(2)

load_state_dict(2)

train(2)

state_dict(1)

示例#1

显示文件

文件： training_CartPole.py 项目： vishalbelsare/rl-finance

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print("Current usable device is: ", device)

########################################
# Model hyperparameters
input_size = 4  # Size of state
output_size = 2  # Number of discrete actions
batch_size = 128
GAMMA = 0.999
EPS_START = 0.9
EPS_END = 0.05
EPS_DECAY = 200
target_update = 10

# Create the models
policy_net = DQN(input_size, output_size).to(device)
target_net = DQN(input_size, output_size).to(device)
target_net.load_state_dict(policy_net.state_dict())
target_net.eval()

# Set up replay memory
memory = ReplayMemory(10000)

# Set up optimizer
optimizer = optim.Adam(policy_net.parameters())

########################################
# Start training
num_episodes = 500
ckpt_dir = "DDDQN_CartPoleV1_obs_checkpoints/"
save_ckpt_interval = 100

示例#2

显示文件

# Turn on pyplot's interactive mode
# VERY IMPORTANT because otherwise training stats plot will hault
plt.ion()

# Create OpenAI gym environment
env = gym.make(env_name)
if is_unwrapped:
    env = env.unwrapped

# Get device
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print("Current usable device is: ", device)

# Create the models
policy_net = DQN(input_size, output_size).to(device)
target_net = DQN(input_size, output_size).to(device)
target_net.load_state_dict(policy_net.state_dict())
target_net.eval()

# Set up replay memory
memory = ReplayMemory(replaybuffer_size)

# Set up optimizer - Minimal
# optimizer = optim.Adam(policy_net.parameters())
optimizer = optim.SGD(policy_net.parameters(), lr=learning_rate)

###################################################################
# Start training

# Dictionary for extra training information to save to checkpoints

示例#3

显示文件

文件： save_and_load.py 项目： TownesZhou/RL-Playground

def load_checkpoint(file_dir,
                    i_episode,
                    input_size,
                    output_size,
                    device='cuda'):
    checkpoint = torch.load(os.path.join(file_dir,
                                         "ckpt_eps%d.pt" % i_episode))

    policy_net = DQN(input_size, output_size).to(device)
    policy_net.load_state_dict(checkpoint["policy_net"])
    policy_net.train()

    target_net = DQN(input_size, output_size).to(device)
    target_net.load_state_dict(checkpoint["target_net"])
    target_net.eval()

    learning_rate = checkpoint["learning_rate"]

    # optimizer = optim.Adam(policy_net.parameters())
    optimizer = optim.SGD(policy_net.parameters(), lr=learning_rate)
    optimizer.load_state_dict(checkpoint["optimizer"])

    checkpoint.pop("policy_net")
    checkpoint.pop("target_net")
    checkpoint.pop("optimizer")
    checkpoint.pop("i_episode")
    checkpoint.pop("learning_rate")

    return policy_net, target_net, optimizer, checkpoint