Python DQN.Memory примеры использования

Язык программирования: Python

Класс/Тип: DQN

Метод/Функция: Memory

Примеров на hotexamples.com: 2

Python DQN.Memory - 2 примера найдено. Это лучшие примеры Python кода для DQN.Memory из пакета acme, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

DQN(30)

Agent(6)

DQNAgent(4)

DQN_Agent(2)

Mynet(2)

Memory(2)

ImageProcess(2)

ZeroGamaDQN(2)

DQNPlayer(2)

DQNT(1)

Choose_Action_EpsilonGreedy(1)

Transition(1)

Train(1)

ReplyMemory(1)

Q_Learning(1)

QNetwork(1)

Pw_Agent(1)

NoisyDQN(1)

DQNMethod(1)

DQN_VR(1)

IRL_helper(1)

GraphNet(1)

Cartpole(1)

Deep_Q_Learning(1)

DeepQNetwork(1)

DQNplayer(1)

DQNmodel(1)

Environment(1)

Пример #1

Показать файл

import numpy as np

import DQN

NUM_EPISODE = 10
NUM_STEP = 100

if __name__ == "__main__":

    mainQN = DQN.QNetwork(debug_log=True)
    memory = DQN.Memory(max_size=1000)
    #actor = DQN.Actor()

    for episode in range(NUM_EPISODE):

        print('episode {}'.format(episode))

        state = np.random.rand(16 * 16 * 8).reshape(1, 16, 16, 8)
        #action1 = [7, 7]
        #action2 = [8, 8]

        for step in range(NUM_STEP):

            #action, _ = actor.get_action(state, step, mainQN, 'r', action1, action2, 1, True, False, False)
            action = np.array([0, 0])

            if step == NUM_STEP - 1:
                next_state = np.zeros((1, 16, 16, 8))
                reward = 1.0
            else:
                next_state = np.random.rand(16 * 16 * 8).reshape(1, 16, 16, 8)

Пример #2

Показать файл

Файл: environmentCarRoad.py Проект: marho13/UnityRL_implementations

solved_reward = 230  # stop training if avg_reward > solved_reward
log_interval = 20  # print avg reward in the interval
max_episodes = 50000  # max training episodes
max_timesteps = 3000  # max timesteps in one episode
n_latent_var = 64  # number of variables in hidden layer
update_timestep = 200  # update policy every n timesteps

#Change these first
lr = 0.002
betas = (0.9, 0.999)
gamma = 0.99  # discount factor
K_epochs = 4  # update policy for K epochs
eps_clip = 0.2  # clip parameter for PPO
#############################################
# print(dir(DQN))
memory = DQN.Memory()
model = DQN.DQN(state_dim, action_dim, n_latent_var, lr, betas, gamma,
                K_epochs, eps_clip)

# memory = PPO.Memory()
# model = PPO.PPO(state_dim, action_dim, n_latent_var, lr, betas, gamma, K_epochs, eps_clip)
print("About to load model...")
if loadingBool:
    try:
        print(file)
        ## DQN
        model.policy_net.load_state_dict(torch.load(file))
        model.target_net.load_state_dict(torch.load(file))

        ## PPO
        # model.policy.load_state_dict(torch.load(file))