Python DQN.Mynet 예제들

프로그래밍 언어: Python

클래스/타입: DQN

메소드/함수: Mynet

hotexamples.com에서의 예제들: 2

Python DQN.Mynet - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 DQN.Mynet 패키지로부터 acme에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

DQN(30)

Agent(6)

DQNAgent(4)

DQN_Agent(2)

Mynet(2)

Memory(2)

ImageProcess(2)

ZeroGamaDQN(2)

DQNPlayer(2)

DQNT(1)

Choose_Action_EpsilonGreedy(1)

Transition(1)

Train(1)

ReplyMemory(1)

Q_Learning(1)

QNetwork(1)

Pw_Agent(1)

NoisyDQN(1)

DQNMethod(1)

DQN_VR(1)

IRL_helper(1)

GraphNet(1)

Cartpole(1)

Deep_Q_Learning(1)

DeepQNetwork(1)

DQNplayer(1)

DQNmodel(1)

Environment(1)

예제 #1

파일 보기

 def __init__(self):
     env = gym.envs.make("PongDeterministic-v4")
     self.Q_target = DQN.Mynet(env.observation_space, env.action_space).to(device)
     self.Q_policy = DQN.Mynet(env.observation_space, env.action_space).to(device)
     self.Q_target.load_state_dict(self.Q_policy.state_dict())
     self.Q_target.eval()
     self.env = env
     self.pool = DQN.ReplyMemory(15000)
     self.gramma = GRAMMA
     self.alpha = ALPHA
     self.epsilon = EPSILON
     self.ImageProcess = DQN.ImageProcess()

예제 #2

파일 보기

import random

device = 'cpu'


def transfor_o(ob):
    obb = []
    for i in ob:
        obb.append(torch.tensor(i.tolist(), dtype=torch.float32).to(device).unsqueeze(0))
    return torch.cat(obb).to(device).unsqueeze(0)


if __name__ == '__main__':
    env = gym.envs.make("PongDeterministic-v4")

    V = DQN.Mynet(env.observation_space, env.action_space)
    # V = DQN.Mynet()
    # with open('./save_model/499.pt', 'r') as f:
    V.load_state_dict(torch.load(r'C:\Users\lingse\Desktop\新建文件夹\RL_home_work-master\Q_save_model\899_pong_new.pt'))
    V.eval()
    observation = [None for i in range(5)]
    import numpy as np

    # c = V(state).max(1)[1].view(1, 1)
    I = DQN.ImageProcess()
    while True:
        state = env.reset()
        state = I.ColorMat2Binary(state)
        state_shadow = np.stack((state, state, state, state), axis=2)
        state_now = transfor_o(state_shadow)
        import time