Python DQN.update_target Beispiele

Programmiersprache: Python

Namespace / Paketname: model

Klasse / Typ: DQN

Methode / Funktion: update_target

Beispiele auf hotexamples.com: 2

Python DQN.update_target - 2 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die model.DQN.update_target, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

DQN(30)

load_state_dict(30)

parameters(30)

train(30)

eval(30)

state_dict(30)

get_action(25)

init_state(20)

remember(19)

cuda(18)

reset_noise(14)

update_target_network(13)

zero_grad(12)

save(12)

load(11)

act(10)

to(8)

predict(8)

sample_noise(5)

forward(5)

update_noisy_modules(4)

update(4)

sample_action(3)

chooseAction(2)

update_target(2)

share_memory(2)

save_model(2)

initState(2)

getAction(2)

learn(2)

optimize(2)

perceive(1)

train_Xy(1)

store_path(1)

store_transition(1)

copy2target(1)

to_gpu(1)

choose_action(1)

train_net(1)

step(1)

train_step(1)

memory(1)

updateTargetNetwork(1)

fit(1)

forward_with_latent(1)

apply(1)

store(1)

copy_from(1)

pick_action(1)

reset_model(1)

Beispiel #1

Datei anzeigen

Datei: train.py Projekt: bic4907/mario_rl

            state_ = rgb2dataset(state_)

            model.memory(state, action, reward, done)
            accum_reward += reward
            model.step += 1
            state = state_

            # Transition
            transition.append(state)
            if len(transition) > 4:
                transition.pop(0)

            if model.step > model.train_start_step and model.step % model.train_step_interval:
                model.train()
                if model.step % model.target_update_interval == 0:
                    model.update_target()

            if is_render:
                env.render()

            if done:

                writer.add_scalar('reward/accum', accum_reward, model.step)
                writer.add_scalar('data/epsilon', model.epsilon, model.step)
                writer.add_scalar('data/x_pos', info['x_pos'], model.step)
                print(
                    "Episode : %5d\t\tSteps : %10d\t\tReward : %7d\t\tX_step : %4d\t\tEpsilon : %.3f"
                    % (model.episode, model.step, accum_reward, info['x_pos'],
                       model.epsilon))

                if save_model and model.episode % 100 == 0:

Beispiel #2

Datei anzeigen

Datei: rllearn.py Projekt: osuprg/Gazebo-OpenAIGym

gamma      = 0.99
lr = 3e-4
buffer_size = 50000
learning_starts = 300
grad_clip = 10
plot_freq = 1000

losses = []
all_rewards = []
episode_reward = 0
saved_mean_reward = None

#create dqn
dqn = DQN(observation_size, num_actions,device=device,lr=lr,dueling=True,gamma=gamma)
#update the dqn target network to match weights
dqn.update_target()

replay_buffer = ReplayBuffer(buffer_size) 

target_network_update_freq = 200
train_freq = 1
checkpoint_freq = 3000
num_episodes=0
model_file = os.path.join(os.getcwd(),"turtlebot_model_test")

state = env.reset()
ep_no = 0 #epsiode number counter
teleop=False
#teleop=True

if teleop==False: #RL Learning happens, no teleop mode