Python ReplayBuffer.load_memory Exemples

Langage de programmation: Python

Espace de nommage/Pack: replay_buffer

Class/Type: ReplayBuffer

Méthode/Fonction: load_memory

Exemples au hotexamples.com: 4

Python ReplayBuffer.load_memory - 4 exemples trouvés. Ce sont les exemples réels les mieux notés de replay_buffer.ReplayBuffer.load_memory extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

ReplayBuffer(30)

add(30)

count(26)

get_batch(25)

append(17)

encode_recent_observation(7)

getBatch(7)

add_sample(7)

insert(7)

clear(6)

load(5)

load_memory(5)

can_sample(4)

add_episode(4)

add_transition(4)

get_last_steps(3)

get_size(3)

create_batch(3)

is_ready(3)

add_experience(3)

add_to_memory(2)

make_index(2)

compute_values(2)

compute_value_difference(2)

compute_reward_distances(2)

compute_returns(2)

compute_lambda_returns(2)

fetch_sample(2)

compute_episode_boundaries(2)

encoder_recent_observation(2)

idx(2)

get_batch_data(1)

get_current_size(1)

get_experiences(1)

get_len(1)

get_current_state(1)

load_replay(1)

get_losses_offline(1)

get_memory(1)

get_minibatch(1)

importance_sampling(1)

in_order_iterate(1)

insert_sample(1)

k(1)

length(1)

lenth(1)

load_from_file(1)

get_random_minibatch(1)

dump(1)

get(1)

Méthodes fréquemment utilisées

ReplayBuffer (30)

add (30)

count (26)

get_batch (25)

append (17)

encode_recent_observation (7)

getBatch (7)

add_sample (7)

insert (7)

clear (6)

Méthodes fréquemment utilisées

load (5)

load_memory (5)

can_sample (4)

add_episode (4)

add_transition (4)

get_last_steps (3)

get_size (3)

create_batch (3)

is_ready (3)

add_experience (3)

add_to_memory (2)

make_index (2)

compute_values (2)

compute_value_difference (2)

compute_reward_distances (2)

compute_returns (2)

compute_lambda_returns (2)

fetch_sample (2)

compute_episode_boundaries (2)

encoder_recent_observation (2)

Méthodes fréquemment utilisées

add_to_memory (2)

make_index (2)

compute_values (2)

compute_value_difference (2)

compute_reward_distances (2)

compute_returns (2)

compute_lambda_returns (2)

fetch_sample (2)

compute_episode_boundaries (2)

encoder_recent_observation (2)

idx (2)

get_batch_data (1)

get_current_size (1)

get_experiences (1)

get_len (1)

get_current_state (1)

load_replay (1)

get_losses_offline (1)

get_memory (1)

get_minibatch (1)

importance_sampling (1)

in_order_iterate (1)

insert_sample (1)

k (1)

length (1)

lenth (1)

load_from_file (1)

get_random_minibatch (1)

dump (1)

get (1)

Méthodes fréquemment utilisées

idx (2)

get_batch_data (1)

get_current_size (1)

get_experiences (1)

get_len (1)

get_current_state (1)

load_replay (1)

get_losses_offline (1)

get_memory (1)

get_minibatch (1)

importance_sampling (1)

in_order_iterate (1)

insert_sample (1)

k (1)

length (1)

lenth (1)

load_from_file (1)

get_random_minibatch (1)

dump (1)

get (1)

batch_load (1)

_count (1)

_ptr (1)

addAbsorbing (1)

add_batch (1)

add_data (1)

add_datapoints (1)

add_effects (1)

add_errors (1)

add_expert (1)

add_tuples (1)

adds (1)

as_dataset (1)

buffer_init (1)

full (1)

buffered (1)

cache (1)

clear_buffer (1)

create_episode (1)

current_count (1)

Exemple #1

0

Afficher le fichier

def train(env, config): """ """ t0 = time.time() save_models_path = str(config["locexp"]) memory = ReplayBuffer((8, ), (1, ), config["buffer_size"], config["seed"], config["device"]) memory.load_memory(config["buffer_path"]) agent = Agent(state_size=8, action_size=4, config=config) if config["idx"] < memory.idx: memory.idx = config["idx"] print("memory idx ", memory.idx) for t in range(config["predicter_time_steps"]): text = "Train Predicter {} \ {} time {} \r".format( t, config["predicter_time_steps"], time_format(time.time() - t0)) print(text, end='') agent.learn(memory) if t % int(config["eval"]) == 0: print(text) agent.save(save_models_path + "/models/{}-".format(t)) #agent.test_predicter(memory) agent.test_q_value(memory) agent.eval_policy() agent.eval_policy(True, 1)

Exemple #2

0

Afficher le fichier

Fichier : iql_train.py Projet : ChrisProgramming2018/DDIQLearning

def train(env, config): """ """ t0 = time.time() memory = ReplayBuffer((8,), (1,), config["expert_buffer_size"], config["device"]) memory.load_memory(config["buffer_path"]) agent = Agent(state_size=8, action_size=4, config=config) memory.idx = config["idx"] #for i in range(10): # print("state", memory.obses[i]) # sys.exit() print("memroy idx ",memory.idx) if config["mode"] == "predict": for t in range(config["predicter_time_steps"]): text = "Train Predicter {} \ {} time {} \r".format(t, config["predicter_time_steps"], time_format(time.time() - t0)) print(text, end = '') agent.learn_predicter(memory) if t % 2000 == 0: # agent.test_predicter(memory) agent.save("pytorch_models-{trained_predicter}/") return if config["mode"] == "iql": agent.test_predicter(memory) for t in range(config["predicter_time_steps"]): text = "Train Predicter {} \ {} time {} \r".format(t, config["predicter_time_steps"], time_format(time.time() - t0)) print(text, end = '') agent.learn(memory) if t % 100 == 0: print(text) agent.test_predicter(memory) agent.test_q_value(memory) # agent.test_policy() if config["mode"] == "dqn": print("mode dqn") agent.dqn_train() return

Exemple #3

0

Afficher le fichier

from replay_buffer import ReplayBuffer import cv2 memory = ReplayBuffer((64, 64, 3), (1, ), 50000, "cuda") memory.load_memory("pacman_expert_memory-9000") state = memory.obses[0] next_state = memory.next_obses[0] print(state.shape) cv2.imshow('HelloWorld', state) cv2.waitKey(0) cv2.imshow('HelloWorld', next_state) cv2.waitKey(0)

Exemple #4

0

Afficher le fichier

Fichier : train.py Projet : ChrisProgramming2018/bachelorProjectCar

def train_agent(env, config): """ Args: """ # create CNN convert the [1,3,84,84] to [1, 200] now = datetime.now() dt_string = now.strftime("%d_%m_%Y_%H:%M:%S") torch.manual_seed(config["seed"]) np.random.seed(config["seed"]) #pathname = str(args.locexp) + "/" + str(args.env_name) + '_agent_' + str(args.policy) #pathname += "_batch_size_" + str(args.batch_size) + "_lr_act_" + str(args.lr_actor) #pathname += "_lr_critc_" + str(args.lr_critic) + "_lr_decoder_" pathname = dt_string tensorboard_name = str(config["locexp"]) + '/runs/' + pathname agent = DQNAgent(state_size=200, action_size=env.action_space.n, config=config) writer = SummaryWriter(tensorboard_name) print("action_size {}".format(env.action_space.n)) # eval_policy(env, agent, writer, 0, config) memory = ReplayBuffer((3, config["size"], config["size"]), (1, ), config["expert_buffer_size"], int(config["image_pad"]), config["device"]) if config["create_buffer"]: create_buffer(env, memory, config) memory.load_memory("/export/leiningc/" + config["buffer_path"]) else: print("load Buffer") memory.load_memory("/export/leiningc/" + config["buffer_path"]) print("Buffer size {}".format(memory.idx)) eps = config["eps_start"] eps_end = config["eps_end"] eps_decay = config["eps_decay"] scores_window = deque(maxlen=100) scores = [] t0 = time.time() for i_episode in range(config["train_episodes"]): obs = env.reset() score = 0 for t in range(config["max_t"]): action = agent.act(obs, eps) # action = env.action_space.sample() next_obs, reward, done_no_max, _ = env.step(action) done = done_no_max if t + 1 == config["max_t"]: print("t ", t) done = 0 memory.add(obs, action, reward, next_obs, done, done_no_max) agent.step(memory, writer) obs = next_obs eps = max(eps_end, eps_decay * eps) # decrease epsilon score += reward if done: break scores_window.append(score) # save most recent scor scores.append(score) # save most recent score ave_score = np.mean(scores_window) writer.add_scalar("ave_score", ave_score, i_episode) writer.add_scalar("episode_score", score, i_episode) print( '\rEpisode {} score {} \tAverage Score: {:.2f} eps: {:.2f} time: {}' .format(i_episode, score, np.mean(scores_window), eps, time_format(time.time() - t0)), end="") if i_episode % config["eval"] == 0: eval_policy(env, agent, writer, i_episode, config) agent.save( str(config["locexp"]) + "/models/eval-{}/".format(i_episode)) print( 'Episode {} Average Score: {:.2f} eps: {:.2f} time: {}'. format(i_episode, np.mean(scores_window), eps, time_format(time.time() - t0)), )