Python ReplayBuffer.get_memory Exemples

Langage de programmation: Python

Espace de nommage/Pack: replay_buffer

Class/Type: ReplayBuffer

Méthode/Fonction: get_memory

Exemples au hotexamples.com: 1

Python ReplayBuffer.get_memory - 1 exemples trouvés. Ce sont les exemples réels les mieux notés de replay_buffer.ReplayBuffer.get_memory extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

ReplayBuffer(30)

add(30)

count(26)

get_batch(25)

append(17)

encode_recent_observation(7)

getBatch(7)

add_sample(7)

insert(7)

clear(6)

load(5)

load_memory(5)

can_sample(4)

add_episode(4)

add_transition(4)

get_last_steps(3)

get_size(3)

create_batch(3)

is_ready(3)

add_experience(3)

add_to_memory(2)

make_index(2)

compute_values(2)

compute_value_difference(2)

compute_reward_distances(2)

compute_returns(2)

compute_lambda_returns(2)

fetch_sample(2)

compute_episode_boundaries(2)

encoder_recent_observation(2)

idx(2)

get_batch_data(1)

get_current_size(1)

get_experiences(1)

get_len(1)

get_current_state(1)

load_replay(1)

get_losses_offline(1)

get_memory(1)

get_minibatch(1)

importance_sampling(1)

in_order_iterate(1)

insert_sample(1)

k(1)

length(1)

lenth(1)

load_from_file(1)

get_random_minibatch(1)

dump(1)

get(1)

Méthodes fréquemment utilisées

ReplayBuffer (30)

add (30)

count (26)

get_batch (25)

append (17)

encode_recent_observation (7)

getBatch (7)

add_sample (7)

insert (7)

clear (6)

Méthodes fréquemment utilisées

load (5)

load_memory (5)

can_sample (4)

add_episode (4)

add_transition (4)

get_last_steps (3)

get_size (3)

create_batch (3)

is_ready (3)

add_experience (3)

add_to_memory (2)

make_index (2)

compute_values (2)

compute_value_difference (2)

compute_reward_distances (2)

compute_returns (2)

compute_lambda_returns (2)

fetch_sample (2)

compute_episode_boundaries (2)

encoder_recent_observation (2)

Méthodes fréquemment utilisées

add_to_memory (2)

make_index (2)

compute_values (2)

compute_value_difference (2)

compute_reward_distances (2)

compute_returns (2)

compute_lambda_returns (2)

fetch_sample (2)

compute_episode_boundaries (2)

encoder_recent_observation (2)

idx (2)

get_batch_data (1)

get_current_size (1)

get_experiences (1)

get_len (1)

get_current_state (1)

load_replay (1)

get_losses_offline (1)

get_memory (1)

get_minibatch (1)

importance_sampling (1)

in_order_iterate (1)

insert_sample (1)

k (1)

length (1)

lenth (1)

load_from_file (1)

get_random_minibatch (1)

dump (1)

get (1)

Méthodes fréquemment utilisées

idx (2)

get_batch_data (1)

get_current_size (1)

get_experiences (1)

get_len (1)

get_current_state (1)

load_replay (1)

get_losses_offline (1)

get_memory (1)

get_minibatch (1)

importance_sampling (1)

in_order_iterate (1)

insert_sample (1)

k (1)

length (1)

lenth (1)

load_from_file (1)

get_random_minibatch (1)

dump (1)

get (1)

batch_load (1)

_count (1)

_ptr (1)

addAbsorbing (1)

add_batch (1)

add_data (1)

add_datapoints (1)

add_effects (1)

add_errors (1)

add_expert (1)

add_tuples (1)

adds (1)

as_dataset (1)

buffer_init (1)

full (1)

buffered (1)

cache (1)

clear_buffer (1)

create_episode (1)

current_count (1)

Exemple #1

0

Afficher le fichier

Fichier : dq_agent.py Projet : Hojjat-Mokhtarabadi/CartPole

class DQAgent: def __init__(self, env='', episodes=1000, alpha=0.01, gamma=0.99, min_epsilon=0.1, max_epsilon=1.0, epsilon_decay_rate=0.1, alpha_decay_rate=0.9, batch_size=64): self.env = gym.make(env) self.episodes = episodes self.alpha = alpha self.gamma = gamma self.min_epsilon = min_epsilon self.max_epsilon = max_epsilon self.epsilon_decay_rate = epsilon_decay_rate self.alpha_decay_rate = alpha_decay_rate self.batch_size = batch_size self.state_count = self.env.observation_space.shape[0] self.action_count = self.env.action_space.n self.q_net = DQNet(action_count=self.action_count, state_count=self.state_count, alpha=alpha, lr_decay_rate=alpha_decay_rate, steps=episodes) self.memory = ReplayBuffer() def choose_epsilon_greedy_action(self, state): rnd = random.random() if rnd >= self.max_epsilon: state = self.memory.preprocess_state(state) return np.argmax(self.q_net.predict_on_one(state)) else: return self.env.action_space.sample() def decay_epsilon(self, episode): self.max_epsilon = max( self.min_epsilon, min(self.max_epsilon, 1.0 - math.log10( (episode + 1) * self.epsilon_decay_rate))) def fit_on_batch(self): size = min(self.memory.buffer_size, self.batch_size) mini_batch = random.sample(self.memory.get_memory(), k=size) states = np.array([val[0][0] for val in mini_batch]) next_states = np.array([ (np.zeros(self.state_count, ) if val[3] is None else val[3][0]) for val in mini_batch ]) q_s_a = self.q_net.predict_on_batch(states) q_s_a_prime = self.q_net.predict_on_batch(next_states) x = np.zeros((size, self.state_count)) y = np.zeros((size, self.action_count)) for cnt, item in enumerate(mini_batch): state, action, reward, next_state = item[0], item[1], item[ 2], item[3] current_q = q_s_a[cnt] current_q[action] = reward if next_state is None else reward + ( self.gamma * max(q_s_a_prime[cnt])) x[cnt] = state y[cnt] = current_q self.q_net.train_on_batch(states=x, true_q_values=y, epoch=1) @staticmethod def plot(total, avg, cnt): plt.clf() plt.plot(cnt, total, label='rewards') plt.plot(cnt, avg, label='average reward') plt.legend() plt.pause(0.01) def run(self): total_reward = [] avg_reward = [] count = [] for episode in range(self.episodes): current_state = self.env.reset() done = False epsd_rwd = 0 while not done: self.env.render() current_action = self.choose_epsilon_greedy_action( current_state) next_state, reward, done, _ = self.env.step(current_action) epsd_rwd += reward if done: next_state = None self.memory.remember(current_state, current_action, reward, next_state) self.fit_on_batch() current_state = next_state self.decay_epsilon(episode) total_reward.append(epsd_rwd) count.append(episode) avg = sum(total_reward) / len(count) avg_reward.append(avg) self.plot(total=total_reward, cnt=count, avg=avg_reward) print("episode {}/{}, reward: {} , avg_reward: {}".format( episode, self.episodes, epsd_rwd, avg)) plt.show() self.q_net.save('my_model') self.env.close()