Python DictConfig.ep_mean_reward Exemples

Langage de programmation: Python

Espace de nommage/Pack: omegaconf

Class/Type: DictConfig

Méthode/Fonction: ep_mean_reward

Exemples au hotexamples.com: 2

Python DictConfig.ep_mean_reward - 2 exemples trouvés. Ce sont les exemples réels les mieux notés de omegaconf.DictConfig.ep_mean_reward extraits de projets open source. Vous pouvez noter les exemples pour nous aider à en améliorer la qualité.

Méthodes fréquemment utilisées

Afficher Cacher

DictConfig(30)

batch_size(13)

env_record_freq(6)

env_record_duration(6)

cumulative_reward(5)

copy(4)

cumulative_done(4)

_is_missing(3)

_is_none(3)

do_lower_case(3)

delete_freq(3)

_name(2)

data_dir(2)

__getattr__(2)

device(2)

ep_mean_reward(2)

_get_parent(2)

_get_node(2)

delete_percentage(1)

default_value(1)

distributed_world_size(1)

device_id(1)

distributed_init_method(1)

distributed_no_spawn(1)

distributed_num_procs(1)

distributed_rank(1)

ep_length(1)

ep_loss(1)

ep_x_pos(1)

episode(1)

dataroot(1)

cumulative_intrinsic_reward(1)

data_dirs(1)

action_range(1)

__len__(1)

_dereference_node(1)

_get_root(1)

_maybe_dereference_node(1)

_set_parent(1)

_set_value(1)

action_dim(1)

action_lb(1)

action_shape(1)

data_desc(1)

action_ub(1)

adapters(1)

beam(1)

ckpt_save_path(1)

class_labels(1)

cumulative_extrinsic_reward(1)

Méthodes fréquemment utilisées

DictConfig (30)

batch_size (13)

env_record_freq (6)

env_record_duration (6)

cumulative_reward (5)

copy (4)

cumulative_done (4)

_is_missing (3)

_is_none (3)

do_lower_case (3)

Méthodes fréquemment utilisées

delete_freq (3)

_name (2)

data_dir (2)

__getattr__ (2)

device (2)

ep_mean_reward (2)

_get_parent (2)

_get_node (2)

delete_percentage (1)

default_value (1)

distributed_world_size (1)

device_id (1)

distributed_init_method (1)

distributed_no_spawn (1)

distributed_num_procs (1)

distributed_rank (1)

ep_length (1)

ep_loss (1)

ep_x_pos (1)

episode (1)

Méthodes fréquemment utilisées

distributed_world_size (1)

device_id (1)

distributed_init_method (1)

distributed_no_spawn (1)

distributed_num_procs (1)

distributed_rank (1)

ep_length (1)

ep_loss (1)

ep_x_pos (1)

episode (1)

dataroot (1)

cumulative_intrinsic_reward (1)

data_dirs (1)

action_range (1)

__len__ (1)

_dereference_node (1)

_get_root (1)

_maybe_dereference_node (1)

_set_parent (1)

_set_value (1)

action_dim (1)

action_lb (1)

action_shape (1)

data_desc (1)

action_ub (1)

adapters (1)

beam (1)

ckpt_save_path (1)

class_labels (1)

cumulative_extrinsic_reward (1)

Méthodes fréquemment utilisées

dataroot (1)

cumulative_intrinsic_reward (1)

data_dirs (1)

action_range (1)

__len__ (1)

_dereference_node (1)

_get_root (1)

_maybe_dereference_node (1)

_set_parent (1)

_set_value (1)

action_dim (1)

action_lb (1)

action_shape (1)

data_desc (1)

action_ub (1)

adapters (1)

beam (1)

ckpt_save_path (1)

class_labels (1)

cumulative_extrinsic_reward (1)

cwd_path (1)

data (1)

episode_length (1)

Exemple #1

0

Afficher le fichier

state, reward, is_done, info = env.step(action) with torch.no_grad(): qs2 = model(torch.FloatTensor([state.flatten()]))[0] target = reward + 0.9 * qs2.amax() loss = (target - qs[action])**2 optimizer.zero_grad() loss.backward() optimizer.step() log = DictConfig({"episode": episode}) log.ep_loss = loss.item() cumulative_reward += reward log.cumulative_reward = cumulative_reward rewards.append(reward) if must_record: video_buffer.append(deepcopy(env.render("rgb_array"))) if is_done: log.ep_mean_reward = float(np.mean(rewards)) log.ep_length = len(rewards) if must_record: log = dict(log) log[f"video_ep{episode}_reward{reward}"] = wandb.Video( _format_video(video_buffer), fps=4, format="gif") wandb.log(log)

Exemple #2

0

Afficher le fichier

Fichier : 6_train_pg_gw_2.py Projet : Akhilez/reward_lab

action = int(torch.multinomial(prob[0], num_samples=1)[0]) state, reward, is_done, info = env.step(action) rewards.append(reward) probabilities.append(prob[0][action]) if must_record: video_buffer.append(deepcopy(env.render("rgb_array"))) rewards = torch.FloatTensor(rewards) probabilities = torch.stack(probabilities) loss_terms = -1 * rewards * probabilities loss = torch.mean(loss_terms) optimizer.zero_grad() loss.backward() optimizer.step() log = DictConfig({"episode": episode}) log.ep_loss = loss.item() log.ep_mean_reward = rewards.mean().item() log.ep_length = len(rewards) if must_record: log = dict(log) log[f"video_ep{episode}_reward{reward}"] = wandb.Video( _format_video(video_buffer), fps=4, format="gif") wandb.log(log)