Python DictConfig.ep_mean_reward Beispiele

Programmiersprache: Python

Namespace / Paketname: omegaconf

Klasse / Typ: DictConfig

Methode / Funktion: ep_mean_reward

Beispiele auf hotexamples.com: 2

Python DictConfig.ep_mean_reward - 2 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die omegaconf.DictConfig.ep_mean_reward, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

DictConfig(30)

batch_size(13)

env_record_freq(6)

env_record_duration(6)

cumulative_reward(5)

copy(4)

cumulative_done(4)

_is_missing(3)

_is_none(3)

do_lower_case(3)

delete_freq(3)

_name(2)

data_dir(2)

__getattr__(2)

device(2)

ep_mean_reward(2)

_get_parent(2)

_get_node(2)

delete_percentage(1)

default_value(1)

distributed_world_size(1)

device_id(1)

distributed_init_method(1)

distributed_no_spawn(1)

distributed_num_procs(1)

distributed_rank(1)

ep_length(1)

ep_loss(1)

ep_x_pos(1)

episode(1)

dataroot(1)

cumulative_intrinsic_reward(1)

data_dirs(1)

action_range(1)

__len__(1)

_dereference_node(1)

_get_root(1)

_maybe_dereference_node(1)

_set_parent(1)

_set_value(1)

action_dim(1)

action_lb(1)

action_shape(1)

data_desc(1)

action_ub(1)

adapters(1)

beam(1)

ckpt_save_path(1)

class_labels(1)

cumulative_extrinsic_reward(1)

Beispiel #1

Datei anzeigen

        state, reward, is_done, info = env.step(action)

        with torch.no_grad():
            qs2 = model(torch.FloatTensor([state.flatten()]))[0]

        target = reward + 0.9 * qs2.amax()
        loss = (target - qs[action])**2

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        log = DictConfig({"episode": episode})
        log.ep_loss = loss.item()

        cumulative_reward += reward
        log.cumulative_reward = cumulative_reward

        rewards.append(reward)
        if must_record:
            video_buffer.append(deepcopy(env.render("rgb_array")))
        if is_done:
            log.ep_mean_reward = float(np.mean(rewards))
            log.ep_length = len(rewards)
            if must_record:
                log = dict(log)
                log[f"video_ep{episode}_reward{reward}"] = wandb.Video(
                    _format_video(video_buffer), fps=4, format="gif")

        wandb.log(log)

Beispiel #2

Datei anzeigen

Datei: 6_train_pg_gw_2.py Projekt: Akhilez/reward_lab

        action = int(torch.multinomial(prob[0], num_samples=1)[0])

        state, reward, is_done, info = env.step(action)

        rewards.append(reward)
        probabilities.append(prob[0][action])
        if must_record:
            video_buffer.append(deepcopy(env.render("rgb_array")))

    rewards = torch.FloatTensor(rewards)
    probabilities = torch.stack(probabilities)
    loss_terms = -1 * rewards * probabilities

    loss = torch.mean(loss_terms)

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    log = DictConfig({"episode": episode})
    log.ep_loss = loss.item()
    log.ep_mean_reward = rewards.mean().item()
    log.ep_length = len(rewards)

    if must_record:
        log = dict(log)
        log[f"video_ep{episode}_reward{reward}"] = wandb.Video(
            _format_video(video_buffer), fps=4, format="gif")

    wandb.log(log)