Python DictConfig.ep_length Beispiele

Programmiersprache: Python

Namespace / Paketname: omegaconf

Klasse / Typ: DictConfig

Methode / Funktion: ep_length

Beispiele auf hotexamples.com: 1

Python DictConfig.ep_length - 1 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die omegaconf.DictConfig.ep_length, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

DictConfig(30)

batch_size(13)

env_record_freq(6)

env_record_duration(6)

cumulative_reward(5)

copy(4)

cumulative_done(4)

_is_missing(3)

_is_none(3)

do_lower_case(3)

delete_freq(3)

_name(2)

data_dir(2)

__getattr__(2)

device(2)

ep_mean_reward(2)

_get_parent(2)

_get_node(2)

delete_percentage(1)

default_value(1)

distributed_world_size(1)

device_id(1)

distributed_init_method(1)

distributed_no_spawn(1)

distributed_num_procs(1)

distributed_rank(1)

ep_length(1)

ep_loss(1)

ep_x_pos(1)

episode(1)

dataroot(1)

cumulative_intrinsic_reward(1)

data_dirs(1)

action_range(1)

__len__(1)

_dereference_node(1)

_get_root(1)

_maybe_dereference_node(1)

_set_parent(1)

_set_value(1)

action_dim(1)

action_lb(1)

action_shape(1)

data_desc(1)

action_ub(1)

adapters(1)

beam(1)

ckpt_save_path(1)

class_labels(1)

cumulative_extrinsic_reward(1)

Beispiel #1

Datei anzeigen

        state, reward, is_done, info = env.step(action)

        with torch.no_grad():
            qs2 = model(torch.FloatTensor([state.flatten()]))[0]

        target = reward + 0.9 * qs2.amax()
        loss = (target - qs[action])**2

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        log = DictConfig({"episode": episode})
        log.ep_loss = loss.item()

        cumulative_reward += reward
        log.cumulative_reward = cumulative_reward

        rewards.append(reward)
        if must_record:
            video_buffer.append(deepcopy(env.render("rgb_array")))
        if is_done:
            log.ep_mean_reward = float(np.mean(rewards))
            log.ep_length = len(rewards)
            if must_record:
                log = dict(log)
                log[f"video_ep{episode}_reward{reward}"] = wandb.Video(
                    _format_video(video_buffer), fps=4, format="gif")

        wandb.log(log)