Python Observation.action示例

编程语言: Python

命名空间/包名称: rllib.dataset.datatypes

类/类型: Observation

方法/功能: action

hotexamples.com的示例: 3

Python Observation.action - 已找到3个示例。这些是从开源项目中提取的最受好评的rllib.dataset.datatypes.Observation.action现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

Observation(27)

random_example(4)

action(3)

zero_example(2)

_is_equal_nan(1)

get_example(1)

nan_example(1)

示例#1

显示文件

文件： model_learning.py 项目： sebascuri/rllib

def _train_model_step(model, observation, optimizer, mask, logger):
    if not isinstance(observation, Observation):
        observation = Observation(**observation)
    observation.action = observation.action[..., :model.dim_action[0]]
    if isinstance(model, EnsembleModel):
        loss = train_ensemble_step(model, observation, optimizer, mask)
    elif isinstance(model, NNModel):
        loss = train_nn_step(model, observation, optimizer)
    elif isinstance(model, ExactGPModel):
        loss = train_exact_gp_type2mll_step(model, observation, optimizer)
    else:
        raise TypeError("Only Implemented for Ensembles and GP Models.")
    logger.update(**{f"{model.model_kind[:3]}-loss": loss.item()})

示例#2

显示文件

文件： model_learning.py 项目： sebascuri/rllib

def _validate_model_step(model, observation, logger):
    if not isinstance(observation, Observation):
        observation = Observation(**observation)
    observation.action = observation.action[..., :model.dim_action[0]]

    mse = model_mse(model, observation).item()
    sharpness_ = sharpness(model, observation).item()
    calibration_score_ = calibration_score(model, observation).item()

    logger.update(
        **{
            f"{model.model_kind[:3]}-val-mse": mse,
            f"{model.model_kind[:3]}-sharp": sharpness_,
            f"{model.model_kind[:3]}-calib": calibration_score_,
        })
    return mse

示例#3

显示文件

def train_model(
        model,
        train_set,
        optimizer,
        batch_size=100,
        max_iter=100,
        epsilon=0.1,
        non_decrease_iter=float("inf"),
        logger=None,
        validation_set=None,
):
    """Train a Predictive Model.

    Parameters
    ----------
    model: AbstractModel.
        Predictive model to optimize.
    train_set: ExperienceReplay.
        Dataset to train with.
    optimizer: Optimizer.
        Optimizer to call for the model.
    batch_size: int (default=1000).
        Batch size to iterate through.
    max_iter: int (default = 100).
        Maximum number of epochs.
    epsilon: float.
        Early stopping parameter. If epoch loss is > (1 + epsilon) of minimum loss the
        optimization process stops.
    non_decrease_iter: int, optional.
        Early stopping parameter. If epoch loss does not decrease for consecutive
        non_decrease_iter, the optimization process stops.
    logger: Logger, optional.
        Progress logger.
    validation_set: ExperienceReplay, optional.
        Dataset to validate with.
    """
    if logger is None:
        logger = Logger(f"{model.name}_training")
    if validation_set is None:
        validation_set = train_set

    model.train()
    early_stopping = EarlyStopping(epsilon,
                                   non_decrease_iter=non_decrease_iter)
    train_loader = DataLoader(train_set, batch_size=batch_size, shuffle=True)
    validation_loader = DataLoader(validation_set,
                                   batch_size=batch_size,
                                   shuffle=False)

    for _ in tqdm(range(max_iter)):
        for observation, idx, mask in train_loader:
            observation = Observation(**observation)
            observation.action = observation.action[..., :model.dim_action[0]]
            if isinstance(model, EnsembleModel):
                loss = train_ensemble_step(model, observation, optimizer, mask)
            elif isinstance(model, NNModel):
                loss = train_nn_step(model, observation, optimizer)
            elif isinstance(model, ExactGPModel):
                loss = train_exact_gp_type2mll_step(model, observation,
                                                    optimizer)
            else:
                raise TypeError(
                    "Only Implemented for Ensembles and GP Models.")
            logger.update(**{f"{model.model_kind[:3]}-loss": loss.item()})

        for observation, idx, mask in validation_loader:
            observation = Observation(**observation)
            observation.action = observation.action[..., :model.dim_action[0]]

            with torch.no_grad():
                mse = model_mse(model, observation).item()
                sharpness_ = sharpness(model, observation).item()
                calibration_score_ = calibration_score(model,
                                                       observation).item()

            logger.update(
                **{
                    f"{model.model_kind[:3]}-val-mse": mse,
                    f"{model.model_kind[:3]}-sharp": sharpness_,
                    f"{model.model_kind[:3]}-calib": calibration_score_,
                })

            early_stopping.update(mse)

        if early_stopping.stop:
            return
        early_stopping.reset(hard=False)  # reset to zero the moving averages.