Python Dataset.dataset 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: torch.utils.data

클래스/타입: Dataset

메소드/함수: dataset

hotexamples.com에서의 예제들: 2

Python Dataset.dataset - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 torch.utils.data.Dataset.dataset에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Dataset(30)

__init__(30)

append(12)

__len__(9)

__getitem__(7)

dataset(2)

Annotation(1)

MNIST(1)

Xs(1)

_split_dataset(1)

backtransform(1)

build_vocab(1)

cuda(1)

예제 #1

파일 보기

    def __init__(self,
                 base_dataset: Dataset,
                 validation_dataset: Dataset,
                 base_network: torch.nn.Module,
                 device: torch.device,
                 scale: int = 1.0):
        super(PULearningPHEMEDataset, self).__init__()
        # Subset is used as the dataset
        if type(base_dataset) == torch.utils.data.Subset:
            self.tokenizer = base_dataset.dataset.tokenizer
            indices = base_dataset.indices
            orig_dataset = base_dataset.dataset.dataset.copy()
            base_dataset = base_dataset.dataset
            base_dataset.dataset = orig_dataset.iloc[indices]
            base_dataset.dataset = base_dataset.dataset.reset_index(drop=True)
        else:
            self.tokenizer = base_dataset.tokenizer

        # Only look at negative samples
        original_dataset = base_dataset.dataset.copy()
        base_dataset.dataset = base_dataset.dataset[
            base_dataset.dataset['label'] == 0]
        # Set the label to 1
        base_dataset.dataset['label'] = [1] * base_dataset.dataset.shape[0]

        # Get negatives weight, combine into one dataset and duplicate the negatives
        train_dl = torch.utils.data.DataLoader(
            base_dataset, batch_size=8, collate_fn=collate_batch_transformer)
        val_dl = torch.utils.data.DataLoader(
            validation_dataset,
            batch_size=8,
            collate_fn=collate_batch_transformer)
        neg_weights = get_negative_sample_weights(train_dl, val_dl,
                                                  base_network, device)
        assert neg_weights.shape == base_dataset.dataset.shape, "Should have double the number of negative sample weights"
        weights = np.asarray([0.] * original_dataset.shape[0])
        weights[original_dataset.index[original_dataset['label'] ==
                                       1].tolist()] = 1.
        weights[original_dataset.index[original_dataset['label'] ==
                                       0].tolist()] = neg_weights[:, 0]
        original_dataset['weight'] = weights
        duplicated_data = base_dataset.dataset.copy()
        duplicated_data['weight'] = neg_weights[:, 1]
        self.dataset = pd.concat([original_dataset, duplicated_data],
                                 ignore_index=True)
        self.scale = scale

예제 #2

파일 보기

    def __init__(self,
                 base_dataset: Dataset,
                 validation_dataset: Dataset,
                 base_network: torch.nn.Module,
                 device: torch.device,
                 gamma: float = 1.0,
                 scale: int = 1.0):
        super(PULearningPriorBasedConversionPHEMEDataset, self).__init__()
        train_dl = torch.utils.data.DataLoader(
            base_dataset, batch_size=8, collate_fn=collate_batch_transformer)
        val_dl = torch.utils.data.DataLoader(
            validation_dataset,
            batch_size=8,
            collate_fn=collate_batch_transformer)
        prior = estimate_class_prior_probability(base_network, train_dl,
                                                 val_dl, device)
        print(prior)
        # Subset is used as the dataset
        if type(base_dataset) == torch.utils.data.Subset:
            self.tokenizer = base_dataset.dataset.tokenizer
            indices = base_dataset.indices
            orig_dataset = base_dataset.dataset.dataset.copy()
            base_dataset = base_dataset.dataset
            base_dataset.dataset = orig_dataset.iloc[indices]
            base_dataset.dataset = base_dataset.dataset.reset_index(drop=True)
        else:
            self.tokenizer = base_dataset.tokenizer

        # Only look at negative samples
        original_dataset = base_dataset.dataset.copy()
        base_dataset.dataset = base_dataset.dataset[
            base_dataset.dataset['label'] == 0]

        # Get negatives weight, combine into one dataset and duplicate the negatives
        train_dl = torch.utils.data.DataLoader(
            base_dataset, batch_size=8, collate_fn=collate_batch_transformer)
        val_dl = torch.utils.data.DataLoader(
            validation_dataset,
            batch_size=8,
            collate_fn=collate_batch_transformer)
        neg_weights = get_negative_sample_weights(train_dl, val_dl,
                                                  base_network, device)
        assert neg_weights.shape == base_dataset.dataset.shape, "Should have double the number of negative sample weights"

        positives = original_dataset[original_dataset['label'] == 1]
        positives['weight'] = [1.] * positives.shape[0]
        # Keep adding examples until p(y=1) equals our estimate
        keep_examples = np.asarray([True] * neg_weights.shape[0])
        ordered_idx = np.argsort(neg_weights[:, 1])[::-1]
        i = 0
        while (positives.shape[0] +
               sum(~keep_examples)) / original_dataset.shape[0] < prior:
            keep_examples[ordered_idx[i]] = False
            i += 1
        kept_negatives = base_dataset.dataset[keep_examples].copy()
        kept_negatives_plus = kept_negatives.copy()
        kept_negatives_plus['label'] = [1] * kept_negatives_plus.shape[0]
        kept_negatives['weight'] = neg_weights[keep_examples, 0]
        kept_negatives_plus['weight'] = neg_weights[keep_examples, 1]
        converted_positives = base_dataset.dataset[~keep_examples].copy()
        converted_positives['label'] = [1] * converted_positives.shape[0]
        converted_positives['weight'] = [1.] * converted_positives.shape[0]

        print(positives.shape)
        print(kept_negatives.shape)
        print(converted_positives.shape)
        self.dataset = pd.concat([
            positives, kept_negatives, kept_negatives_plus, converted_positives
        ],
                                 ignore_index=True)
        self.scale = scale