Python GeneExpressionDataset.subsample_genes示例

编程语言: Python

命名空间/包名称: scvi.dataset

方法/功能: subsample_genes

hotexamples.com的示例: 5

Python GeneExpressionDataset.subsample_genes - 已找到5个示例。这些是从开源项目中提取的最受好评的scvi.dataset.GeneExpressionDataset.subsample_genes现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

GeneExpressionDataset(30)

get_attributes_from_matrix(13)

populate_from_data(10)

populate_from_datasets(7)

populate_from_per_batch_list(6)

subsample_genes(5)

collate_fn_builder(4)

concat_datasets(4)

remap_categorical_attributes(2)

batch_indices(2)

to_anndata(2)

map_cell_types(1)

populate_from_per_label_list(1)

reorder_genes(1)

subsample_cells(1)

name(1)

n_batches(1)

merge_cell_types(1)

initialize_cell_measurement(1)

labels(1)

initialize_mapped_attribute(1)

__init__(1)

highly_variable_genes(1)

get_batch_mask_cell_measurement(1)

genes_to_index(1)

gene_symbols(1)

gene_names(1)

filter_genes_by_count(1)

filter_genes_by_attribute(1)

filter_cells_by_count(1)

filter_cell_types(1)

compute_library_size_batch(1)

_highly_variable_genes(1)

update_cells(1)

示例#1

显示文件

    def test_dense_subsample_genes(self):
        data = [
            np.random.randint(1, 5, size=(50, 26)),
            np.random.randint(1, 5, size=(50, 26)),
            np.random.randint(1, 5, size=(50, 26)),
        ]

        # With default
        dataset = GeneExpressionDataset()
        dataset.populate_from_per_batch_list(data)
        n_genes = dataset.nb_genes
        n_top = n_genes // 2
        dataset.subsample_genes(new_n_genes=n_top)
        assert dataset.nb_genes < n_genes
        # For some reason the new number of genes can be slightly different than n_top

        # With Seurat
        dataset = GeneExpressionDataset()
        dataset.populate_from_per_batch_list(data)
        dataset.subsample_genes(new_n_genes=n_top, mode="seurat")
        assert dataset.nb_genes < n_genes

示例#2

显示文件

文件： test_highly_variable_genes.py 项目： parkcc/scVI

    def test_batch_correction(self):
        data = [
            np.random.randint(1, 5, size=(50, 25)),
            np.random.randint(1, 5, size=(50, 25)),
            np.random.randint(1, 5, size=(50, 25)),
        ]
        dataset = GeneExpressionDataset()
        dataset.populate_from_per_batch_list(data)

        n_genes = dataset.nb_genes
        n_top = n_genes // 2
        dataset._highly_variable_genes(n_bins=3, flavor="seurat_v2")
        df = dataset._highly_variable_genes(
            n_bins=3, n_top_genes=n_top, flavor="seurat_v2"
        )
        assert df["highly_variable"].sum() >= n_top

        dataset.subsample_genes(new_n_genes=n_top)
        new_genes = dataset.nb_genes
        assert n_genes > new_genes, "subsample_genes did not filter out genes"
        pass

示例#3

显示文件

文件： test_highly_variable_genes.py 项目： parkcc/scVI

    def test_dense_subsample_genes(self):
        data = [
            np.random.randint(1, 5, size=(50, 26)),
            np.random.randint(1, 5, size=(50, 26)),
            np.random.randint(1, 5, size=(50, 26)),
        ]

        # With default
        dataset = GeneExpressionDataset()
        dataset.populate_from_per_batch_list(data)
        n_genes = dataset.nb_genes
        n_top = n_genes // 2
        dataset.subsample_genes(new_n_genes=n_top, mode="cell_ranger")
        assert dataset.nb_genes == n_top

        # With Seurat v2
        dataset = GeneExpressionDataset()
        dataset.populate_from_per_batch_list(data)
        dataset.subsample_genes(new_n_genes=n_top, mode="seurat_v2")
        assert dataset.nb_genes == n_top

        # With Seurat v3
        dataset = GeneExpressionDataset()
        dataset.populate_from_per_batch_list(data)
        dataset.subsample_genes(new_n_genes=n_top, mode="seurat_v3")
        assert dataset.nb_genes == n_top

示例#4

显示文件

    def test_subsample_genes(self):
        data = np.ones((25, 100)) * 100
        variable_data = data
        variable_data[0, :] = 2
        variable_data *= np.arange(0, 100)

        gene_names = np.array(["gene_%d" % i for i in range(100)])
        dataset = GeneExpressionDataset()
        dataset.populate_from_data(data, gene_names=gene_names)
        dataset.subsample_genes(new_ratio_genes=0.4, mode="variance")
        self.assertTupleEqual(dataset.gene_names.shape, (40, ))
        dataset.subsample_genes(new_n_genes=25, mode="variance")
        self.assertTupleEqual(dataset.gene_names.shape, (25, ))
        # The most variable genes should be in first position
        self.assertEqual(dataset.gene_names[0], "GENE_99")
        dataset.subsample_genes(subset_genes=[1, 6, 7])
        self.assertEqual(dataset.gene_names[0], "GENE_98")

示例#5

显示文件

文件： snakemake3_run_scvi.py 项目： Munfred/seqdepth

            #initial number of sampled cells
            sampling_size = 500
            while sampling_size < n_retained_cells:
                cells_sizes.append(sampling_size)
                sampling_size = int(sampling_size*np.sqrt(2))

            # cells_sizes = np.logspace(np.log2(500), np.log2(n_retained_cells), num=9, base=2).astype(int)
            print('Number of sampled cells for ', ds, cells_sizes)

            cells_dataset = GeneExpressionDataset()
            X_ = adata.layers['0']
            cells_dataset.populate_from_data(X_, gene_names=adata.var.index.values)

            #we subsambple to 1000 genes for speed and to prevent overfitting
            cells_dataset.filter_genes_by_count(per_batch=True)
            cells_dataset.subsample_genes(1000)
            sel_genes = cells_dataset.gene_names

            n_validation = adata.shape[0] - n_retained_cells
            print(ds, ' n_validation:', n_validation)

            validation_cells = np.random.choice(adata.obs.index, size=n_validation, replace=False)
            learning_cells = adata.obs.index.difference(validation_cells)

            val_adata = adata[validation_cells]
            lea_adata = adata[learning_cells]

            ne_cells = X_.sum(axis=1) > 0
            to_keep = np.where(ne_cells)[0]

            log_counts = np.log(X_[to_keep].sum(axis=1))