Ejemplos de Dataset._build_dataframe en Python

Lenguaje de programación: Python

Namespace/Package Name: src.dataset

Clase / Tipo: Dataset

Método / Función: _build_dataframe

Ejemplos en hotexamples.com: 9

Python Dataset._build_dataframe - 9 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de src.dataset.Dataset._build_dataframe extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

Dataset(30)

_build_dataframe(9)

generate_batch_sample_iter(7)

graph(6)

filter_data(6)

convert_to_pyfm_format(3)

get_image_id(2)

from_indices(2)

load_custom_data(2)

encode(2)

get_statistic(2)

_create_cut_columns(2)

_preprocess_image(2)

drop_columns(2)

get_retrieval_list(1)

get_labeled_y(1)

get_tiny_imagenet_test_dataset(1)

get_labeled_X(1)

get_tiny_imagenet_train_dataset(1)

get_image_list(1)

get_unlabeled(1)

Y_decoded(1)

get_vocab_size(1)

getValid4Search(1)

inverse_transform_instance(1)

load(1)

load_data(1)

load_eval_data(1)

load_indexes(1)

load_input(1)

load_original(1)

load_train_data(1)

load_val_data(1)

input_size(1)

generate_x(1)

getTrain4Test(1)

decode(1)

add_feature(1)

attributes(1)

batch(1)

batch_size(1)

build_test_bg_dataset(1)

build_test_signal_dataset(1)

build_train_dataset(1)

build_train_test(1)

categorical_correlated(1)

class_column_name(1)

describe(1)

getTrain4Search(1)

ensure_normality(1)

Ejemplo n.º 1

0

Mostrar archivo

Archivo: test_dataset.py Proyecto: KeanuGh/myROOT_analysis_framework

 def test_derived_variable(self, tmp_root_datafile):
     derived_vars = {
         'dev_var1': {
             'var_args': ['testvar1', 'testvar2'],
             'tree': 'tree1',
             'func': lambda x, y: x + y
         },
         'dev_var2': {
             'var_args': ['testvar4'],
             'tree': 'tree2',
             'func': lambda x: 2 * x
         }
     }
     vars_to_cut = self.test_vars_to_cut.copy() | {'dev_var1', 'dev_var2'}
     expected_output = self.expected_output.copy()
     expected_output['testvar2'] = np.arange(1000) * 1.1
     expected_output['testvar4'] = np.arange(1000) * -1
     expected_output['dev_var1'] = expected_output[
         'testvar1'] + expected_output['testvar2']
     expected_output['dev_var2'] = 2 * expected_output['testvar4']
     output = Dataset._build_dataframe(tmp_root_datafile,
                                       TTree_name=self.default_TTree,
                                       cut_list_dicts=self.test_cut_dicts,
                                       vars_to_cut=vars_to_cut,
                                       calc_vars_dict=derived_vars)
     # test column names are the same
     assert set(output.columns) == set(expected_output.columns)
     # test contents are the same
     for col in output.columns:
         assert np.array_equal(output[col], expected_output[col])

Ejemplo n.º 2

0

Mostrar archivo

Archivo: test_dataset.py Proyecto: KeanuGh/myROOT_analysis_framework

 def test_alt_trees(self, tmp_root_datafile):
     newcut = {
         'name': 'cut 3',
         'cut_var': 'testvar4',
         'relation': '<',
         'cut_val': -10,
         'group': 'var4cut',
         'is_symmetric': False,
         'tree': 'tree2'
     }
     list_of_dicts = self.test_cut_dicts.copy()
     list_of_dicts += [newcut]
     expected_output = self.expected_output.copy()
     expected_output['testvar4'] = np.arange(1000) * -1
     expected_output['eventNumber'] = np.arange(1000)
     output = Dataset._build_dataframe(tmp_root_datafile,
                                       TTree_name=self.default_TTree,
                                       cut_list_dicts=list_of_dicts,
                                       vars_to_cut=self.test_vars_to_cut)
     assert set(output.columns) == set(expected_output.columns)
     # test contents are the same
     for col in output.columns:
         assert np.array_equal(output[col], expected_output[col]), \
             f"Dataframe builder failed in column {col};\n" \
             f"Expected: \n{expected_output[col]},\n" \
             f"Got: \n{output[col]}"

Ejemplo n.º 3

0

Mostrar archivo

Archivo: test_dataset.py Proyecto: KeanuGh/myROOT_analysis_framework

 def test_missing_branch(self, tmp_root_datafile):
     missing_branches = {'missing1', 'missing2'}
     with pytest.raises(ValueError) as e:
         _ = Dataset._build_dataframe(tmp_root_datafile,
                                      TTree_name=self.default_TTree,
                                      cut_list_dicts=self.test_cut_dicts,
                                      vars_to_cut=missing_branches)
     assert e.match(r"Missing TBranch\(es\) .* in TTree 'tree1' of file .*")

Ejemplo n.º 4

0

Mostrar archivo

Archivo: test_dataset.py Proyecto: KeanuGh/myROOT_analysis_framework

 def test_missing_tree(self, tmp_root_datafile):
     with pytest.raises(ValueError) as e:
         _ = Dataset._build_dataframe(tmp_root_datafile,
                                      TTree_name='missing',
                                      cut_list_dicts=self.test_cut_dicts,
                                      vars_to_cut=self.test_vars_to_cut)
     assert str(
         e.value
     ) == f"TTree(s) 'missing' not found in file {tmp_root_datafile}"

Ejemplo n.º 5

0

Mostrar archivo

Archivo: test_dataset.py Proyecto: KeanuGh/myROOT_analysis_framework

 def test_duplicate_events_no_alt_tree(self,
                                       tmp_root_datafile_duplicate_events):
     with pytest.raises(Exception) as e:
         _ = Dataset._build_dataframe(tmp_root_datafile_duplicate_events,
                                      TTree_name=self.default_TTree,
                                      cut_list_dicts=self.test_cut_dicts,
                                      vars_to_cut=self.test_vars_to_cut)
     assert str(
         e.value
     ) == f"Found 1000 duplicate events in datafile {tmp_root_datafile_duplicate_events}."

Ejemplo n.º 6

0

Mostrar archivo

Archivo: test_dataset.py Proyecto: KeanuGh/myROOT_analysis_framework

 def test_normal_input(self, tmp_root_datafile):
     output = Dataset._build_dataframe(tmp_root_datafile,
                                       TTree_name=self.default_TTree,
                                       cut_list_dicts=self.test_cut_dicts,
                                       vars_to_cut=self.test_vars_to_cut)
     # test column names are the same
     assert set(output.columns) == set(self.expected_output.columns)
     # test contents are the same
     for col in output.columns:
         assert np.array_equal(output[col], self.expected_output[col]), \
             f"In column {col}\n Expected: \n{self.expected_output[col]}\n Got: \n{output[col]}"

Ejemplo n.º 7

0

Mostrar archivo

Archivo: test_dataset.py Proyecto: KeanuGh/myROOT_analysis_framework

 def test_multifile(self, tmp_root_datafiles):
     expected_output = pd.DataFrame({
         'testvar1':
         np.concatenate(
             (np.arange(3000), np.arange(2000), np.arange(1000))),
         'testvar3':
         np.concatenate(
             (np.arange(3000) * 3, np.arange(2000) * 2, np.arange(1000))),
         'weight_mc':
         np.concatenate((
             np.append(np.ones(2970), -1 * np.ones(30)),
             np.append(np.ones(1980), -1 * np.ones(20)),
             np.append(np.ones(990), -1 * np.ones(10)),
         )),
         'eventNumber':
         np.concatenate(
             (np.arange(3000, 6000), np.arange(1000,
                                               3000), np.arange(1000))),
         'totalEventsWeighted':
         np.concatenate(
             (np.full(3000, sum(np.append(np.ones(2970),
                                          -1 * np.ones(30)))),
              np.full(2000, sum(np.append(np.ones(1980),
                                          -1 * np.ones(20)))),
              np.full(1000, sum(np.append(np.ones(990),
                                          -1 * np.ones(10)))))),
         'DSID':
         np.concatenate((np.full(3000, 1), np.full(2000,
                                                   2), np.full(1000, 1))),
         'weight_pileup':
         np.ones(6000),
     })
     output = Dataset._build_dataframe(tmp_root_datafiles,
                                       TTree_name=self.default_TTree,
                                       cut_list_dicts=self.test_cut_dicts,
                                       vars_to_cut=self.test_vars_to_cut)
     # test column names are the same
     assert set(output.columns) == set(expected_output.columns)
     # test contents are the same
     for col in output.columns:
         print(expected_output[col].unique(), col)
         assert np.array_equal(output[col], expected_output[col]), \
             f"Dataframe builder failed in column {col};\n" \
             f"Expected: \n{expected_output[col]},\n" \
             f"Got: \n{output[col]}"

Ejemplo n.º 8

0

Mostrar archivo

Archivo: test_dataset.py Proyecto: KeanuGh/myROOT_analysis_framework

 def test_duplicate_events_alt_tree(self,
                                    tmp_root_datafile_duplicate_events):
     with pytest.raises(Exception) as e:
         newcut = {
             'name': 'cut 3',
             'cut_var': 'testvar4',
             'relation': '<',
             'cut_val': -10,
             'group': 'var4cut',
             'is_symmetric': False,
             'tree': 'tree2'
         }
         newduplist = self.test_cut_dicts.copy()
         newduplist += [newcut]
         _ = Dataset._build_dataframe(tmp_root_datafile_duplicate_events,
                                      TTree_name=self.default_TTree,
                                      cut_list_dicts=newduplist,
                                      vars_to_cut=self.test_vars_to_cut)
     assert str(e.value) == "Duplicated events in 'tree1' TTree"

Ejemplo n.º 9

0

Mostrar archivo

Archivo: test_dataset.py Proyecto: KeanuGh/myROOT_analysis_framework

 def test_mass_slices(self, tmp_root_datafiles):
     """Test input as 'mass slices'"""
     expected_output = pd.DataFrame({
         'testvar1':
         np.concatenate(
             (np.arange(3000), np.arange(2000), np.arange(1000))),
         'testvar3':
         np.concatenate(
             (np.arange(3000) * 3, np.arange(2000) * 2, np.arange(1000))),
         'weight_mc':
         np.concatenate((
             np.append(np.ones(2970), -1 * np.ones(30)),
             np.append(np.ones(1980), -1 * np.ones(20)),
             np.append(np.ones(990), -1 * np.ones(10)),
         )),
         'eventNumber':
         np.concatenate(
             (np.arange(3000, 6000), np.arange(1000,
                                               3000), np.arange(1000))),
         'weight_pileup':
         np.ones(6000),
         # dataset IDs
         'DSID':
         np.concatenate((np.full(3000, 3), np.full(2000,
                                                   2), np.full(1000, 1))),
         # sum of weights for events with same dataset IDs
         'totalEventsWeighted':
         np.concatenate(
             (np.full(3000, 2940), np.full(2000, 1960), np.full(1000, 980)))
     })
     output = Dataset._build_dataframe(tmp_root_datafiles,
                                       TTree_name=self.default_TTree,
                                       cut_list_dicts=self.test_cut_dicts,
                                       vars_to_cut=self.test_vars_to_cut)
     # test column names are the same
     assert set(output.columns) == set(expected_output.columns)
     # test contents are the same
     for col in output.columns:
         assert np.array_equal(output[col], expected_output[col]), \
             f"Dataframe builder failed in column {col};\n" \
             f"Expected: \n{expected_output[col]},\n" \
             f"Got: \n{output[col]}"