Python DataCleaner.clean_file Examples

Programming Language: Python

Namespace/Package Name: data_cleaner

Class/Type: DataCleaner

Method/Function: clean_file

Examples at hotexamples.com: 6

Python DataCleaner.clean_file - 6 examples found. These are the top rated real world Python examples of data_cleaner.DataCleaner.clean_file extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

DataCleaner(30)

clean_file(4)

clean(3)

drop_na_values(2)

_validate_filters(2)

clean_content(2)

create_categorical_feature(2)

create_levels_column(1)

drop_columns(1)

do_clean(1)

create_valence_column(1)

create_tag_frequencies(1)

create_tag_columns(1)

_get_api_response(1)

create_length_feature(1)

_get_file_encoding(1)

_build_data(1)

clean_data(1)

auto_clean(1)

_plural_entity_level(1)

create_binary_feature(1)

Example #1

Show file

File: test_data_cleaner.py Project: usuariobkp/data-cleaner

    def test_float_integrity(self):
        output_path = BASE_DIR + '/output/clean_coordinates.csv'

        dc = DataCleaner(self.input_path)
        dc.clean_file([], output_path)

        raw_input = raw_csv(self.input_path)
        raw_output = raw_csv(output_path)
        self.assertEqual(raw_input, raw_output)

Example #2

Show file

File: test_data_cleaner.py Project: gobabiertoAR/data-cleaner

    def test_integration_case_1(self):
        dc = DataCleaner(get_input("integration"))
        dc.clean_file(rules, get_output("temp_integration"))

        df = pd.read_csv(get_output("temp_integration"))
        df_exp = pd.read_csv(get_output("integration"))

        self.assertEqual(set(df.columns), set(df_exp.columns))
        for col in df.columns:
            self.assertEqual(nan_safe_list(df[col]), nan_safe_list(df_exp[col]))

Example #3

Show file

File: test_data_cleaner.py Project: usuariobkp/data-cleaner

    def test_integration_case_1(self):
        dc = DataCleaner(get_input("integration"))
        dc.clean_file(rules, get_output("temp_integration"))

        df = pd.read_csv(get_output("temp_integration"))
        df_exp = pd.read_csv(get_output("integration"))

        self.assertEqual(set(df.columns), set(df_exp.columns))
        for col in df.columns:
            self.assertEqual(nan_safe_list(df[col]),
                             nan_safe_list(df_exp[col]))

Example #4

Show file

    #     {
    #      "field": "horario_de_atencion",
    #      "replacements": {"LUN": ["lunes", "lun"],
    #                       "MAR": ["martes", "mar"],
    #                       "MIE": ["miercoles", "mie", u"miércoles"],
    #                       "JUE": ["jueves", "jue"],
    #                       "VIE": ["viernes", "vie"],
    #                       "SAB": ["sabado", "sab", "sábado","sáb"],
    #                       "DOM": ["domingo", "dom"],
    #                       "-": [" a "],
    #                       "_": [" y ", ","],
    #                       "": ["hs", "hs."],
    #                       "00:00-23:59": ["24"]
    #                      },
    #      "keep_original": True
    #     }
    #    ]}
]

dc = DataCleaner(input_path)
# No implementados aun van derecho con Pandas
dc.df['coordenadas_latitud'] = dc.df.recurso.str.split("\s+", 1,
                                                       expand=True)[0]
dc.df['coordenadas_longitud'] = dc.df.recurso.str.split("\s+", 1,
                                                        expand=True)[1]
dc.df['mail'] = dc.df['mail'].str.lower()
dc.df['sitio_web'] = dc.df.mail.str.findall('www[^ \s]+').str.join(",")
dc.df['mail'] = dc.df.mail.str.findall('[a-z_0-9\.]+@[a-z_0-9\.]+').str.join(
    ",")
dc.clean_file(rules, output_path)

Example #5

Show file

File: cleaner-establecimientos-salud.py Project: usuariobkp/datasets-portal

def clean_file(input_path, output_path):
    """Limpia los datos del input creando un nuevo archivo limpio."""
    print("Comenzando limpieza...")
    dc = DataCleaner(input_path)
    dc.clean_file(RULES, output_path)
    print("Limpieza finalizada exitosamente!")

Example #6

Show file

File: cleaner-consejo-naciona-de-mujeres.py Project: ganipa93/datasets-portal

    # NO FUNCIONA BIEN DEJO EL CAMPO COMO ESTA
#     {"reemplazar": [
#     {
#      "field": "horario_de_atencion",
#      "replacements": {"LUN": ["lunes", "lun"], 
#                       "MAR": ["martes", "mar"],
#                       "MIE": ["miercoles", "mie", u"miércoles"],
#                       "JUE": ["jueves", "jue"],
#                       "VIE": ["viernes", "vie"],
#                       "SAB": ["sabado", "sab", "sábado","sáb"],
#                       "DOM": ["domingo", "dom"],
#                       "-": [" a "],
#                       "_": [" y ", ","],
#                       "": ["hs", "hs."],
#                       "00:00-23:59": ["24"]
#                      },
#      "keep_original": True
#     }
#    ]}

]

dc = DataCleaner(input_path)
# No implementados aun van derecho con Pandas
dc.df['coordenadas_latitud'] = dc.df.recurso.str.split("\s+", 1, expand=True)[0]
dc.df['coordenadas_longitud'] = dc.df.recurso.str.split("\s+", 1, expand=True)[1]
dc.df['mail'] = dc.df['mail'].str.lower()
dc.df['sitio_web'] = dc.df.mail.str.findall('www[^ \s]+').str.join(",")
dc.df['mail'] = dc.df.mail.str.findall('[a-z_0-9\.]+@[a-z_0-9\.]+').str.join(",")
dc.clean_file(rules, output_path)