Python DataCleaner.clean 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: data_cleaner

클래스/타입: DataCleaner

메소드/함수: clean

hotexamples.com에서의 예제들: 5

Python DataCleaner.clean - 5개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 data_cleaner.DataCleaner.clean에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

DataCleaner(30)

clean_file(4)

clean(3)

drop_na_values(2)

_validate_filters(2)

clean_content(2)

create_categorical_feature(2)

create_levels_column(1)

drop_columns(1)

do_clean(1)

create_valence_column(1)

create_tag_frequencies(1)

create_tag_columns(1)

_get_api_response(1)

create_length_feature(1)

_get_file_encoding(1)

_build_data(1)

clean_data(1)

auto_clean(1)

_plural_entity_level(1)

create_binary_feature(1)

예제 #1

파일 보기

def clean_file(input_path, output_path):
    """Limpia los datos del input creando un nuevo archivo limpio."""
    print("Comenzando limpieza...")
    dc = DataCleaner(input_path, encoding='latin1')
    custom_cleaning_before_rules(dc)
    dc.clean(RULES)
    custom_cleaning_after_rules(dc)
    y = 2015
    dc.df.hasta = pd.to_datetime(dc.df.hasta, yearfirst=True)
    dc.df.desde = pd.to_datetime(dc.df.desde, yearfirst=True)
    gii = dc.df.desde.dt.year == y
    gif = dc.df.hasta.dt.year == y
    gis = (dc.df.desde.dt.year < y) & (dc.df.hasta.dt.year > y)
    givig = gii | gif | gis
    df1 = dc.df[givig].copy()
    print("La cantida de registros 2015 es: ")
    print(givig.sum())
    gin2016 = dc.df.desde.dt.year == 2016
    df2 = dc.df[~gin2016].copy()
    print("La cantida de registros historicos es: ")
    print((~gin2016).sum())
    df1.to_csv(
        DEFAULT_OUTPUT_PATH_VIGENTE, encoding=dc.OUTPUT_ENCODING,
        separator=dc.OUTPUT_SEPARATOR,
        quotechar=dc.OUTPUT_QUOTECHAR, index=False)
    df2.to_csv(
        DEFAULT_OUTPUT_PATH1_HISTORICO, encoding=dc.OUTPUT_ENCODING,
        separator=dc.OUTPUT_SEPARATOR,
        quotechar=dc.OUTPUT_QUOTECHAR, index=False)

    print("Limpieza finalizada exitosamente!")

예제 #2

파일 보기

파일: cleaner-contratos.py 프로젝트: ganipa93/datasets-portal

def clean_file(input_path, output_path):
    """Limpia los datos del input creando un nuevo archivo limpio."""
    print("Comenzando limpieza...")
    dc = DataCleaner(input_path, encoding='Latin 1')
    custom_cleaning_before_rules(dc)
    dc.clean(RULES)
    custom_cleaning_after_rules(dc)
    y = 2015
    dc.df.hasta = pd.to_datetime(dc.df.hasta, yearfirst=True)
    dc.df.desde = pd.to_datetime(dc.df.desde, yearfirst=True)
    gii = dc.df.desde.dt.year == y
    gif = dc.df.hasta.dt.year == y
    gis = (dc.df.desde.dt.year < y) & (dc.df.hasta.dt.year > y)
    givig = gii | gif | gis
    df1 = dc.df[givig]
    gin2016 = dc.df.desde.dt.year == 2016
    df2 = dc.df[~gin2016]
    df1.set_index(df1.columns[0]).to_csv(
        DEFAULT_OUTPUT_PATH_VIGENTE, encoding=dc.OUTPUT_ENCODING,
        separator=dc.OUTPUT_SEPARATOR,
        quotechar=dc.OUTPUT_QUOTECHAR)
    df2.set_index(df2.columns[0]).to_csv(
        DEFAULT_OUTPUT_PATH1_HISTORICO, encoding=dc.OUTPUT_ENCODING,
        separator=dc.OUTPUT_SEPARATOR,
        quotechar=dc.OUTPUT_QUOTECHAR)

    print("Limpieza finalizada exitosamente!")

예제 #3

파일 보기

파일: cleaner-oficinas-anses.py 프로젝트: ganipa93/datasets-portal

def clean_file(input_path, output_path):
    """Limpia los datos del input creando un nuevo archivo limpio."""
    print("Comenzando limpieza...")
    dc = DataCleaner(input_path)
    custom_cleaning_before_rules(dc)
    dc.clean(RULES)
    custom_cleaning_after_rules(dc)
    dc.save(output_path)
    print("Limpieza finalizada exitosamente!")

예제 #4

파일 보기

파일: cleaner-oficinas-anses.py 프로젝트: usuariobkp/datasets-portal

def clean_file(input_path, output_path):
    """Limpia los datos del input creando un nuevo archivo limpio."""
    print("Comenzando limpieza...")
    dc = DataCleaner(input_path)
    custom_cleaning_before_rules(dc)
    dc.clean(RULES)
    custom_cleaning_after_rules(dc)
    dc.save(output_path)
    print("Limpieza finalizada exitosamente!")

예제 #5

파일 보기

파일: __init__.py 프로젝트: tyncho08/analisis-de-calidad-de-datasets

def apply_rules_to_dataset(csv_input, csv_output, dataset_file_rules, parse_options):
    with warnings.catch_warnings(record=True) as catched_warnings:
        dc = DataCleaner(csv_input, **parse_options)
        dc.clean(dataset_file_rules['data-cleaner-rules'])
        dc.df.set_index(dc.df.columns[0]).to_csv(
            csv_output,
            encoding=dc.OUTPUT_ENCODING,
            sep=dc.OUTPUT_SEPARATOR,
            quotechar=dc.OUTPUT_QUOTECHAR
        )
        return catched_warnings