Python clean_dataset示例

编程语言: Python

命名空间/包名称: clean_cdr_engine

方法/功能: clean_dataset

hotexamples.com的示例: 2

Python clean_dataset - 已找到2个示例。这些是从开源项目中提取的最受好评的clean_cdr_engine.clean_dataset现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： clean_cdr.py 项目： berneskaracay/curation

def clean_ehr_dataset(project=None, dataset=None):
    if dataset is None or dataset == '' or dataset.isspace():
        dataset = bq_utils.get_dataset_id()
        LOGGER.info('Dataset is unspecified.  Using default value of:\t%s',
                    dataset)

    query_list = _gather_ehr_queries(project, dataset)

    LOGGER.info("Cleaning ehr_dataset")
    clean_engine.clean_dataset(project, dataset, query_list)

示例#2

显示文件

            # Generate column expressions for select
            col_exprs = [field['name'] for field in fields]
            cols = ',\n        '.join(col_exprs)
            query = ID_DE_DUP_QUERY.format(columns=cols,
                                           project_id=project_id,
                                           dataset_id=dataset_id,
                                           domain_table=table,
                                           table_name=table_name)
            queries.append(query)
    return queries


if __name__ == '__main__':
    import argparse
    import clean_cdr_engine

    parser = argparse.ArgumentParser(
        description='Parse project_id and dataset_id',
        formatter_class=argparse.RawDescriptionHelpFormatter)
    parser.add_argument(
        'project_id',
        help='Project associated with the input and output datasets')
    parser.add_argument('dataset_id',
                        help='Dataset where cleaning rules are to be applied')
    args = parser.parse_args()
    if args.dataset_id:
        query_list = get_id_deduplicate_queries(args.project_id,
                                                args.dataset_id)
        clean_cdr_engine.clean_dataset(args.project_id, args.dataset_id,
                                       query_list)