Exemplos de diff em Python, exemplos de birgitta.dataframe.dfdiff.diff em Python

Exemplo n.º 1

0

Exibir arquivo

Arquivo: test_schema.py Projeto: telia-oss/birgitta

def assert_schema(
        spark_session,
        dataset_name,
        expected,  # noqa F401
        dataframe_source,
        schema):
    result = dataframe.get(spark_session,
                           dataset_name,
                           schema=schema,
                           dataframe_source=dataframe_source)
    assert not dfdiff.diff(result, expected)

Exemplo n.º 2

0

Exibir arquivo

Arquivo: validate.py Projeto: telia-oss/birgitta

def datasets(spark_session, expected_ds, result_ds, project_key=None):
    """Validate that two data sets are the same.

    Args:
        spark_session (SparkSession): spark session used to load data frames.
        expected_ds (str): The expected data set to load.
        result_ds (str): The result data set to load.
        project_key (str): Used if data set in a separate dataiku project.
    """
    expected_df = dataframe.get(spark_session, expected_ds, prefix=project_key)
    result_df = dataframe.get(spark_session, result_ds, prefix=project_key)
    diff_ret = dfdiff.diff(expected_df, result_df)
    assert not diff_ret, "Dataframe diff: " + diff_ret
    print("Test successful")

Exemplo n.º 3

0

Exibir arquivo

Arquivo: test_s3source.py Projeto: telia-oss/birgitta

def test_equal(spark_session, fixtures, expected):
    s3_source = S3Source(format='parquet')
    dataset_name = "fixtures"
    s3_dir = "s3://birgittatestbucket/sourcetests"
    fixtures_mock = MagicMock()
    fixtures_mock.write.format().mode().save.return_value = None
    dataframe.write(fixtures_mock,
                    dataset_name,
                    prefix=s3_dir,
                    dataframe_source=s3_source)
    spark_session_mock = MagicMock()
    spark_session_mock.read.format().load.return_value = fixtures
    out_df = dataframe.get(spark_session_mock,
                           dataset_name,
                           prefix=s3_dir,
                           dataframe_source=s3_source)
    assert not dfdiff.diff(out_df, expected)

Exemplo n.º 4

0

Exibir arquivo