Python SparkDFExecutionEngine._get_reader_fn Beispiele

Programmiersprache: Python

Namespace / Paketname: great_expectations.execution_engine

Methode / Funktion: _get_reader_fn

Beispiele auf hotexamples.com: 2

Python SparkDFExecutionEngine._get_reader_fn - 2 Beispiele gefunden. Dies sind die am besten bewerteten Python Beispiele für die great_expectations.execution_engine.SparkDFExecutionEngine._get_reader_fn, die aus Open Source-Projekten extrahiert wurden. Sie können Beispiele bewerten, um die Qualität der Beispiele zu verbessern.

Häufig verwendete Methoden

Anzeigen Verbergen

SparkDFExecutionEngine(30)

count(17)

get_compute_domain(13)

load_batch_data(5)

add_column_row_condition(4)

collect(4)

_get_reader_fn(2)

get_batch_data(1)

resolve_metrics(1)

select(1)

Beispiel #1

Datei anzeigen

def test_reader_fn(spark_session):
    engine = SparkDFExecutionEngine()
    # Testing that can recognize basic csv file
    fn = engine._get_reader_fn(reader=spark_session.read, path="myfile.csv")
    assert "<bound method DataFrameReader.csv" in str(fn)

    # Ensuring that other way around works as well - reader_method should always override path
    fn_new = engine._get_reader_fn(reader=spark_session.read, reader_method="csv")
    assert "<bound method DataFrameReader.csv" in str(fn_new)

Beispiel #2

Datei anzeigen

def test_get_batch_with_split_on_whole_table_s3(spark_session):
    def mocked_get_reader_function(*args, **kwargs):
        def mocked_reader_function(*args, **kwargs):
            pd_df = pd.DataFrame({"a": [1, 2, 3, 4], "b": [2, 3, 4, None]})
            df = spark_session.createDataFrame(
                [
                    tuple(
                        None if isinstance(x, (float, int)) and np.isnan(x) else x
                        for x in record.tolist()
                    )
                    for record in pd_df.to_records(index=False)
                ],
                pd_df.columns.tolist(),
            )
            return df

        return mocked_reader_function

    spark_engine = SparkDFExecutionEngine()
    spark_engine._get_reader_fn = mocked_get_reader_function

    test_sparkdf = spark_engine.get_batch_data(
        S3BatchSpec(
            s3="s3://bucket/test/test.csv",
            reader_method="csv",
            reader_options={"header": True},
            splitter_method="_split_on_whole_table",
        )
    )
    assert test_sparkdf.count() == 4
    assert len(test_sparkdf.columns) == 2