Python ParquetLocalDataSet 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: kedro.io

클래스/타입: ParquetLocalDataSet

hotexamples.com에서의 예제들: 12

Python ParquetLocalDataSet - 12개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 kedro.io.ParquetLocalDataSet에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

ParquetLocalDataSet(12)

load(2)

save(2)

자주 사용되는 메소드들

ParquetLocalDataSet (12)

load (2)

save (2)

예제 #1

파일 보기

파일: test_spark_data_set.py 프로젝트: sylinuxhy/kedro

 def test_load_parquet(self, tmp_path, sample_pandas_df):
     temp_path = str(tmp_path / "data")
     local_parquet_set = ParquetLocalDataSet(filepath=temp_path)
     local_parquet_set.save(sample_pandas_df)
     spark_data_set = SparkDataSet(filepath=temp_path)
     spark_df = spark_data_set.load()
     assert spark_df.count() == 4

예제 #2

파일 보기

파일: test_spark_data_set.py 프로젝트: zulyang/kedro

def test_load_parquet(tmpdir):
    temp_path = str(tmpdir.join("data"))
    pandas_df = _get_sample_pandas_data_frame()
    local_parquet_set = ParquetLocalDataSet(filepath=temp_path)
    local_parquet_set.save(pandas_df)
    spark_data_set = SparkDataSet(filepath=temp_path)
    spark_df = spark_data_set.load()
    assert spark_df.count() == 4

예제 #3

파일 보기

파일: test_parquet_local.py 프로젝트: zach-data/kedro

    def test_version_str_repr(self, load_version, save_version):
        """Test that version is in string representation of the class instance
        when applicable."""
        filepath = "data"
        ds = ParquetLocalDataSet(filepath=filepath)
        ds_versioned = ParquetLocalDataSet(filepath=filepath,
                                           version=Version(
                                               load_version, save_version))
        assert filepath in str(ds)
        assert "version" not in str(ds)

        assert filepath in str(ds_versioned)
        ver_str = "version=Version(load={}, save='{}')".format(
            load_version, save_version)
        assert ver_str in str(ds_versioned)

예제 #4

파일 보기

파일: io_parquet_steps.py 프로젝트: zulyang/kedro

def write_parquet_locally(context):
    """Writes DataFrame as Parquet in a temporary directory."""
    file_name = "dummy.parq"
    context.full_path = context.temp_dir / file_name
    context.data_set = ParquetLocalDataSet(str(context.full_path))
    context.data_set.save(context.pandas_df)
    assert context.full_path.exists()

예제 #5

파일 보기

파일: test_parquet_local.py 프로젝트: zhongchen/kedro

 def test_str_representation(self):
     """Test string representation of the data set instance."""
     parquet_data_set = ParquetLocalDataSet("test_file.parquet")
     pattern = (
         "ParquetLocalDataSet(engine=auto, "
         "filepath=test_file.parquet, save_args={})"
     )
     assert pattern in str(parquet_data_set)

예제 #6

파일 보기

def build_catalog(root_dir):
    """Creates the kedro catalog object stored as io"""
    return DataCatalog(
        {
            "raw_cities":
            CSVHTTPDataSet(
                fileurl=
                "https://people.sc.fsu.edu/~jburkardt/data/csv/cities.csv",
                auth=None,
                load_args=None,
            ),
            "int_cities":
            ParquetLocalDataSet(
                filepath=root_dir / "data" / "int" / "cities", ),
            "pri_cities":
            ParquetLocalDataSet(
                filepath=root_dir / "data" / "pri" / "cities", ),
        }, )

예제 #7

파일 보기

    def test_save_parquet(self, tmp_path, sample_spark_df):
        # To cross check the correct Spark save operation we save to
        # a single spark partition and retrieve it with Kedro
        # ParquetLocalDataSet
        temp_dir = Path(str(tmp_path / "test_data"))
        spark_data_set = SparkDataSet(
            filepath=str(temp_dir), save_args={"compression": "none"}
        )
        spark_df = sample_spark_df.coalesce(1)
        spark_data_set.save(spark_df)

        single_parquet = [
            f for f in temp_dir.iterdir() if f.is_file() and f.name.startswith("part")
        ][0]

        local_parquet_data_set = ParquetLocalDataSet(filepath=str(single_parquet))

        pandas_df = local_parquet_data_set.load()

        assert pandas_df[pandas_df["name"] == "Bob"]["age"].iloc[0] == 12

예제 #8

파일 보기

파일: test_spark_data_set.py 프로젝트: zulyang/kedro

def test_save_parquet():
    # To cross check the correct Spark save operation we save to
    # a single spark partition and retrieve it with Kedro
    # ParquetLocalDataSet
    with tempfile.TemporaryDirectory() as temp_dir:
        temp_path = join(temp_dir, "test_data")
        spark_data_set = SparkDataSet(filepath=temp_path,
                                      save_args={"compression": "none"})
        spark_df = _get_sample_spark_data_frame().coalesce(1)
        spark_data_set.save(spark_df)

        single_parquet = [
            join(temp_path, f) for f in listdir(temp_path)
            if f.startswith("part")
        ][0]

        local_parquet_data_set = ParquetLocalDataSet(filepath=single_parquet)

        pandas_df = local_parquet_data_set.load()

        assert pandas_df[pandas_df["name"] == "Bob"]["age"].iloc[0] == 12

예제 #9

파일 보기

파일: test_parquet_local.py 프로젝트: zhongchen/kedro

def versioned_parquet_data_set(data_path, load_version, save_version):
    return ParquetLocalDataSet(
        filepath=data_path, version=Version(load_version, save_version)
    )

예제 #10

파일 보기

파일: test_parquet_local.py 프로젝트: zhongchen/kedro

def parquet_data_set(data_path, request):
    return ParquetLocalDataSet(filepath=data_path, **request.param)

예제 #11

파일 보기

def multi_catalog():
    csv = CSVLocalDataSet(filepath="abc.csv")
    parq = ParquetLocalDataSet(filepath="xyz.parq")
    return DataCatalog({"abc": csv, "xyz": parq})

예제 #12

파일 보기

파일: test_data_catalog.py 프로젝트: watilde/kedro

def multi_catalog(mocker):
    csv = CSVLocalDataSet(filepath="abc.csv")
    parq = ParquetLocalDataSet(filepath="xyz.parq")
    journal = mocker.Mock()
    return DataCatalog({"abc": csv, "xyz": parq}, journal=journal)