Python DeltaTable.to_pandas 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: deltalake

클래스/타입: DeltaTable

메소드/함수: to_pandas

hotexamples.com에서의 예제들: 6

Python DeltaTable.to_pandas - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 deltalake.DeltaTable.to_pandas에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

DeltaTable(30)

to_pyarrow_dataset(12)

to_pandas(6)

pyarrow_schema(4)

to_pyarrow_table(3)

load_with_datetime(2)

metadata(2)

protocol(2)

files(2)

update_incremental(2)

files_by_partitions(1)

history(1)

as_version(1)

schema(1)

file_uris(1)

to_table(1)

vacuum(1)

version(1)

예제 #1

파일 보기

파일: test_writer.py 프로젝트: mosyp/delta-rs

def test_write_pandas(tmp_path: pathlib.Path, sample_data: pa.Table):
    # When timestamp is converted to Pandas, it gets casted to ns resolution,
    # but Delta Lake schemas only support us resolution.
    sample_pandas = sample_data.to_pandas().drop(["timestamp"], axis=1)
    write_deltalake(str(tmp_path), sample_pandas)

    delta_table = DeltaTable(str(tmp_path))
    df = delta_table.to_pandas()
    assert_frame_equal(df, sample_pandas)

예제 #2

파일 보기

파일: test_deltatable_local.py 프로젝트: Pverheijen/DeltaLakeReader

class DeltaReaderAppendTest(TestCase):
    @classmethod
    def setUpClass(self):
        self.path = f"tests/{str(uuid.uuid4())}/table1"
        self.spark = (
            pyspark.sql.SparkSession.builder.appName("deltalake").config(
                "spark.jars.packages",
                "io.delta:delta-core_2.12:0.7.0").config(
                    "spark.sql.extensions",
                    "io.delta.sql.DeltaSparkSessionExtension").config(
                        "spark.sql.catalog.spark_catalog",
                        "org.apache.spark.sql.delta.catalog.DeltaCatalog",
                    ).getOrCreate())
        df = (self.spark.range(0,
                               1000).withColumn("number", rand()).withColumn(
                                   "number2",
                                   when(col("id") < 500, 0).otherwise(1)))

        for i in range(12):
            df.write.partitionBy("number2").format("delta").mode(
                "append").save(self.path)

        self.table = DeltaTable(self.path)

    @classmethod
    def tearDownClass(self):
        # remove folder when we are done with the test
        shutil.rmtree(self.path)

    def test_paths(self):
        assert self.table.path == self.path
        assert self.table.log_path == f"{self.path}/_delta_log"

    def test_versions(self):

        assert self.table.checkpoint == 10
        assert self.table.version == 11

    def test_data(self):

        # read the parquet files using pandas
        df_pandas = self.table.to_pandas()
        # read the table using spark
        df_spark = self.spark.read.format("delta").load(
            self.table.path).toPandas()

        # compare dataframes. The index may not be the same order, so we ignore it
        assert_frame_equal(
            df_pandas.sort_values("id").reset_index(drop=True),
            df_spark.sort_values("id").reset_index(drop=True),
        )

    def test_version(self):
        # read the parquet files using pandas
        df_pandas = self.table.as_version(5, inplace=False).to_pandas()
        # read the table using spark
        df_spark = (self.spark.read.format("delta").option(
            "versionAsOf", 5).load(self.table.path).toPandas())

        # compare dataframes. The index may not be the same order, so we ignore it
        assert_frame_equal(
            df_pandas.sort_values("id").reset_index(drop=True),
            df_spark.sort_values("id").reset_index(drop=True),
        )

    def test_partitioning(self):
        # Partition pruning should half number of rows
        assert self.table.to_table(
            filter=ds.field("number2") == 0).num_rows == 6000

    def test_predicate_pushdown(self):
        # number is random 0-1, so we should have fewer than 12000 rows no matter what
        assert self.table.to_table(
            filter=ds.field("number") < 0.5).num_rows < 12000

    def test_column_pruning(self):
        t = self.table.to_table(columns=["number", "number2"])
        assert t.column_names == ["number", "number2"]

예제 #3

파일 보기

def test_delta_table_with_filesystem():
    table_path = "../rust/tests/data/simple_table"
    dt = DeltaTable(table_path)
    filesystem = LocalFileSystem()
    assert dt.to_pandas(filesystem=filesystem).equals(pd.DataFrame({"id": [5, 7, 9]}))

예제 #4

파일 보기

def test_delta_table_to_pandas():
    table_path = "../rust/tests/data/simple_table"
    dt = DeltaTable(table_path)
    assert dt.to_pandas().equals(pd.DataFrame({"id": [5, 7, 9]}))

예제 #5

파일 보기

    .getOrCreate()
)

for n in np.logspace(3, 8):
    path = f"tests/data/{str(uuid.uuid4())}/table1"
    df = (
        spark.range(0, n)
        .withColumn("number", rand())
        .withColumn("number2", when(col("id") < 500, 0).otherwise(1))
    )

    df.write.format("delta").mode("append").save(path)

    table = DeltaTable(path)
    t = time()
    df_pandas = table.to_pandas()
    t_dt = time() - t

    t = time()
    df_spark = spark.read.format("delta").load(table.path).toPandas()
    t_spark = time() - t
    print(f"{n},t_df,{t_dt}\n{n},t_spark,{t_spark}")

    with open("performance_tests/results.txt", "a") as f:
        print(f"{n},delta-lake-reader,{t_dt}", file=f)
        print(f"{n},spark,{t_spark}", file=f)

    shutil.rmtree(path)

plt.style.use("fivethirtyeight")
df = pd.read_csv("performance_tests/results.txt")

예제 #6

파일 보기

파일: test_fs.py 프로젝트: mosyp/delta-rs

def test_read_simple_table_from_remote(s3_localstack):
    table_path = "s3://deltars/simple"
    dt = DeltaTable(table_path)
    assert dt.to_pandas().equals(pd.DataFrame({"id": [5, 7, 9]}))