Python PartitionSpec.get_num_partitions 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: fugue.collections.partition

클래스/타입: PartitionSpec

메소드/함수: get_num_partitions

hotexamples.com에서의 예제들: 3

Python PartitionSpec.get_num_partitions - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 fugue.collections.partition.PartitionSpec.get_num_partitions에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

PartitionSpec(30)

get_num_partitions(3)

get_cursor(2)

get_key_schema(2)

get_sorts(2)

get_partitioner(1)

예제 #1

파일 보기

def test_get_num_partitions():
    p = PartitionSpec(dict(partition_by=["b", "a"]))
    assert 0 == p.get_num_partitions()

    p = PartitionSpec(dict(partition_by=["b", "a"], num=123))
    assert 123 == p.get_num_partitions()

    p = PartitionSpec(dict(partition_by=["b", "a"], num="(x + Y) * 2"))
    assert 6 == p.get_num_partitions(x=lambda: 1, Y=lambda: 2)
    raises(Exception, lambda: p.get_num_partitions(x=lambda: 1))

    p = PartitionSpec(dict(partition_by=["b", "a"], num="min(ROWCOUNT,CORECOUNT)"))
    assert 90 == p.get_num_partitions(
        **{KEYWORD_ROWCOUNT: lambda: 100, KEYWORD_CORECOUNT: lambda: 90})

예제 #2

파일 보기

    def repartition(self, df: DataFrame,
                    partition_spec: PartitionSpec) -> DataFrame:
        def _persist_and_count(df: DataFrame) -> int:
            df = self.persist(df)
            return df.count()

        df = self.to_df(df)
        num_funcs = {KEYWORD_ROWCOUNT: lambda: _persist_and_count(df)}
        num = partition_spec.get_num_partitions(**num_funcs)

        if partition_spec.algo == "hash":
            sdf = hash_repartition(self.spark_session, df.native, num,
                                   partition_spec.partition_by)
        elif partition_spec.algo == "rand":
            sdf = rand_repartition(self.spark_session, df.native, num,
                                   partition_spec.partition_by)
        elif partition_spec.algo == "even":
            df = self.persist(df)
            sdf = even_repartition(self.spark_session, df.native, num,
                                   partition_spec.partition_by)
        else:  # pragma: no cover
            raise NotImplementedError(partition_spec.algo +
                                      " is not supported")
        sorts = partition_spec.get_sorts(df.schema)
        if len(sorts) > 0:
            sdf = sdf.sortWithinPartitions(*sorts.keys(),
                                           ascending=list(sorts.values()))
        return self.to_df(sdf, df.schema, df.metadata)

예제 #3

파일 보기

파일: execution_engine.py 프로젝트: WangCHX/fugue

 def repartition(self, df: DataFrame,
                 partition_spec: PartitionSpec) -> DaskDataFrame:
     df = self.to_df(df)
     if partition_spec.empty:
         return df
     if len(partition_spec.partition_by) > 0:
         return df
     p = partition_spec.get_num_partitions(
         **{
             KEYWORD_ROWCOUNT: lambda: df.persist().count(),  # type: ignore
             KEYWORD_CORECOUNT: lambda: 2,  # TODO: remove this hard code
         })
     if p > 0:
         return DaskDataFrame(
             df.native.repartition(npartitions=p),
             schema=df.schema,
             metadata=df.metadata,
             type_safe=False,
         )
     return df