Python DataFrame.printSchema 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: pyspark.sql.dataframe

클래스/타입: DataFrame

메소드/함수: printSchema

hotexamples.com에서의 예제들: 2

Python DataFrame.printSchema - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 pyspark.sql.dataframe.DataFrame.printSchema에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

withColumn(30)

select(30)

DataFrame(24)

filter(20)

createOrReplaceTempView(16)

count(11)

drop(11)

_schema(10)

join(6)

collect(6)

show(5)

groupBy(5)

withColumnRenamed(5)

coalesce(5)

where(4)

toPandas(4)

cache(3)

repartition(3)

limit(3)

alias(3)

selectExpr(3)

unpersist(2)

toDF(2)

fillna(2)

schema(2)

printSchema(2)

persist(2)

_h2o_frame(2)

head(2)

explain(2)

foreach(1)

sortWithinPartitions(1)

take(1)

orderBy(1)

toLocalIterator(1)

transform(1)

agg(1)

mapInPandas(1)

예제 #1

파일 보기

def test_group_status(spark: SparkSession, df_group_status: DataFrame) -> None:
    from pyspark.sql import functions as F
    from pyspark.sql.types import BooleanType

    df_group_status.show()
    df_group_status.printSchema()

    df_enrich: DataFrame = df_group_status \
                    .withColumn("cond1", when(col("dt") >= to_date(lit('2020-01-01'), 'yyyy-MM-dd'), lit(True)).otherwise(lit(False))) \
                    .withColumn("cond2", when(col("dt") >= to_date(lit('2021-01-01'), 'yyyy-MM-dd'), lit(True)).otherwise(lit(False)))

    df_enrich.show()
    df_enrich.printSchema()

    df_enrich_further: DataFrame = df_enrich.groupBy("grp") \
                        .agg(F.collect_set("cond1"), F.collect_set("cond2")).toDF(*["grp", "cond1_set", "cond2_set"])

    df_enrich_further.show()
    df_enrich_further.printSchema()

    df_final: DataFrame = df_enrich_further.withColumn("from_cond1_set", ~F.array_contains(F.col("cond1_set"), False)) \
                        .withColumn("from_cond2_set", ~F.array_contains(F.col("cond2_set"), False))

    df_final.show()
    df_final.printSchema()

    df_final: DataFrame = df_final.drop(*["cond1_set", "cond2_set"])
    df_enrich: DataFrame = df_enrich.drop(*["cond1", "cond2"])

    df_enrich.join(df_final, df_enrich["grp"] == df_final["grp"],
                   "inner").show()

예제 #2

파일 보기

파일: common.py 프로젝트: jstachera/UdacityCapstoneProject

def print_data_info(data: DataFrame,
                    file_name: str = '',
                    isDetailed: bool = False):
    """
        Prints spark i94project frame description

        :param isDetailed:
        :param file_name:
        :param data: spark i94project frame
        :return: none
    """
    # if verbose_mode:
    print('----------------------------------------')
    print(f'\r| Data {file_name} info:')
    print('\r| Schema')
    data.printSchema()
    if isDetailed:
        print('\r| Types')
        print(data.dtypes)
        # print('\r| Describe')
        # print(data.describe().show())
        print('\r| First rows')
        data.show(n=10)
        print('\r| Row count: {}'.format(data.count()))

    print('----------------------------------------')
    print('\n')