Python sql.dataframe.DataFrame.groupByの例

プログラミング言語: Python

名前空間/パッケージ名: pyspark

メソッド/関数: groupBy

hotexamples.comのコード掲載数: 2

Python sql.dataframe.DataFrame.groupBy - 2件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのpyspark.sql.dataframe.DataFrame.groupByの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

withColumn(10)

select(9)

join(8)

filter(6)

count(5)

withColumnRenamed(4)

toPandas(3)

agg(2)

groupBy(2)

createOrReplaceTempView(2)

groupby(2)

cache(1)

limit(1)

query(1)

repartition(1)

fillna(1)

drop(1)

コード例 #1

ファイルを表示

def calculate_geometric_mean(
        df: pyspark.sql.dataframe.DataFrame
) -> pyspark.sql.dataframe.DataFrame:
    """
    Calculate the geometirc mean of qtySold and netSale, by adding the new column called `geo_mean`
    """
    df_geometric_mean = df.groupBy('month', 'SubCategory').agg(
        exp(avg(log(col('totalMonthlyQtySold')))))
    df_geometric_mean = df_geometric_mean.withColumnRenamed(
        'EXP(avg(LOG(totalMonthlyQtySold)))', 'Qty_GeoMean_by_month_Subcat')

    df_geometric_mean2 = df.groupBy('month', 'SubCategory').agg(
        exp(avg(log(col('totalMonthlyNetSale')))))
    df_geometric_mean2 = df_geometric_mean2.withColumnRenamed(
        'EXP(avg(LOG(totalMonthlyNetSale)))', 'NS_GeoMean_by_month_Subcat')

    # join the column to the original dataset
    df_new = df.join(df_geometric_mean,
                     on=['month', 'SubCategory'],
                     how='inner')
    df_new = df_new.join(df_geometric_mean2,
                         on=['month', 'SubCategory'],
                         how='inner')
    #assert df.count() == df_new.count()
    return df_new

コード例 #2

ファイルを表示

ファイル: OOS_helperfun.py プロジェクト: YiranJing/Lagardere_CommercialAnalysis

def remove_no_stock_item(
        df: pyspark.sql.dataframe.DataFrame
) -> pyspark.sql.dataframe.DataFrame:
    hassale_item = df.groupBy("SKU", "Store").agg({
        "StockQty": "sum"
    }).filter(col('sum(StockQty)') != 0).drop('sum(StockQty)')

    new_df = hassale_item.join(df, on=["SKU", "Store"], how='inner')
    return new_df