Python DataFrame.groupby 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: odps.df

클래스/타입: DataFrame

메소드/함수: groupby

hotexamples.com에서의 예제들: 9

Python DataFrame.groupby - 9개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 odps.df.DataFrame.groupby에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

DataFrame(30)

persist(17)

join(11)

to_pandas(9)

split(9)

groupby(6)

union(6)

head(6)

roles(5)

tail(5)

append_id(5)

exclude_fields(3)

execute(3)

to_mars_tensor_via_oss(3)

filter(3)

count(3)

sample(2)

select(2)

bloom_filter(2)

map_reduce(2)

pivot_table(2)

filter_partition(2)

filter_parts(2)

to_csv(1)

select_features(1)

batch_persist(1)

discrete(1)

pivot(1)

concat(1)

merge_with(1)

drop_duplicates(1)

label_field(1)

key_value(1)

_create_summary_adapter(1)

data_source(1)

from_vertex_label_field(1)

extract_kv(1)

exclude(1)

dropna(1)

weight_field(1)

예제 #1

파일 보기

파일: test_dataframe.py 프로젝트: aliyun/aliyun-odps-python-sdk

    def testPandasGroupbyFilter(self):
        import pandas as pd

        data = [
            [2001, 1],
            [2002, 2],
            [2003, 3]
        ]
        df = DataFrame(pd.DataFrame(data, columns=['id', 'fid']))

        df2 = df.groupby('id').agg(df.fid.sum())
        df3 = df2[df2.id == 2003]

        expected = [
            [2003, 3]
        ]

        self.assertEqual(df3.execute().values.values.tolist(), expected)

        df2 = df.groupby('id').agg(df.fid.sum())
        df2.execute()
        self.assertIsNotNone(df2._cache_data)
        df3 = df2[df2.id == 2003]

        self.assertEqual(df3.execute().values.values.tolist(), expected)
        self.assertEqual(df3.execute().values.values.tolist(), expected)

        df4 = df.fid.sum()
        self.assertEqual(df4.execute(), 6)
        self.assertEqual(df4.execute(), 6)

예제 #2

파일 보기

    def testPandasGroupbyFilter(self):
        import pandas as pd

        data = [
            [2001, 1],
            [2002, 2],
            [2003, 3]
        ]
        df = DataFrame(pd.DataFrame(data, columns=['id', 'fid']))

        df2 = df.groupby('id').agg(df.fid.sum())
        df3 = df2[df2.id == 2003]

        expected = [
            [2003, 3]
        ]

        self.assertEqual(df3.execute().values.values.tolist(), expected)

        df2 = df.groupby('id').agg(df.fid.sum())
        df2.execute()
        self.assertTrue(context.is_cached(df2))
        df3 = df2[df2.id == 2003]

        self.assertEqual(df3.execute().values.values.tolist(), expected)
        self.assertEqual(df3.execute().values.values.tolist(), expected)

        df4 = df.fid.sum()
        self.assertEqual(df4.execute(), 6)
        self.assertEqual(df4.execute(), 6)

예제 #3

파일 보기

파일: test_dataframe.py 프로젝트: xiaolang098/aliyun-odps-python-sdk

 def test_df_store(self):
     self.delete_table(IONOSPHERE_SORTED_TABLE_PART)
     self.create_ionosphere_two_parts(IONOSPHERE_TABLE_TWO_PARTS)
     df = DataFrame(self.odps.get_table(IONOSPHERE_TABLE_TWO_PARTS)).filter_partition('part1=1,part2=2')
     self.odps.delete_table(IONOSPHERE_SORTED_TABLE_PART)
     sorted_df = df.groupby(df['class']).agg(df.a01.count().rename('count')).sort('class', ascending=False)
     sorted_df.persist(IONOSPHERE_SORTED_TABLE_PART)

예제 #4

파일 보기

파일: test_dataframe.py 프로젝트: fubincom/aliyun-odps-python-sdk

    def testRepeatSetItem(self):
        df = DataFrame(self.table)

        df['rank'] = df.groupby('name').sort('id').id.rank()
        df['rank'] = df.groupby('name').sort('id').id.rank()

        self.assertEqual(len(df.execute()), 3)

예제 #5

파일 보기

파일: test_dataframe.py 프로젝트: aliyun/aliyun-odps-python-sdk

 def test_df_store(self):
     self.delete_table(IONOSPHERE_SORTED_TABLE_PART)
     self.create_ionosphere_two_parts(IONOSPHERE_TABLE_TWO_PARTS)
     df = DataFrame(self.odps.get_table(IONOSPHERE_TABLE_TWO_PARTS)).filter_partition('part1=1,part2=2')
     drop_table(self.odps, IONOSPHERE_SORTED_TABLE_PART, async=False)
     sorted_df = df.groupby(df['class']).agg(df.a01.count().rename('count')).sort('class', ascending=False)
     sorted_df.persist(IONOSPHERE_SORTED_TABLE_PART)

예제 #6

파일 보기

def chengbenjiaupdatedf(dfsall, cnxxc):
    """
    :param dfsall: 按照日期排序的销售明细记录
    :param cnxxc: 数据库连接，为了查询生成产品价格变动记录
    :return:
    """

    # 读取进货记录（排除退货记录）
    dfpros = pd.read_sql_query(
        'select 产品名称, strftime(\'%Y%m\',日期) as 年月, 金额 as 进货金额, 数量 as 进货数量, '
        '单价 as 进货单价 from jinghuomingxi where 金额 >=0 order by 年月, 产品名称', cnxxc)
    dfpros = DataFrame(dfpros)
    descdb(dfpros[dfpros.进货金额 == 0].to_pandas())

    # 按照月份汇总，生成成本单价并按照月份分组汇总，生成价格调整记录
    dfpro = dfpros.groupby(['产品名称', '年月']).agg(进货金额=dfpros.进货金额.sum(),
                                               进货数量=dfpros.进货数量.sum())
    dfpro = dfpro[dfpro, (dfpro.进货金额 / dfpro.进货数量).round(2).rename('单价')]
    descdb(dfpro.to_pandas())
    dfpro = dfpro.groupby(['产品名称', '单价'
                           ]).agg(年月=dfpro.年月.min(),
                                  进货金额=dfpro.进货金额.sum()).sort(['产品名称', '年月'])
    descdb(dfpro.to_pandas())
    log.info('共有%d条产品价格记录，共有%d条产品价格记录（含调价）' % (dfpro.groupby('产品名称').agg(
        dfpro.单价.count()).to_pandas().shape[0], dfpro.to_pandas().shape[0]))

    log.info('共有%d条销售明细记录' % dfsall.shape[0])
    dfsall['年月'] = dfsall['日期'].apply(
        lambda x: datetime.datetime.strftime(x, '%Y%m'))
    dfprosall = dfsall.groupby('商品全名', as_index=False)['金额'].sum()
    dfprosall.rename(columns={'商品全名': '产品名称', '金额': '销售金额'}, inplace=True)

    # 连接进货产品目录和销售产品目录，查看各自的空记录
    dfproall = pd.merge(dfpro.groupby(
        ['产品名称']).agg(进货金额=dfpro.进货金额.sum()).to_pandas(),
                        dfprosall,
                        how='outer')
    descdb(dfproall)
    log.info('以下进货产品在本期无销售记录：%s' %
             list(dfproall[dfproall.销售金额.isnull().values == True]['产品名称']))

    dfsall['成本单价'] = 0
    dfpro = dfpro.to_pandas()
    for idx in dfpro.index:
        dfsall.loc[dfsall[(dfsall.商品全名 == dfpro.loc[idx]['产品名称'])
                          & (dfsall.年月 >= dfpro.loc[idx]['年月'])].index,
                   ['成本单价']] = dfpro.loc[idx]['单价']

    dfsall['成本金额'] = dfsall['成本单价'] * dfsall['数量']
    dfsall['毛利'] = dfsall['金额'] - dfsall['成本金额']
    descdb(dfsall)
    del dfsall['年月']  # 删除过程数据
    descdb(dfsall)

    return dfsall

예제 #7

파일 보기

파일: test_dataframe.py 프로젝트: xiaolang098/aliyun-odps-python-sdk

 def test_df_method(self):
     self.create_ionosphere(IONOSPHERE_TABLE)
     df = DataFrame(self.odps.get_table(IONOSPHERE_TABLE))
     sorted_df = df.groupby(df['class']).agg(df.a01.count().rename('count')).sort('class', ascending=False)
     sorted_df.to_pandas()

예제 #8

파일 보기

파일: test01.py 프로젝트: 15602035939/PythonStudy

# -*- coding: utf-8 -*-
"""
Created on Sat Sep  2 20:07:27 2017

@author: shuai.qian
"""
import matplotlib.pyplot as plt
from odps.df import DataFrame
from odps import ODPS

o = ODPS('',project='', endpoint='')
t = DataFrame(o.get_table('tmp_ods_mc_testing_dlt'))
print("=================================> START <==================================")
#print(t.dtypes)
#print(t["class"].head(5))
t.groupby('class').agg(count = t['class'].count())

# %matplotlib inline

t['class'].value_counts().plot(kind = 'bar', x = 'class', xlabel = 'cnt' )

tmp = range(0,10,2)
tmp.pop(1)

예제 #9

파일 보기

파일: test_dataframe.py 프로젝트: aliyun/aliyun-odps-python-sdk

 def test_df_method(self):
     self.create_ionosphere(IONOSPHERE_TABLE)
     df = DataFrame(self.odps.get_table(IONOSPHERE_TABLE))
     sorted_df = df.groupby(df['class']).agg(df.a01.count().rename('count')).sort('class', ascending=False)
     sorted_df.to_pandas()