在Python数据分析中,pandas的groupby操作是数据分组统计的核心工具,它能够根据指定列的不同值对数据进行分组,然后对每个组执行聚合计算。

基本分组操作
groupby最常见的用法是按照一个或多个键对数据进行分组。例如,可以按照职业列分组并统计每个职业的干员数量:

# 按职业统计干员数量
df.groupby('职业')['姓名'].count()

# 按分支统计干员数量  
df.groupby('分支')['姓名'].count()

多层级分组
groupby支持多层级分组,只需在groupby函数中传入列名列表即可实现分层统计:

# 按职业和分支进行双层分组
df.groupby(['职业', '分支'])['姓名'].count()

聚合函数应用
分组后可以应用多种聚合函数进行统计分析:

计算平均值‌:df.groupby('职业')['基础值'].mean()
获取最大值‌:df.groupby('股票代码')['最高价'].max()
多列聚合‌:使用agg函数同时计算多列统计值:

df.groupby('股票代码').agg({
    '最高价': 'max', 
    '成交量': 'max'
})

数据筛选与过滤
在分组后可以筛选特定组的数据:

# 筛选职业为先锋的所有数据
df.groupby('职业').get_group('先锋')

应用场景
groupby操作特别适合以下数据分析场景:
频次统计和分布分析
分组最大值、最小值分析
多维度数据汇总
数据透视表功能实现
通过灵活运用groupby的分组和聚合功能,可以高效地进行复杂的数据统计分析,为数据驱动的决策提供有力支持。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐