pandas之groupby操作——数据分析必备技能
摘要:本文介绍了Python pandas库中groupby操作的核心功能,主要包括:1) 基本单列/多列分组统计;2) 多层级分组实现;3) 常用聚合函数应用(mean/max/agg等);4) 分组数据筛选方法。该操作适用于频次统计、极值分析、多维汇总等场景,是数据透视和统计分析的重要工具,能有效支持数据驱动的分析决策。(149字)
·
在Python数据分析中,pandas的groupby操作是数据分组统计的核心工具,它能够根据指定列的不同值对数据进行分组,然后对每个组执行聚合计算。
基本分组操作
groupby最常见的用法是按照一个或多个键对数据进行分组。例如,可以按照职业列分组并统计每个职业的干员数量:
# 按职业统计干员数量
df.groupby('职业')['姓名'].count()
# 按分支统计干员数量
df.groupby('分支')['姓名'].count()
多层级分组
groupby支持多层级分组,只需在groupby函数中传入列名列表即可实现分层统计:
# 按职业和分支进行双层分组
df.groupby(['职业', '分支'])['姓名'].count()
聚合函数应用
分组后可以应用多种聚合函数进行统计分析:
计算平均值:df.groupby('职业')['基础值'].mean()
获取最大值:df.groupby('股票代码')['最高价'].max()
多列聚合:使用agg函数同时计算多列统计值:
df.groupby('股票代码').agg({
'最高价': 'max',
'成交量': 'max'
})
数据筛选与过滤
在分组后可以筛选特定组的数据:
# 筛选职业为先锋的所有数据
df.groupby('职业').get_group('先锋')
应用场景
groupby操作特别适合以下数据分析场景:
频次统计和分布分析
分组最大值、最小值分析
多维度数据汇总
数据透视表功能实现
通过灵活运用groupby的分组和聚合功能,可以高效地进行复杂的数据统计分析,为数据驱动的决策提供有力支持。
更多推荐
所有评论(0)