分享

Pandas中使用pivot_table函数进行高级数据汇总

 ml_Py 2024-09-17 发布于河南

Pandas的pivot_table函数是一个强大的数据分析工具,可以帮助我们快速地对数据进行汇总和重塑。

本文将详细介绍pivot_table的用法及其在数据分析中的应用。

1. pivot_table函数简介

pivot_table函数的基本语法如下:

pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean'
                   fill_value=None, margins=False, dropna=True, margins_name='All'
                   observed=False, sort=True)

主要参数说明:

  • data: 要进行汇总的DataFrame
  • values: 需要聚合的列
  • index: 行索引
  • columns: 列索引
  • aggfunc: 聚合函数,默认为mean
  • fill_value: 填充缺失值
  • margins: 是否添加汇总行/列
  • dropna: 是否删除全为NaN的列

2. 基本用法示例

让我们通过一个简单的例子来了解pivot_table的基本用法:

import pandas as pd
import numpy as np

# 创建示例数据
df = pd.DataFrame({
    '日期': ['2023-01-01''2023-01-01''2023-01-02''2023-01-02'],
    '产品': ['A''B''A''B'],
    '销量': [100150120180],
    '价格': [10151216]
})

# 使用pivot_table
result = pd.pivot_table(df, values='销量', index='日期', columns='产品', aggfunc='sum')

print(result)

输出结果:

产品             A    B
日期                    
2023-01-01  100  150
2023-01-02  120  180

在这个例子中,我们以"日期"为行索引,"产品"为列索引,对"销量"进行了汇总。

3. 多个值列和聚合函数

pivot_table允许我们同时对多个列进行汇总,并使用不同的聚合函数:

result = pd.pivot_table(df, values=['销量''价格'], 
                        index='日期'
                        columns='产品'
                        aggfunc={'销量''sum''价格''mean'})

print(result)

输出结果:

              价格         销量     
产品             A     B    A    B
日期                              
2023-01-01  10.0  15.0  100  150
2023-01-02  12.0  16.0  120  180

4. 使用多级索引

pivot_table支持多级索引,这在处理复杂数据时非常有用:

df['城市'] = ['北京''上海''北京''上海']
result = pd.pivot_table(df, values='销量'
                        index=['日期''城市'], 
                        columns='产品'
                        aggfunc='sum')
print(result)

输出结果:

产品                 A      B
日期         城市              
2023-01-01 上海    NaN  150.0
           北京  100.0    NaN
2023-01-02 上海    NaN  180.0
           北京  120.0    NaN

5. 添加汇总行和列

使用margins参数可以添加汇总行和列:

result = pd.pivot_table(df, values='销量'
                        index=['日期''城市'], 
                        columns='产品'
                        aggfunc='sum'
                        margins=True)
print(result)

输出结果:

产品                 A      B    All
日期         城市                    
2023-01-01 上海    NaN  150.0  150.0
           北京  100.0    NaN  100.0
2023-01-02 上海    NaN  180.0  180.0
           北京  120.0    NaN  120.0
All             220.0  330.0  550.0

6. 填充缺失值

使用fill_value参数可以填充缺失值:

result = pd.pivot_table(df, values='销量'
                        index=['日期''城市'], 
                        columns='产品'
                        aggfunc='sum'
                        fill_value=0)
print(result)

输出结果:

产品                 A    B
日期         城市            
2023-01-01 上海     0  150
           北京   100    0
2023-01-02 上海     0  180
           北京   120    0

7. 高级应用:自定义聚合函数

pivot_table允许我们使用自定义的聚合函数:

def custom_agg(x):
    return x.max() - x.min()

result = pd.pivot_table(df, values=['销量''价格'], 
                        index='日期'
                        columns='产品'
                        aggfunc={'销量''sum''价格': custom_agg})
print(result)

输出结果:

              价格     销量     
产品             A    B    A    B
日期                              
2023-01-01    0.0  0.0  100  150
2023-01-02    0.0  0.0  120  180

8. 结合query进行数据筛选

pivot_table生成的结果是一个DataFrame,我们可以使用query方法进行进一步的数据筛选:

result = pd.pivot_table(df, values=['销量''价格'], 
                        index=['日期''城市'], 
                        columns='产品'
                        aggfunc='sum')

filtered_result = result.query('城市 == "北京"')
print(filtered_result)

输出结果:

                价格     销量    
产品               A    B    A   B
日期         城市                  
2023-01-01 北京  10.0  0.0  100   0
2023-01-02 北京  12.0  0.0  120   0

9. 总结

Pandas的pivot_table函数是一个强大的数据分析工具,它可以帮助我们快速地对数据进行汇总和重塑。通过灵活使用其各种参数,我们可以轻松地创建复杂的数据透视表,从而更好地理解和分析数据。

在实际应用中,pivot_table常用于销售数据分析、财务报表生成、用户行为分析等多个领域。掌握这个函数将大大提高您的数据分析效率。

参考资料:

  1. Pandas官方文档 - pivot_table
  2. Practical Business Python - Pandas Pivot Table Explained
  3. Spark By Examples - Pandas Pivot Table Explained with Examples
ChatGPT 、大模型系列研究报告(50+ 个 PDF) 
108页PDF小册子:搭建机器学习开发环境及Python基础 
116页PDF小册子:机器学习中的概率论、统计学、线性代数 
《全网最全 Python、机器学习、AI、LLM 速查表(100 余张)》 

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多