Excel数据分析

止观观止 2023-07-19 发布于浙江

展开全文

说数据透视表是Excel数据分析中最高频使用的功能，一点都不为过，甚至可以说Excel数据透视表是数据分析师日常工作中最常用的功能（vs Python）。有人可能会说，Python中pandas.pivot_table也可以做透视表，甚至还有很多优势，比如能够处理的数据量更大（超100万行）、统计函数类型更丰富（可自定义聚合函数），那为什么还要用Excel呢？

原因就两个字：灵活。

灵活体现在以下几个方面：

1、拖拽布局：值、行、列、筛选四个区域调整方便。

2、汇总计算：“值汇总方式”有多种汇总函数类型可选、“值显示方式”可以切换多种自定义计算方式，还有计算字段和计算项可编辑使用。

3、多项组合：当一个字段有多个取值（Excel中叫做“项”）可以合并为一项时，可以手动组合，而且可以在新组合上继续组合。

4、即时交互：以上所有操作结果都是即时可见的，这在数据分析中非常好用，因为分析不是一件能提前确定所有分析操作的事，常常需要边做边调整。

5、直接输出：Excel数据透视表的结果就是“表”，可作为一个普通的表直接输出，基于此可视化或者再透视都是可以的。

当然Excel数据透视表也有一些小问题：

1、文本类型字段只能计数，不能取文本的min、max。这个问题Excel无解，只能通过其他工具处理。

2、汇总函数中没有非重复计数。这个Excel有解，通过将数据源转换为数据模型就可以使用，后文会讲。

3、字段名改名之后可以通过“字段设置”找到源字段名，但字段的项改名之后，无法知道修改之前是什么。

好了，接下来，我们就以“A商城销售数据”为案例，把常用功能串起来，并且保证常用的处理方法没有遗漏。这里没讲到的大多数用不上，所以有些知识点没学，也不必觉得有什么遗憾。与多数讲透视表的文章不同的是，我不仅会讲具体怎么操作，还会讲清楚为什么（在什么场景下）这么操作，以及我更多会讲应该怎么做，而不是可以怎么做，把数据透视表的最佳玩法，展现给大家，肯定会涉及到深水区（我目前还没看到有其他地方有讲过），因为这都是我每天反复磨炼的泣血总结，其中不乏诸多巧思在里面。话不多说，我们开始吧。

选择数据源插入数据透视表

快速了解将要使用的数据

在Excel底部“自定义状态栏”右键单击，把统计的那六项全部勾选，以后选中的区域的基本六项统计指标就都会在自定义状态栏快速统计好了，不需要任何函数或其他操作。

通过选中明确知道不为空的A列（行id），数值计数为9959，我们就知道这份数据总记录数是9959。选中“销售额”列，求和为16068954.13，选中“销量”列，求和为37534。

建议：在“新工作表”放置新建的数据透视表

选择位置时建议选“新工作表”，这个在Excel官方的学习文档中也有提到。透视表与原始数据分开放置在不同Sheet的，以免相互影响。

可选：数据源转换为表格以动态更新数据透视表

若数据源经常需要增加行记录或者列字段，那么应该将数据源设置成可动态更新的。有两种方法，表格法和名称法，但这里推荐你用表格法。

表格法就是把普通区域转成“表”，表的一个特性就是会自动扩展连续区域。

名称法就是通过名称管理器使用函数返回动态区域来定义名称。但这个方法有个问题是，必须使用完全没有空值的行和列，这在数据经常更新状态下是无法彻底保证的。

函数=OFFSET(订单!$A$1,,,COUNTA(订单!$A:$A),COUNTA(订单!$1:$1))

OFFSET 是一个引用函数，第2和第3个参数表示行、列偏移量，这里是0意味着不发生偏移，第4个参数和第5个参数表示引用的高度和宽度。公式中分别统计A列和第1行的非空单元格的数量作为数据源的高度和宽度。当“销售明细表”工作表中新增了数据记录时，这个高度和宽度的值会自动地发生变化,从实现对数据源区域的动态引用。