当今世界,数据无处不在,而图表可以帮助我们理解数据、洞悉数据背后的真相,让我们更好地适应这个数据驱动的世界。 图表,是语言的一种重要形式。它借助于各种可视化的组件,通过展示数据间的对比,来达到传递信息、表达观点或者发现数据背后的趋势等目的。 我们从——数据是什么——这个问题开始聊起,世界知名的可视化专家、加州伯克利的教授邱南森在他的著作《数据之美:一本书学会可视化设计》一书中是这么回答的: 大部分人会含糊地回答说,数据是一种类似电子表格的东西,或者一大堆数字。有点技术背景的人会提及数据库或数据仓库。然而,这些回答只说明了获取数据的格式和数据的存储方式,并未说明数据的本质是什么,以及特定的数据集代表着什么。你很容易陷入一种误区,因为当你需要数据的时候,通常会得到一个计算机文件,你很难把计算机输出的信息看作其他任何东西。然而,透过现象看本质,就能得到更多有意义的东西。 数据不仅仅是数字。要想把数据可视化,就必须知道它表达的是什么。 数据描绘了现实的世界。与照片捕捉了瞬间的情景一样,数据是现实世界的一个快照。 本文章的主题是:《用图表说话——漫谈商务图表的设计理念》,这里所称的'商务图表“主要指我们日常工作中用于业务展示、汇报和进行信息传递的图表。 分为两大部分,分别是可视化组件和从数据到图表的介绍。 可视化组件分为4种: 视觉暗示、坐标系、标尺、背景信息 可以通过上图右边的图示来看下, 这个柱形(也可以说是垂直方向的条形)就是视觉暗示的一种, 互相垂直的横轴和纵轴构成了一个直角坐标系, 横轴上的标签是月份,属于一个时间刻度;纵轴是一个数字刻度,一个数值等距分布的线性标尺。 左上角的标题,纵轴刻度标签旁的“单位”,以及右下角的数据来源批注都属于背景信息的一种。 好比中间这个简单的柱形图图示,大家想象一下,如果缺少了4种可视化组件中的一种,比如没有柱形、没有坐标系或者没有刻度尺,没有图表标题、数值单位注释、数据来源批注等背景信息,那么就会使人无法了解到数据的关键,使人感到迷惑。 图表是为了帮助人更好的理解数据,如果一个图表需要阅读者去猜测主题或者内容到底是什么,使读者对数据背后的信息更加的模糊不清,那么毫无疑问,这幅图表的设计是失败的。 我这里单独聊一下数据来源批注,除非图表的阅读者非常清楚你的数据从哪而来,那么在图表里加一个数据来源的批注是很有必要的,可以增加图表的可信度,而且如果有人对数据有所疑问,可以从源头去进行查证。 接下来我完整介绍下4种可视化组件所包含的内容。 视觉暗示包括: 位置(典型应用就是散点图) 长度(比如条形图或柱形图,柱形图也可称之为垂直方向的条形图) 角度(比如饼图或圆环图中表示占比的分块) 方向(比如线形图线条的走向) 形状(比如散点图里不同的数据标记形状来区分不同的类别或组) 面积(常见于面积图、树状图或者气泡图、不等宽柱形图等) 体积(三维图形) 色彩饱和度(同一颜色不同深浅表示不同数量级) 颜色(用于对类别或组别的区分) 坐标系, 坐标系分为3种: 最常见的是平面直角坐标系,我们日常接触的大部分图表都是平面直角坐标系,也叫做笛卡尔坐标系。 极坐标系,比如饼图、圆环图或者雷达图的坐标就是极坐标。 地理坐标系,地图专用。 刻度尺,也可以称之为标尺,3种刻度尺: 数字刻度 分类刻度 时间刻度 背景信息 包括数据相关的5W信息、主标题、副标题、数字单位注释、底注、数据来源批注、坐标轴标题等 这里讲了很多理论知识,可能会有点枯燥,但是我个觉得是有必要的,从更高角度去理解图表,理解可视化,有助于让我们更好的使用图表。 前面我们聊到,”图表,是语言的一种重要形式“。 正如你想学习并精通任何一种语言一样,学习图表,也必须要花时间去学习词汇、语法,并且不断练习,使之成为你根深蒂固的习惯。 接下来我们聊从数据到图表的过程。 相信大部分图表的初学者,都有一个疑惑,”我该用什么图来画?',看到一堆数据,不知道该从哪里开始,有点茫然的感觉。 关于这个问题,麦肯锡咨询公司的前负责形象化沟通的主管基恩.泽拉兹尼,在30多年前提出了他的经典理论。 他的理论核心,简而言之,数据变为图表,3个步骤: 确定主题,确定你想要表达的具体主题; 确定对比关系,从主题到对比关系; 选择图表形式,从对比关系到图表。 将数据转化为主题,选择合适图表的关键,最初也是最重要的,就是确定你想要表达的具体主题。 每个图表都是数据的一种组织形式,它最终是要强调一个主题。 那么主题是什么,如何确定? 你可以画出一系列图表的草图,从不同角度观察数据。更有效的方法是,突出最重要的数据以确定你的主题。 很多时候,对同一个数据,可以得出多个主题,强调这一点,还是强调另一点,则由你——图表设计者——来决定,那么这个决定就成为你最终的主题。 所以,确定图表的主题,不是一个简单的过程,而需要花很多功夫。我们不妨将主题变为图表的标题,为什么呢?这个问题详细的聊下, 我们见过很多图表,标题就和猜谜差不多。 比如这页某国内大型综合管理咨询公司的几个图表: 全球市场规模情况 中国市场规模情况 细分市场占比 销售区域分布 这些标题描述了图表的内容范围,但是它们没有指出重点。全球市场是个什么规模,有什么特点?中国市场的表现是怎样的?从各细分市场占比的这个饼图中,可以得到什么结论?销售区域的分布呈现什么特点?等 看到这些图表的标题,那么你心中自然会浮现这么些问题,但是这些问题的答案似乎是个藏在图表里的秘密。 这几个图,除了图表主题不明确之外,还犯了几个致命的设计错误,左上角这幅图,柱形图(左轴)用了个非0基线,人为的扩大了年份间的差异,2015年3710亿美金,2016年3873亿美金,实际增长了163亿美金,仅仅不到5%的增长,一个很小幅度的变化,但是从2015和2016年的两个柱形来看,好像增长了25%似的! 柱形图、条形图绝对不要用非0基线,因为他们就是依靠“长度”这个可视化组件来映射数值,把这些个条形(或柱形)截掉一段,那就不能反映数据间的真实对比关系了。这是很严重的错误。 而左下角这个饼图,那么多切片,毫无意义,饼图最多不能超过6个分块,否则很难展示各个分块的差异。 还有些别的问题,不如上面几个问题那么醒目,后面我们通过专门的课时来讲解图表设计时应该避免的一些错误。 回到图表主题这个内容上来,根据我从这几年看过的国内外报告来观察,国外这种主题不明的图表也有。 比如让我们来看下某著名欧美跨国财务管理咨询公司的报告里的几个图表案例: 左上角这幅图的标题是:“盈利能力表现——上市公司与私营公司”,他们是怎么表现的? 左下角的图,“十五年来的资产增长”,呈现什么特点,哪个地区增长最快? 右上角,IPO前后业绩发生了什么变化,IPO对业绩的影响是怎样的? 右下角,2013-2018年科技子产业经历了什么样的发展?哪些产业比较优秀? 把你的图表主题放在图表的最前面!这样可以减少图表阅读者误解的可能性,让他们将注意力集中到你想重点强调的数据上来。 接下来我们来看看严格的遵循这个规则的案例,来自于某世界知名管理咨询公司: 图表主题一览无遗,非常简洁明了。 阅读者第一眼就看到了醒目的图表标题,同时也明白了图表的主题是什么,然后目光沿着图表制作者设计的主线,去查看图表的各个元素。 阅读者通过观察图表里的视觉元素去验证图表主题是否可信,判断其观点是否可以接受。 图表主题概括了图表元素所表达的,而图表元素又回过头来验证了图表主题,互相印证。 接下来开始介绍,从数据到图表的第2个步骤,确定对比关系。 确定对比关系,是一个从主题到对比关系的过程。 你确定的主题应包括5种对比关系的一种:构成、类别、时间序列、频率分布,相关性。 选择图表形式,从对比关系到图表。 当你确定了对比关系,那么剩下来的工作就很具体,选择最适合你的主题的图表形式。 所以接下来,我来通过这几种对比关系所适用的图表形式,来同步介绍这两个步骤。 介绍5种对比关系及其适用的常规图表形式。 在成分对比关系中,我们主要对每一部分的大小占总数的百分比感兴趣,比如: 公司某款产品的销售额占总销售额的超过30% 2018年,我司的市场份额少于5% 公司的业务招待费占所有管理费用的超过25% 你的主题中只要包括如下词汇如:份额、占比、总数百分比、占百分比多少等字样时,可以肯定你是在制作一个构成的对比关系图表。 现在大家所看到页面的图示,是表达构成对比关系的常用图表类型,我来一一介绍下,介绍的顺序是从左到右,从上到下: 标准饼图,以12点线为起点,一般按数值大小顺时针排列,不要超过6个切片; 圆环图,又称甜甜圈图,用法和饼图类似; 百分比堆积条形图1,展示多个类别的多个共同部分所占的百分比,比如多个城市的性别占比的比较; 百分比堆积柱形图1,反映时间趋势上的百分比变化; 百分比堆积面积图,反映连续时间趋势上的百分比变化; 百分比条形图,比较同一整体的各部分的占比; 百分比堆积条形图2,展示单一整体的多个部分的占比; 百分比堆积柱形图2,同上; 桑基图,展示一个整体的分化; 华夫饼图,通过小方格展示占比; 树状图,通过矩形的面积反映各个分块的占比; 百分比瀑布图,反映各阶段的百分比演变过程; 下面这排前3个图较少使用,最后是帕累托图,直方图另外有个累积百分比的线形图系列,常用于质量管理。 在类别对比时,我们需要比较类别间的大小、高低,它们是相同的,还是比其它类别多或少? 例如: 中国的GDP总量比美国低,但是超过世界其他国家; 我司今年的销量处于全市场的第3位; 今年双11我的消费金额大体和部门平均消费金额相同。 我们可以从大于、小于或相同之类的词汇中找到类别比较的线索。 大家可以看到这些类别比较的图形样式: 第一个,左上角,标准条形图,需要注意的是,条形图的纵轴类别标签,一般是按照其数值大小降序排列,除非类别间有其内在的逻辑,比如优、良、中等、差、很差这种有自身逻辑顺序的; 簇状条形图,多个类别的两个指标的对比,或者多个类别两个时间点同一指标的对比; 旋风图(也有称蝴蝶图),用于展示多个类别间的两个变量间的关系; 背离式条形图,一般用于多个类别间的盈亏情况的对比,比如多个国家的贸易顺差和逆差的情况; 范围条形图,表示多个类别间的由低到高的数值范围,而不是表示单个数值,适合用于表示多个类别间的数值范围间的比较; 堆积条形图,表示多个类别里的各构成的对比,有两个需要注意的地方,首先,这里条形表示的是绝对值,不同于百分比堆积条形图里的相对值。另外,将最重要的部分放在靠近左侧纵轴刻度线,因为越靠近基线,将更容易被测量; 平行条形图,适合比较多个类别多指标的值,既可以横向比较类别,也方便纵向比较各个部分的值; 棒棒糖图,通过点和线的组合来对比类别间的差异,在excel里一般通过散点图加误差线实现; 哑铃图,一般用来展示多类别的两时间的值; 比例条形图,通过比例来比较类别间的差异; xy图表,通过类别间在xy两个数值轴上的分布,来同时比较多个类别在两个指标上的表现; 子弹图,一般用于表示多个类别的实际与计划的差异,同时查看所处的水平。这个子弹图样式的发明者是著名的可视化大师Stephen few; 瀑布图,瀑布图是麦肯锡咨询独创的图表类型,适用于数个特定数值间的数量变化关系; 斜率图,一般适用于多个类别在多个指标上的排名情况; 小人图,用特定图形(和主题相关的)填充条形; 词云,展示文本的出现频率; 雷达柱形图,雷达图的变形,excel很难实现,建议谨慎使用; 雷达条形图,同上,建议谨慎使用; 雷达图,用于展示一个数据对象的多个变量值; 仪表盘,反映单一类别的单一变量,一般用于dashboard的交互展示。 时间序列对比关系 这个对比关系是我们最常见的对比关系,表示随时间变化的情况。 当我们对每一部分在总数的比例或大小不感兴趣,但是对它们随时间的变化感兴趣,不管是一周的变化,还是一个月的变化或者一个季度、一年的变化,也不管他们是增长、下降、波动或是保持不变。例如: 销售量自1月份以来呈现逐步下滑态势; 过去5年我司的盈利状况每况愈下; 过去10年的薪资水平均处于一个小幅增长的态势; 21世纪的前20年,中国的贫困人口占总人口的比持续降低。 等 接下来介绍时间序列对比关系的常用图形: 折线图,两种最常用的表示时间序列对比关系的图形之一; 带数据标记的折线图,展示每个时间点的具体数值; 面积图,也是常用的表示时间序列对比关系的图形; 柱形图,另一种表示该对比关系的最常用图表形式; 这里顺带提一下,对于时间序列对比关系,如果你的选择是折线图或柱形图的一种,那么到底该选择哪种,有两个说法: 1.少于8个数据点用柱形图,大于等于8个数据点用折线图; 2. 离散时间序列用柱形图,连续时间序列用折线图。 离散时间序列和连续时间序列是两个统计学的专有名词,通俗一点讲,举个例子,一天24小时的气温变化,每时每刻都在变,那么是一个连续时间序列。而如果我们以小时或者分钟来进行聚合,以其每小时或每分钟的平均气温作为图表的值,那么是一个离散时间序列。 接下来是堆积面积图,和百分比堆积面积图不同,这里展现的值,是绝对值,比如以“元”、“吨”、“米”为单位的数据; 背离式柱形图,一般用于展示随时间变化的盈亏状况,比如某企业多年以来的盈亏状况; 背离式折线图,用法和上面的背离式柱形图类似; 垂直瀑布图,表示随时间变化而变化的特点数值的演化; 时间线图,表示时间线上所发生的事件; 迷你走势图,excel内置的一种迷你图类型,直接在单元格内体现走势; 斜率图,常用于展示两个时间点排名的变化; 点阵图,常用于表示两个时间点的变化; 循环线形图,表示多个类别的同一时间区间的变化趋势; 地平线图,同样,展示多个类别的随时间变化的趋势,有一种立体感,excel可以使用多系列的堆积面积图实现。 频率分布对比关系 这种对比关系表示有多少个项目或类别符合一个数字发展的范围。 比如,我们用一个频率分布对比关系来展示我司有多少员工的月薪超过5万元,有多少员工的月薪处于3-5万元之间,有多少员工的月薪在1-3万元区间等。或者有多少员工的年龄小于25岁,25-30岁员工人数有多少、超过30岁的员工人数有多少等。 典型的主题有: 我司10月份的客户订单金额主要集中在20万-30万元之间; 多数客户订单的交付时长在4-6周之间; 我司员工的年龄分布与竞争对手大不相同。 等 这种对比关系的关键词包括: x到y的范围,密度,频率,分布等。 频率分布对比关系的常用图形: 左上角第一个,社会学里常见的人口金字塔图,和旋风图形态差不多; 点矩阵,用点的多少来表示频数的多少; 直方图,当组距是一个等距组距的话,那么直方图和标准柱形图一样,这里的图示是一个不等距的直方图,也可以称之为不等宽柱形图。不管分组是否等距,横轴都是一个数值范围,而垂直方向的柱形高度表述落在该数据范围内的频数; 密度曲线图,科学图表常见; 带误差线的柱形图; 箱型图; 小提琴图,也是一种科学图表,excel几乎无法制作; 山脊图,比较少见,也属于一种科学图表。 相关性对比关系 相关性,是指两个变量的关联程度。 相关性对比关系表示两个变量之间的关系可以是,也可以不是你所证明的模式。 例如,你可以证明利润随着销售额的增长而增长,可以论证销售额随着打折幅度的增加而增长。 当你的主题包括与什么相关,随什么增长,随什么减退,根据什么变化,或者不随什么增长等,那么就可以断定是一个相关性对比关系。 相关性对比关系因为是表示两个变量——之间的关系,两个坐标轴都是数值轴,和常见的其它图表类型柱形图、条形图、折线图等一个类别轴(或时间轴)、一个数值轴不同。 让我们来看下几种表示相关性的图表类型: 散点图,表示两个变量之间的关联程度; 气泡图,3个变量之间的关联程度,气泡的大小可以表示第3个变量; 风险矩阵图,一般用于风险评估,可以用来表示危险发生的可能性和伤害的严重程度两个变量,在战略管理领域,表示机遇和风险两个变量等。 最后一个串珠图,比较少见,需要开发合适的应用场景。 ![]() 以上就是5种对比关系的常用图表类型。 这一从数据到图表的标准流程,30多年前基恩.泽拉兹尼提出以来,已经成为商务图表方面的金标准,指导了世界范围内无数职场人的图表设计,并以此为基础,发展出一套国际通用的标准IBCS (International Business Communication Standard)——国际商务沟通标准。 最后,我以一段邱南森的经典叙述作为结束语:允许数据点之间进行比较是数据可视化的主要目标。 在表格中,我们只能逐个对数据进行比较,而把数据放到视觉环境中就可以看出一个数值和其他数值的关联有多大,所有数据点是如何彼此相关的。 可视化作为更好地理解数据的一种方式,如果不能满足这个基本需求,那它就没有价值了。 在设计可视化图表时,你必须考虑读者知道什么,不知道什么,以及你想要他们知道什么。他们会怎么读你的图?会怎样理解你的数据? 对自己的数据理解得越深,就能帮助他人理解得越深。 数据可视化就是这样变得有价值的。 好了,今天的文章就到这里。我是作者苏有熊。 |
|
来自: hercules028 > 《excel》