最近社区成立后,通过与一些刚开始数据分析的朋友交流发现,很多新手在数据分析的过程中存在没有选择合适图表的问题,导致数据分析报告的美观性和实用性不尽人意。今天,我想分享一些图表选择的技巧。
《用图表说话》年,世界著名管理咨询公司麦肯锡公司视觉传达总监基恩泽拉兹尼将图表类型分为五类,即成分对比、项类对比、时间序列对比、频率分布对比、相关性对比,.本文从这五类介绍常用的视觉图表及使用技巧。
成分对比
在作文对比关系中,我们主要对每一部分的大小占总数的百分比,感兴趣的如:公司某产品销售额占总销售额30年以上,我公司市场份额不足5%。公司招待费占全部管理费用的25%以上。5月,A产品销量占公司总销量的第一位。2001年,客户市场份额不到全行业的10%,占公司资金的一半。只要你的主题包括以下几个词,比如份额、占比、总数百分比、占百分比多少,你就可以确定你在制作一个比较关系图。
组件比较的常用图表如下:
1、饼图
饼图主要用于展示数据的分类和比例,适用于单分类维度字段和单数值度量字段的数据。当分析次数超过9次或分类比例差异不明显时,不推荐
2、圆环图
甜甜圈图,也称为甜甜圈图,主要用于显示数据的分类和比例。它类似于饼图,但圆环图可读性更强,可以将重要数据放在中间
3、百分比堆积柱形图
百分比堆积柱形图。该列的每一层代表类别数据占该组总数据的百分比。饼图比条形图和条形图更有助于显示单个整体各部分的比例效果。然而,当你需要比较两个整体部分的组成时,不要犹豫,选择条形图和条形图。
4、百分比堆积面积图
有时我们需要展示部分和整体之间的关系。此时,我们将使用百分比累积面积图来反映连续时间趋势中的百分比变化
5、矩形树状图
矩形树形图的特点是可以清晰地展现层次结构,通过矩形面积和排列的不同来展现层次内部的比例关系。适用于加权树数据,数据具有多级关系。如果没有权重关系,需要明显表现出层次关系,则采用分叉树形图更为合适。
项目对比关系
当比较项目时,我们需要比较类别之间的大小、高低。它们和其他类别一样还是多或少 ;">例如:- 5月份产品A的销售超过了B和C;
- 客户的销售收益率位居第四;
- 6个部门的周转率大致相同。
- 中国的GDP总量比美国低,但是超过世界其他国家;
- 我司今年的销量处于全市场的第3位;
- 今年双11我的消费金额大体和部门平均消费金额相同。
我们可以从大于、小于或相同之类的词汇中找到类别比较的线索。
常用的图表如下:
1、柱形图
柱形图适用于对比一组分类数据,但是分类太多的数据不适合使用纵向柱状图,而且柱状图也不适合用来表示趋势。在使用柱状图的过程中,要注意调整柱宽适中,过窄、过宽都会影响美观

当我们要对比多组分类数据的时候,可以选择使用多系列柱形图:

2、旋风图
旋风图,也有说是蝴蝶图的,用于展示多个类别间的两个变量间的关系,表明两个不同成分的特点,比表示公司各个部门男女人数对比:

3、范围条形图
表示多个类别间的由低到高的数值范围,而不是表示单个数值,适合用于表示多个类别间的数值范围间的比较,表明某项数值的高低范围,比如折扣

4、词云
词云图展示文本的出现频率,用来对比文字的重要程度,通常用于描述网站上的关键字元数据(标签),或可视化自由格式文本。 每个词的重要性以字体大小或颜色显示。
不建议使用情况:当数据区分度不大时使用词云起不到突出的效果;数据量太少时很难布局出好看的词云,推荐使用柱形图

5、雷达图
雷达图一般用于多维数据(四维以上),而且每个维度必须可以排序。数据点一般6个左右,太多的话辨别起来有困难。

6、仪表盘
仪表一般用来表现出某个指标的进度或实际情况,比如销售额完成情况,项目进度等等

时间序列对比关系
这个对比关系是我们最常见的对比关系,表示随时间变化的情况。
我们对每一个部分在总数的比例或大小不感兴趣,但是对它们随时间的变化感兴趣,不管是一周的变化,一个月的变化或一个季度、一年的变化,也不管它是增长、下降、波动或是保持不变,例如:
- 销售量自1月份以来呈现逐步下滑态势;
- 过去5年我司的盈利状况每况愈下;
- 过去10年的薪资水平均处于一个小幅增长的态势;
- 21世纪的前20年,中国的贫困人口占总人口的比持续降低。
- 利率在过去的7个季度中上下波动。
时间序列对比关系的触发词有:变化、增长、下降、减少、波动等。
常用图表如下:
1、折线图
折线图主要用于展示连续数值(例如时间)或者有序分类的变化趋势

2、面积图
面积图可用来展示连续性数据,可很好地表示趋势、累积、减少以及变化,但不适合不同分类之间的数值比较

3、垂直瀑布图
瀑布图是由麦肯锡顾问公司所独创的图表类型,能够在反映各部分数据量的同时,还反映出数据的增减变化。一般适用于汇报数量的增减,比如一年中各月销售额、用户数等指标的变化。

频率分布对比关系
这种对比关系表示有多少个项目或类别符合一个数字发展的范围。
比如,我们用一个频率分布对比关系来展示我司有多少员工的月薪超过5万元,有多少员工的月薪处于3-5万元之间,有多少员工的月薪在1-3万元区间等。
或者有多少员工的年龄小于25岁,25-30岁员工人数有多少、超过30岁的员工人数有多少等。
典型的主题有:
- 我司10月份的客户订单金额主要集中在20万-30万元之间;
- 多数客户订单的交付时长在4-6周之间;
- 我司员工的年龄分布与竞争对手大不相同。
这种对比关系的关键词包括:x到y的范围,密度,频率,分布等。
下面是表达频率分布对比关系的常用图表类型:
1、金字塔图
和上面的说的旋风图类似,在社会学里比较常见的就是人口金字塔图

2、直方图
统计学中,直方图的纵轴要求是计数数据,也就是说,直方图是用于统计某个区间内的对象个数,表达连续的区间上数量的分布。
使用直方图的时候要注意,样本数最好应该大于50个,抽取的样本数量过小,将会产生较大误差,可信度低,也就失去了统计的意义。

3、箱型图
箱形图又叫盒式图,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。箱线图的绘制方法是:先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后, 连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间。

相关性对比关系
相关性对比关系表示两个变数之间的关系。例如:你可以证明利润随着销售额的增加需增长,你可以论证销售额随着打折幅度的增加而增长
- v5月份的销售情况表明,销售额与推销员的经验无关。
- 董事长的薪水并随着公司规模大小需变化
- 保险单的大小与保险客户的收入成正比。
当你的主题包括与什么相关,随什么增长,随什么减退,根据什么变化,或者不随什么增长等,那么就可以断定是一个相关性对比关系。
相关性对比关系因为是表示两个变量之间的关系,两个坐标轴都是数值轴,和常见的其它图表类型柱形图、条形图、折线图等一个类别轴(或时间轴)、一个数值轴不同。
下面是表达相关性的常用图表类型:
1、散点图
散点图通常用于显示和比较数值,不光可以显示趋势,还能显示数据集群的形状,以及在数据云团中各数据点的关系。

2、气泡图
气泡图通常用于比较和展示不同类别圆点(这里我们称为气泡)之间的关系,通过气泡的位置以及面积大小。从整体上看,气泡图可用于分析数据之间的相关性。

地图
除了上述5类图表之外,我们还可以结合地图来精确展示地区或者区域数值的情况
1、区域地图
区域图是对不同的区域划分分别进行区面着色展示的可视化类型。开发者可以先把离散的数据会按照相应的区域进行聚合,然后再根据聚合的数值映射成不同的区面颜色。通常这种地图适合按区域展示各类指标的场景。比如展示中国各省的人口密度、北京市各区的平均房价等。下图是虚拟数据的效果图。

2、点地图
点地图图是把一系列离散的数据点按照位置信息标注在地图上。适合需要把大量具有相同属性的地址信息同时展示在地图上的业务场景。比如展示连锁店分布、加油站分布、银行网点分布等。

3、热力地图
热力图通过指定的半径范围进行数据叠加计算,然后与梯度颜色进行数据映射,不同的颜色深度代表不同的数据密度。通常适用于数据量比较多且在一定地域范围内相对密集的业务场景。比如展示某个商圈的人流分布、某个景区的客流分布、某个区域的车流分布等。

4、流向地图
流向地图是在两点之间绘制弧线进行连接,并配以动画呈现移动效果的图像,主要用于展示不同地点之间人员、物品、车辆等流动的方向。具体场景比如春节期间返乡人员迁徙图、某水产市场商品销售流向图等。

总结
当我们拿到数据后,要先提炼关键信息,明确数据关系及主题,然后再选择合适的可视化图表表达数据。一份优秀的数据可视化报告,除了需要选择正确图表外,还要从布局设计、颜色搭配等多个方便去考虑,想了解更多的可以看我之前写的这篇:如何制作亮眼的可视化报告
笔者从业数据分析多年,整理了10G的数据分析学习资料包,需要的朋友转发收藏本文,后台私信我“资料包”即可获得!