作者|钱翔。
来源|数据产品说明。
大多数人对数据可视化的第一印象可能是各种图形,如直方图、条形图、折线图、饼图、散点图等。在Excel图表模块中。以上只是数据可视化的具体体现,但数据可视化并不仅限于此。
数据可视化不是简单的可视化映射,而是一个以数据流为主线的完整过程,包括数据采集,数据处理和变换,可视化映射,用户交互和用户感知.一个完整的可视化过程可以看作是数据流经过一系列处理模块并进行转化的过程。用户可以通过视觉交互从可视化映射之后的结果中获得知识和灵感。
图1可视化的基本流程图。
主可视化过程的模块不仅是线性连接的,而且连接在任意两个模块之间。例如,数据采集,数据处理和变换,视觉编码和人机交互的不同方式都会产生新的视觉结果,用户通过感知新的视觉结果会有新的知识和灵感。
下面介绍数据可视化主要过程中的几个关键步骤。
01
数据采集
数据采集是数据分析和可视化的第一步。俗话说“巧妇难为无米之炊”,数据采集的方法和质量很大程度上决定了数据可视化的最终效果。
数据采集,的分类方法很多,根据数据来源可以分为内部数据采集和外部数据采集。
1.内部数据采集:
它是指收集企业内部业务活动的数据,这些数据通常来自业务数据库,如订单的交易状态。如果要分析用户的行为数据和APP的使用情况,需要一些行为日志数据。这时,你需要使用“嵌入点”的方法到数据采集APP或Web。
2.外部数据采集:
指一些方法获取企业外部一些数据的次数,具体目的包括,获取竞争产品的数据,获取官方机构官网公布的一些行业数据等。获取外部数据,常用的数据采集方法是“网络爬虫”。
从上述两种数据采集方法获得的数据是次要数据。通过调查和实验收集的数据是原始数据,常用于市场调研和科研实验,不在本讨论范围内。
02
数据处理和变换
数据处理和数据转换是数据可视化的前提,包括数据预处理和数据挖掘。
一方面,以往数据采集获得的数据不可避免地含有噪声和误差,数据质量低;另一方面,数据的特征和模式往往隐藏在海量数据中,需要进一步的数据挖掘来提取。
常见的数据质量问题包括:
1.数据收集错误,缺少数据对象,或包含不应包含的其他数据对象。
2.数据中的异常值,即不同于数据集中大多数其他数据对象的数据对象。
3.缺少值,数据对象的一个或多个属性值缺失,导致数据收集不完整。
4.数据不一致,采集的数据明显不合理,或者多个属性值之间存在矛盾。例如,权重为负,或者邮政编码和城市之间没有对应关系。
5.重复值的存在,数据集包含完全重复或几乎重复的数据。
由于上述问题,直接分析或可视化收集的数据往往会导致误导用户做出错误的决策。因此,收集的原始数据被处理。
数据清洗和规范化,是数据可视化流程中不可缺少的一环。数据可视化的显示空间通常是二维的,比如电脑屏幕、大屏显示器等,3D图形绘制技术解决了在二维平面显示三维物体的问题。
但是在大数据时代,我们所采集到的数据通常具有4V特性:Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)。如何从高维、海量、多样化的数据中,挖掘有价值的信息来支持决策,除了需要对数据进行清洗、去除噪声之外,还需要依据业务目的对数据进行二次处理。
常用的数据处理方法包括:降维、数据聚类和切分、抽样等统计学和机器学习中的方法。
03
可视化映射
对数据进行清洗、去噪,并按照业务目的进行数据处理之后,接下来就到了可视化映射环节。可视化映射是整个数据可视化流程的核心,是指将处理后的数据信息映射成可视化元素的过程。
可视化元素由3部分组成:可视化空间+标记+视觉通道
1.可视化空间
数据可视化的显示空间,通常是二维。三维物体的可视化,通过图形绘制技术,解决了在二维平面显示的问题,如3D环形图、3D地图等。
图2 可视化空间示例
2.标记
标记,是数据属性到可视化几何图形元素的映射,用来代表数据属性的归类。
根据空间自由度的差别,标记可以分为点、线、面、体,分别具有零自由度、一维、二维、三维自由度。如我们常见的散点图、折线图、矩形树图、三维柱状图,分别采用了点、线、面、体这四种不同类型的标记。
图3 标记类型示例
3.视觉通道
数据属性的值到标记的视觉呈现参数的映射,叫做视觉通道,通常用于展示数据属性的定量信息。
常用的视觉通道包括:标记的位置、大小(长度、面积、体积...)、形状(三角形、圆、立方体...)、方向、颜色(色调、饱和度、亮度、透明度...)等。
图3中的四个图形示例,就很好的利用了位置、大小、颜色等视觉通道来进行数据信息的可视化呈现。
「标记」、「视觉通道」是可视化编码元素的两个方面,两者的结合,可以完整的将数据信息进行可视化表达,从而完成可视化映射这一过程。
关于可视化编码元素的优先级,以及如何根据数据的特征选择合适的可视化表达,下次会专题来分享下。
04
人机交互
可视化的目的,是为了反映数据的数值、特征和模式,以更加直观、易于理解的方式,将数据背后的信息呈现给目标用户,辅助其作出正确的决策。
但是通常,我们面对的数据是复杂的,数据所蕴含的信息是丰富的。
如果在可视化图形中,将所有的信息不经过组织和筛选,全部机械的摆放出来,不仅会让整个页面显得特别臃肿和混乱,缺乏美感;而且模糊了重点,分散用户的注意力,降低用户单位时间获取信息的能力。
常见的交互方式包括:
1.滚动和缩放:当数据在当前分辨率的设备上无法完整展示时,滚动和缩放是一种非常有效的交互方式,比如地图、折线图的信息细节等。但是,滚动与缩放的具体效果,除了与页面布局有关系外,还与具体的显示设备有关。
2.颜色映射的控制:一些可视化的开源工具,会提供调色板,如D3。用户可以根据自己的喜好,去进行可视化图形颜色的配置。这个在自助分析等平台型工具中,会相对多一点,但是对一些自研的可视化产品中,一般有专业的设计师来负责这项工作,从而使可视化的视觉传达具有美感。
3.数据映射方式的控制:这个是指用户对数据可视化映射元素的选择,一般一个数据集,是具有多组特征的,提供灵活的数据映射方式给用户,可以方便用户按照自己感兴趣的维度去探索数据背后的信息。这个在常用的可视化分析工具中都有提供,如tableau、PowerBI等。
4.数据细节层次控制:比如隐藏数据细节,hover或点击才出现。
05
用户感知
可视化的结果,只有被用户感知之后,才可以转化为知识和灵感。
用户在感知过程,除了被动接受可视化的图形之外,还通过与可视化各模块之间的交互,主动获取信息。
如何让用户更好的感知可视化的结果,将结果转化为有价值的信息用来指导决策,这个里面涉及到的影响因素太多了,心理学、统计学、人机交互等多个学科的知识。
学习之路漫漫,一直在路上, 我们会持续分享数据可视化领域的知识,记得持续follow我们哟!
搜索微信小程序【CDA培训】,解锁更多精彩资讯和专业内容!