大数据领域有一个一直被很多人关注的问题,那就是大数据分析应该用什么工具?2020年,我们应该开阔视野,而不是局限于那些老掉牙的数据分析古董。
我很想知道,所以一定程度上打开了,但是搜索的时候,里面全是信息,很多软件都没有实际用途。浪费时间,找不到答案,让我们急得像热锅上的蚂蚁。
但是,仔细分析这个问题,冷静思考之后,我想到了几个有价值的思考点。经过这么多年的工作经验,我获得了一些经验。那我就系统的给你解释一下。
在数据分析师的工作中,报表制作是一项频率很高的工作。在成熟的公司中,通常会有数据产品或BI工具来帮助分析师完成报表类型的工作,而对于需要外部数据(这里是存储在非数据库中的数据)进行更新或业务变化较快的业务,实时更新的数据BI工具尤为重要。
如果只做数据分析,全平台,全方位的数据,按照目前的曝光,EXCEL是不够支持的,很快就会被淘汰。如果您想进行拖放式重新计算或商业智能,可以使用BI工具。BI工具有很多,后面会介绍。
简单来说,我们可以简单地将大数据分析工具分为两个维度:
第一维度:数据存储层——数据处理层——数据报表层——数据分析与展现层第二维度:用户级——部门级——企业级
让我们从第一维度开始。
1、数据存储层面
一方面主要是数据库和数据仓库的一些知识点。企业要想做数字化转型,就必须打通一些原始数据系统,如ERP、OA、CRM、Excel等。否则整个企业相当于在进行烟囱式的开发,数据根本无法成为系统。
具体来说,就是一些数据库的使用。不要说你不想学这个知识,但是有操作维护给你。
一个好的大数据系统,数据仓库和数据库、数据湖和数据集市的建立是非常重要的,建模的维度决定了你后期分析的维度。如果维度不全面不准确,那么你的工具就没有意义。
2、数据处理层面
Python和hadoop都可以出道,但是hadoop是一个非常复杂的平台,需要很多技术,所以暂时不在这里讨论。
我做大数据技术很多年了,所以刚开始做分析的时候,希望通过编程来实现。使用Python的优点是自由度非常高,可以灵活使用模型和算法,并且从数据采集到数据清理。到数据点,
析,一种语言就可以全部搞定。现在很多人都在说不学python会怎么怎么样,但其实不是这样,归根结底只是一个底层语言,需要混合使用。Python是有一定门槛的,而且学习的时间成本不低,往往一次分析需要花较多的时间,如果不是大型分析项目,有点大材小用。
但是对于大型的项目,尤其是涉及到数据挖掘类的,我建议用python。

还有一些可以数据抓取的工具,我就不说了,本质其实都差不多。
3、数据报表层面
可能提到报表,很多人脑子里的想法就是Excel,这其实是完全不对的,如果是Excel,那我也没有写这篇文章的必要了。

不信?你随便去问问500人以上的公司,Excel行不行,这样的公司可能有千万家,但最后得出的结论都是一致的:
- Excel会导致企业信息化程度不够
- 数据口径不一致,浪费人力去核对
- 数据采集困难,更改不能实时显示数据

FineReport做的可视化
关于报表工具,我认可的只有FineReport,《我月薪3W,却不用熬夜加班做报表,这个养老工具,你一定要知道》,这里就不再过多介绍。
4、数据展现层面
我上一家公司用的是SAS,可现在流行R语言来训练模型,作为数据分析工具,今年已经没有采购SAS了预算了,预算都给大数据平台产品了。
你们以为的数据展现,可能就是所有数据都处理好了,然后直接生成可视化就行,其实远不是这样,那数据变动怎么办呢?数据量太大,宕机了怎么办呢?
所以一个实时的可视化工具就显得非常重要,我觉得FineBI和Tableau是一个不错的选择,但是Tableau是国外的工具,一是服务体系不够全,出了问题要解决很久,这是不能接受的;二是价格实在是太高,动不动就上百万。
所以我推荐FineBI,一款web级的敏捷数据工具,不仅直接拖拽就能生成可视化,而且还能做复杂报表,BI报表就是企业的新方向。

这才是真正的大数据分析工具,别被忽悠了!
(此处已添加小程序,请到今日头条客户端查看)
你是可以直连数据库的,它支持很多种不同类型的数据库,哪怕是不同的数据源,也可以在一起分析!

谈到BI,就不得不谈一下OLAP技术,老一代OLAP分析的技术实现需要严格的从头开始手动建模,Cube的大小极大限制了大数据背景下的使用场景,动辄成百上千新旧不一的Cube需要繁重的运维,架构无法纵向扩展、无法满足大数据量下构建、查询和并发的性能要求。

FineBI的数据业务包是BI分析的数据基础,由管理员创建,通过定义的数据连接向数据库中取数,获取到的数据自动保存在Cube中,BI分析则从Cube中获取数据,这也就保证了只要Cube中存有数据,就算不联网也可以使用BI分析。
所以现在懂了吗?数据实时显示,FineBI就是这么完成的。
其实数据展现类的工具,靠不靠谱还得看引擎,FineBI引擎的两种模式完美支持大数据量分析,在特定的场景下,如银行、电商,可以做到亿级数据的秒级呈现。
- 抽取模式:提供基于索引的高效计算引擎,通过数据预加载,支撑前端快速数据分析,适用于实时性要求不高的分析。
- 实时模式:直接对接读取企业的数据库表进行分析,适用于对实时性要求较高的数据分析场景。

你不要以为FineBI是给IT、开发人员用的,它的设计模式,就是简单易用,目标是业务人员,不用再经历提交需求——等到好久才拿到报告——不满意再改——又是无尽的等待...
IT帮你初步处理好数据之后,你就可以按照自己的分析规划,将数据拖入到需要分析的维度上,对了,FineBI还具有ETL的功能,内置的数据处理计算,不需要你写函数,也是封装好的功能。

最后来说说FineBI的可视化效果吧,这也是很多领导看重的。


关注我,并转发该文章,回复“数据”,即可获得上述数据工具!