摘要:
2016年1月20日,阿里云大数据产品家族数字Plus在上海正式发布。两年后的今天,阿里巴巴云的大数据产品发生了怎样的发展变化?在这篇文章中,阿里巴巴云高级产品专家班公将揭示阿里巴巴大数据技术的前景和案例。
本文内容根据演讲视频以及PPT整理而成。
本次分享将聚焦阿里巴巴大数据产品的整体布局。这里要提到两个关键词:全域赋能和智慧全球。.
如今,大数据行业已经远远超越了自己的行业,它不仅仅服务于一个或几个行业。现在大数据已经渗透到各行各业。大数据领域的核心点其实是计算能力的升级。事实上,计算能力已经像水电煤炭一样成为一种新的能源,能源的特点是具有包容性。如果计算能力能够通用化,就需要大幅提升核心计算能力的性能、稳定性和性价比。那么我们需要在计算能力方面关注基础引擎的构建。其次,近年来,人工智能可以说是非常流行,那么AI和大数据到底有什么关系呢?事实上,大数据算力算法可以促进AI产业的繁荣发展。对于大数据行业来说,AI是一个垂直发展,也就是说,有了大数据和非常强大的计算能力,结合算法和AI解决方案,我们可以解决以前不敢想象的问题,或者说人肉方法在行业中非常低效的问题。因此,阿里巴巴云希望通过产品和解决方案赋能合作伙伴和客户,真正纵向解决一个实际问题。横向需要大幅提升计算能力,纵向需要利用AI产业。
说起整个世界,其实我们今天想去中国的任何一个地方,不管是旅游还是商务旅行,我们都计划明天到达,到达后不用担心不知道当地的信息。基本上不管是国内还是国外,打开APP就能知道当地所有的信息,可能推送的信息太多,导致我们的选择出现障碍。没关系,有AI智能助手帮你规划,这个规划是免费的。在没钱的基础上,照着买套餐比较便宜。这是大数据行业在出行方面的一个小案例。事实上,大数据技术和AI技术已经在我们生活的各个领域全面铺开。它们真的很像水电煤,可能平时大家都感觉不到,因为看不见摸不着。但是当它们真正被使用时,它们一定很方便。这也是对大数据行业的简单想象。
阿里云大数据产品家族
下图是阿里巴巴云大数据产品的通用系统。虽然这个图没有列出阿里巴巴云有什么产品,但在概念上有一个大致的划分。这张图的右下角是计算能力的核心,因为在有足够的数据之后,这些数据需要非常强大的计算能力,这就涉及到几个非常核心的引擎。有了数据和引擎,数据分析师可能需要做一些基础的数据分析和BI工作,这就需要传统的大数据分析和产品展示。图中上面两层相当于application中提供的服务,这里有典型的大数据应用和人工智能应用。图的中间是一个开发平台。也就是说,在大数据的整个过程中,阿里巴巴拥有强大的计算能力和各种应用,希望帮助合作伙伴非常轻松地用阿里巴巴云打造专业高效的应用。
计算引擎、研发体系、应用生态
因此,阿里巴巴云的大数据产品大致可以分为三类:计算引擎、研发;系统和应用生态学。计算引擎是计算能力的核心;研发。d系统就是如何帮助更多的合作伙伴上来,和阿里巴巴一起打造整个生态。应用生态就是为各种应用提供专业的生态,让应用具备横向扩展的能力。在这里,已经创建了很多官方的原子应用,也有一些解决方案级的应用,这些都是结合了阿里巴巴内部的一些经验以及在阿里巴巴云这么多年积累的行业经验,所以我也希望这些应用能够对大家有所帮助。
下图中还列出了阿里巴巴云三个方向的一些相关产品。在计算引擎方面,首先是阿里巴巴云打造的MaxCompute大数据计算引擎,也包括分析数据库。对于其他的,我就不细说了。下面,我将挑选一些比较重要的产品进行详细的讲解。
MaxCompute2.0
MaxCompute是计算力的核心,作为计算力的核心引擎,其性能将是2018年的焦点。性能的提升实际上可以帮助生态伙伴进一步降低使用成本。
本的。同时大家也能够看到,现在大数据时代已经有非常多的产品和行业出现了,但是大数据和水电煤之间还是有一定的差距的。计算力要想升级成为一种新的能源,在整个平台上面需要有更多的平台上来,这些数据包括了传统的结构化数据还有异构的数据。当这些数据全部上来之后,就会对于计算力产生非常大的挑战,这也是MaxCompute一直以来非常关注的工作,而MaxCompute也是首个在100TB测试通过的引擎,并且分数已经达到了8200分,MaxCompute在性价比上也是在持续提升,而阿里云MaxCompute在2018年也将继续释放存储、计算等方面的红利,给到阿里云的合作伙伴和客户。DataWorks
DataWorks处在阿里云大数据产品家族中间的研发平台的角色,也就是说整个大数据产品有各种各样的引擎,在这个过程中引擎应该如何使用,如何更加高效地使用,而DataWorks提供一站式的大数据云研发平台,基于这个平台能够大大地降低大家在做大数据相关工作的门槛。DataWorks希望能够辅助合作伙伴以及客户快速高效地上云。同时,因为在整个大数据行业中,存在很多的专业领域需要很多的配套设施,包括数据治理、数据安全这种保障在DataWorks上就已经天然具备了。而作为DataWorks的用户可以天然地借助这些能力。对于DataWorks而言,可以从下图中看到从底层的引擎到数据的采集,一步步往上一直到数据服务以及数据解决方案。
阿里云流计算
下图是2017年天猫双11购物狂欢节在24点时的一张图片。这里是为了介绍阿里云的流计算产品。其实现在整个行业在数据的实时处理方面都会有非常多的需求,而阿里云的流计算产品是经历过阿里巴巴双11磨炼的非常强大的实时计算引擎。在双11当天,这款产品服务了全球几十亿的客户。每秒钟处理的事件数量能够达到4.7亿以上,而反馈的延迟全部都是亚秒级别的。这样反应在客户的体验上就是非常好的流畅度,这背后就依赖了MaxCompute以及流计算引擎,而现在也能够将这样的能力释放给阿里云的所有客户。
在上海云栖大会上,阿里云的流计算也将正式发布独享模式。
而独享模式则会有以下一些优势:UDX开放、网络连通、硬件适配以及Data
Lake。开放UDF等底层的API,将允许用户定义自己的方法,能够获得更好的可扩展性,满足用户的业务需求。在网络连通方面,独享模式可以无缝地和用户进行对接,用户也可以自主定制访问权限的控制方式。同时,非常关键的一点就是在硬件方面也会适配各种各样的机型。而在异构计算方面,也会与GPU和FPGA进行对接,这样就能够大幅度提升用户计算的效率,也会降低使用的成本。当然还会有一些配套设施的建设工作。
阿里云希望流计算的独享模式能够在大规模场景下,成本能够降低30%,而且能够和上下游的生态系统对接。
阿里云Elasticsearch
现如今,无论是开源的还是传统的搜索引擎提供了各种各样的能力。那么为什么阿里云还要做Elasticsearch呢?首先,阿里云Elasticsearch能够兼容开源的Elasticsearch,并且同时提供一种托管的服务。在这种情况下,用户不需要担心太多可用性的问题、扩展性的问题以及运维的问题。阿里云Elasticsearch会提供各种X-
Pack的商业化插件,保障整个系统的数据安全性。阿里云Elasticsearch也会在新版本中提供APM以及SQL的功能。同时非常关键的一点就是会推出智能运维的产品,因为大家在使用开源工具搭建系统的时候会感受到搭建的过程非常容易,但是维护的成本就会非常高。此外,因为在云上,所以弹性也会非常高。
阿里云开放搜索
开放搜索在今年最强调的就是“智能”,今年将会把淘宝搜索算法的技术能力通过开放搜索透传出去,也就是当未来大家使用OpenSearch开放搜索时就能够具备和淘宝一样的能力。
个性化推荐
同时在开放搜索里面也会支持个性化推荐,这也是当今业内非常火热的一个领域。未来,阿里云的客户在电商、小说、视频以及导购等众多场景下将能够很好地应用阿里云、天猫和淘宝的现有技术能力。
领先,从AI的基石开始
前面的分享主要围绕计算力,而后面这部分则围绕人工智能。阿里云所理解的人工智能最核心的三个要素就是数据、计算力和算法。现如今,基于阿里云的大数据平台,能够提供海量数据的处理能力以及实时数据的处理能力,计算力也是非常领先的,而因为整个深度学习领域的需求,对于异构计算也有非常高的要求,阿里云在异构计算的资源上面也做了全球化的部署,也就是说客户走到哪里,阿里云的产品就能够跟到哪里。阿里云也希望能够帮助所有的客户能力立足中国,走向国际市场。而在算法层面,基于阿里巴巴集团和阿里云上面现有的最佳实践,已经沉淀了非常多的东西。那么如何将这三种能力很好地结合起来赋能客户呢?接下来将为大家分享。
AI已经彻底改变了阿里经济体的商业效率
首先,大家可以看到在阿里巴巴内部,AI已经彻底改变了阿里经济体的运行效率。AI最核心的能力就是做以前我们想都不敢想的事情,做以前我们手工去做会非常低效的事情。比如在工业上“见远”平台就是一个非常典型的工业解决方案,它利用图像处理和图像识别的能力帮我们识别工业生产和工业过程中的问题。再比如在设计部分的“鹿班”智能设计师,因为在双11的时候手淘中有非常丰富的产品,也有各种各样非常丰富的场景,而且每个人看到的都不一样,因为是个性化的,而这里面就涉及到大量的物料设计问题。如果以传统的方式让设计师一个场景一个场景地去设计,即便是在多招10倍的设计师也无法解决这么多的需求。而“鹿班”智能设计师能够根据之前的物料学习之前设计师的一些设计经验自动地按照场景做出设计,大幅度地提升了工作效率。同时在很多场景下,我们发现“鹿班”设计师的智能产出的物料设计其实已经达到甚至超越了人工设计的水平,并且达到了相应的商业效果。
面向开发者的AI开发平台
今天,阿里也希望让所有的企业也能够具备和自己一样的AI能力。那么在机器学习这个领域,因为其属于需要开发者重度参与的一个领域,所以阿里云也推出了一系列面向开发者的AI平台。首先最上面的就是机器学习PAI平台,这相当于是一个人工智能的工厂。下边的大多属于子啊人工智能领域的原子性服务,比如NLP自然交互平台、ALiGenie语音开放平台,这种服务在AI的领域就相当于是一块又一块的小积木。积木本身的制作需要比较高的专业性,但是对于使用者而言,却不需要完全了解其内部的细节。阿里云就希望能够提供更多的这样的积木,能够完全开放给开发者,让开发者能够快速地基于这些积木搭建自己的业务,让开发者更加专注于自己的业务场景。
阿里云机器学习平台 PAI商业化、国际化
阿里云的机器学习平台PAI在2018年正式完成了商业化和国际化。PAI平台集成了100多种现成的算法,涵盖了传统机器学习的各个领域,而且能够提供一种拖拽式的体验,开发者可以通过类似于在画布上面搭积木的样子实现整个人工智能的过程,实现从数据处理、算法训练、算法评估,到模型产出、离线预测和在线预测一整条链路。对于近年来非常火热的深度学习部分,PAI平台也是支持了各种深度学习框架以及GPU分布式计算。开源的深度学习框架可能在稳定性或者性能上存在一些问题,另外最关键的一点就是其分布式能力,针对于这些问题,PAI团队针对于尤其像TensorFlow这样的非常流行的引擎进行大幅度的升级,在线性加速比上面,在能够支持的计算力上面以及支持模型的复杂度上面是远远超过现在的开源产品的。同时作为端到端的解决方案,在算法训练之后,在在线预测方面,今年PAI平台也会推出高性能弹性在线预测服务EAS,也就是弹性算法服务。也就是说将来不管是深度学习模型还是传统机器学习模型,在PAI上面训练完成之后可以一键变成在线预测服务,并且这个服务是弹性可伸缩的,并且结合阿里云在深度学习和传统机器学习上面的一些优化,使得在线预测的效率也变得更高。
NLP:自然的语言,自然的人机交互
在人工智能领域还有很多原子性的操作,AliNLP平台就是一个非常电信更多例子。其实阿里云是将NLP的能力通过这个平台释放出来,目前已经有230多种业务场景,每天的API调用量已经超过了200亿次,覆盖各种各样的行业。当然了,NLP只是AI原子操作的冰山一角而已。
阿里云AI产品家族
可以看到,阿里云整个AI的产品家族已经有了非常丰富的版图。阿里云希望自己和合作伙伴的系统能够听得懂,能够看得见,能够了解背后的知识。那么在语音服务、图像服务、自然语言处理以及背后的体系建设上面,阿里云都提供了非常丰富的积木供大家来拼搭。
阿里云AI解决方案
而这里也存在一个问题,作为在该领域内非常熟悉的专家,给到了这些积木能够拼搭出一个又一个的系统,但是如果没有足够的经验,阿里云也提供了非常丰富的解决方案,比如司法领域、直播领域、舆情等解决方案。在整个过程中,一方面大家可以复用这些解决方案,同时通过系统的拼接能力以及开放的开发能力,大家可以有针对性地定制自己的解决方案。这样就能够释放AI在各个行业中的应用价值。
下图就展现了阿里云的计算力在国际上的布局,阿里云也希望能够与客户一起去推动计算力的能源化,去把AI人工智能的能力在纵向上打穿打透。