雷刚来自奥菲寺。
量子报道| QbitAI,微信官方账号。
秒变娃娃脸,技术应用有新突破。
而且,相比P-picture之后的“变脸”,这一次在拍摄短视频时,终端实时“变脸”,从一万元的iPhone到一千元的安卓机都可以体验到,甚至不用网络。
你可能没想到这次引领全球科技的是中国公司快手,
没错,就是老铁双击了666的快手。
秒变童颜
在其最新迭代版本中,拍摄页面上显示了一个名为“变小孩”的神奇表情。
在拍摄界面选择这个表情进行短视频拍摄,可以让秒变童颜和实现娃娃脸的出现——1000个老铁和1000个有娃娃脸的老铁。
像这样:
自动加速黑科技,一秒钟变成“真正的”婴儿/
所以:
自动加速黑科技,一秒钟变成“真正的”婴儿/
像这样:
自动加速黑科技,一秒钟变成“真正的”婴儿/
很容易上手,而且看起来很有趣。但是,如果稍微了解一下技术原理,就会知道实现这样的应用和效果并不容易。
核心是靠甘-对抗生成网络。
这一次不仅是国内首个实现端上实时GAN,还有全球范围内第一次实现iOS安卓多平台、全机型覆盖的视频实时GAN.
即使在老、姚、秋之外,快手的人工智能工程师也实现了“断网”的壮举——他们可以在没有网络身份的情况下使用网络。
这是在完整的终端本地化中实现AI的能力,也是包括谷歌在内的AI投研公司的追求。
与翻译相比,语音识别、视觉和实时视频对终端计算能力、内存资源、模型训练和压缩有更严格的要求。除了投入资源,还要承受用户体验的压力,最后还要在各种终端用户场景中进行测试。
其实挑战不小。
但能直接带来的好处,值得直接面对这个挑战。这只神奇的手表将在3天后抵达百万使用量。
自动加速黑科技,一秒钟变成“真正的”婴儿/
实时变脸的潮与难
或许你已经注意到了,“变脸”“变脸”在全世界掀起了一股新的潮流。
除了各种没有证据但可能在开车的深度假货,从图片到视频,从变老,从男人到女人,从女人到男人,再到老去的孩子,全世界的网友都乐在其中。
简单回顾一下,Snapchat是第一个在视频中引入实时“娃娃脸”的。
今年5月,这个海外社交应用推出了这个新功能,花了一年的时间开发建设。
然而,效果也是立竿见影的。一旦发布,每天的活动量就增加了10%。
后来又间接点燃了俄罗斯变脸应用FaceApp,很多明星和普通人都开始用这个应用来看衰老和回春的效果。
自动加速黑科技,一秒钟变成“真正的”婴儿/
但是在世界范围内,能够跟上这种技术潮流的人并不多。
从Snapchat和FaceApp中,我们也可以看到技术实施的挑战。
一方面,实时视频很难覆盖所有机型和平台——Snapchat只能在iOS上支持。
另一方面,必须依靠云训练和效果实现,对网络条件要求高。由此带来的插曲是,美国议员呼吁封杀FaceApp,因为上传照片到云端会让俄罗斯侵犯美国隐私。
而快手选择了在终点做实时“变脸”,这个目标。
是能 给所有用户带去更潮的短视频玩法 。但除了技术上的难要解决,留给快手Y-tech技术小分队的时间只有一个多月的时间。
没错,一个多月,打完Snapchat一年的仗。
“娃娃脸”背后技术
其实早在18年4月份,快手已经在端侧实现了“变老”的功能效果。
但从技术而言,“变老”和“娃娃脸”的难度,不可相提并论。
通俗点说,“变老”不需要改变人脸结构,可以通过贴妆方式实现,娃娃脸的人脸结构有很大变化,在五官细节上也和成人有很微妙的差别,而且千人千面,难以用传统贴妆方法实现。
另外,“娃娃脸”效果,P图和实时视频的挑战也不一样。
视频所追求的,是在没有人为干预的条件下,快速生成效果逼真的娃娃脸。
进而也就有两大挑战必须解决:
* 一是需要机器根据每个人的脸部特征自动生成图像,而且不能有手工P图的痕迹。
* 二是要在手机端实时做到脸部图像生成。手机端的算力以及内存资源有限,在有限算力以及内存资源支持条件下完成这些任务,任务艰巨。
这些挑战,也是Snapchat在iOS实现而无法全平台全机型覆盖的原因――iPhone的算力和资源,算是最上层的。
但中国实际情况,以及快手的用户而言,安卓用户占比不低,而且安卓机型种类较多,不同机型算力和内存资源差异较大,因此完成实时视频变“娃娃脸”,在快手这里产品需求有了更明确定义:
设计一个能够覆盖高、中、低不同机型的解决方案 。
于是,快手技术团队采取了差异化的AI模型生成方案,针对不同机型,采用相应解决方案。
对于算力较高的机型,可以让AI模型做更多的工作,比如生成的图像范围更广,细节更清晰。
对于算力较低的机型,可以把一部分AI模型的工作拆出来用传统的方法去解决。
然而总体还有一点,不管算力高低,最后到用户使用中,都得实现GAN的“秒变”,这也就意味着算力再低,也要有高质量的AI算法实现――挑战和能力都暗含其中了。
最后,对于快手来说还有一项潜在挑战:网络 。
一方面是用户体验上的考量,实时效果对延迟要求很高,服务端计算增加的网络延迟对于实时应用来说非常显著――用户需要等待,体验的效果滞后。
另一方面,如果用户还位于偏远山区,手机信号和网络不好,体验就会变得非常糟糕。
所以从一开始,快手技术团队对这款特效的目标就定成了达到“手机断网”也能用。
因此所有算法操作,都在手机端完成,不需要把用户拍摄的图像或视频传到后端服务器做算法处理。
用一个小小手机,完成了算力强大的服务器才能做到的事,这是快手技术团队在“娃娃脸”功能上秀出的实力。
而且这只是实力的冰山一角,后台深藏的是驱动快手产品向前的基础引擎。
技术积累之力
正所谓水滴石穿非一日之功。
快手此次能够引领全球技术应用之先,快手自研的 YCNN深度学习推理引擎 、 定制化模型压缩算法 都是幕后功臣。
正是基于内部自研的压缩模型,才能在考量各种边界条件、有限的计算以及内存资源条件下,依然把模型的计算量降到最小,同时又不影响算法效果。
而快手端上深度学习推理引擎,为娃娃脸算法落地提供了有力支持。
这个取名 YCNN 的深度学习推理引擎,之前介绍快手AI时也多次提到。
这是快手自研的、支持多平台的、深度优化的神经网络推理引擎,是快手很多AI功能的强大加速器,支持包括不限于NEON、SSE、Metal、NPU,OpenCL,OpenGLES的优化方法和技术。
在这次“娃娃脸”功能里,针对移动平台尤其是低端安卓机计算能力较弱的特点,YCNN引擎在定点化推理方面的优化,提出了低功耗高性能的解决方案。
实际上,近几年来,在深度学习研究领域,GAN等模型被广泛的应用到解决各种问题上,但像快手这样坚持打造核心基础引擎,并最终让产品功能受益,让终端用户受益的,并不多。
而且也由于产品落地和应用的成功,技术上的难度和积累少为人知。
实际上,让拥有不同手机机型的每一个老铁,能够无差别享受高算力AI技术带来的乐趣,背后是极其强大的技术团队的付出。
但这样的团队,也有委屈的时候。在最近快手首次召开的技术OpenDay上,有校招学生透露“因为家里人、朋友觉得快手Low而表达过不想让他们选择来快手工作”。
如果能够全面了解一下快手,了解下快手的普惠价值观,以及通过这家公司的努力给普通人的生活带来的改变,相信他们的想法会改变。只有全面的了解之后,才能做出客观的判断。
那如果更深入了解端上GAN的进展突破呢?知晓“本地化无网络”也能应用AI模型呢?或者更进一步知道压缩模型和推理引擎的强悍……
可能是时候给予快手以及快手的技术更多正名了。
并且在技术可能加剧资源、地区和发展不平等的今天,快手能通过终端产品让每一个用户无差别感受技术的乐趣、感知不一样的世界,还帮助更多偏远地区加速商业化提升收入,善莫大焉。
把技术推向更前沿值得感叹,用前沿技术打造接地气的、普惠的产品,值得赞美 。
你说呢?
_Last but not least,做出这款特效的技术团队是快手的Y-tech团队,这里也特别传送门一下:_
_快手Y-tech,是快手在人工智能等前沿领域的探索者和先行者,以研发前沿科技、提升用户体验、创造用户价值为使命,致力于在计算机视觉、机器学习
、深度学习和计算机图形学等领域开展技术研究和业务落地。_
_研究的技术方向还包括图像处理、人脸识别、多媒体技术、SLAM/AR/VR/MR、三维重建、优化算法,推荐,ranking,game AI,
机器学习平台,数据库,数据分析,强化学习等。_
最后,附马上能体验的H5传送门(也可直接点击阅读全文),欢迎分享你的“宝宝照”到盆友圈。谁还不是个宝宝呢?
_https://activity1.m.viviv.com/babyface/_
― 完 ―
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI 头条号签约作者
'' 追踪AI技术和产品新动态