雷科技评论讯,中国多媒体大会日前在安举行。会上,亚图快科技AI技术副总裁郑文分享了多媒体技术,尤其是AI。
技术在自动变速器中的应用。他说,Aauto Quicker的使命是“利用技术提升每个人独特的幸福感”,这涉及到视频和用户的双向感知,并使用了多种AI。
科技。他重点介绍了内容生产和内容理解.这两个模块涉及的相关技术,以下是他演讲的内容,有所删减。该事件在雷锋学术频道的AI技术评论数据库产品“AI”中。
影响因子”有相应的加分。
郑文,技术副总裁:内容生产'/内容理解,的自动驾驶技术公司使用的人工智能技术
《自动加速》人工智能技术副总裁郑文:自动加速在人工智能技术中的一些应用。
郑文,清华大学软件学院,2001。
校友,斯坦福大学计算机科学系博士,曾在硅谷多家知名大公司、创业公司从事计算机图形学、计算机视觉、深度学习等方向工作。他目前是Aauto Facter的人工智能技术副总裁,领导Aauto Facter进入。
人工智能、增强现实、计算机视觉和计算机图形学的前沿研究。
aauto faster的使命是“用科技提升每个人独特的幸福感”。这里有两个关键词,一个是“每个人”,说明Aauto Quicker的价值观是非常普世的,但我们也强调每个人的幸福都是“独一无二”的。这两个关键词共同对我们的工作构成了巨大的挑战,Aauto Quicker希望通过科技手段实现这一目标。
目前快手是通过记录来提升幸福感的,这可以从两个方面来体现。首先,用户希望能看到更广阔的世界。第二,用户也有分享自己,被更广阔的世界看到的需求。
但是这里有一个挑战,现在Aauto Facter已经积累了50多个。
上亿的视频已经达到了上亿的用户。面对这两个海量的数字,如何有效地分配注意力?以前大家的注意力一般都集中在所谓的“爆款视频”上,但在爆款视频之下,还是有很多内容可能包含非常丰富的信息和多样的类别,这样的“长尾视频”往往很难被别人注意到。因此,一些需求小或利益细分的群体往往很难找到自己想要的东西。
仅仅依靠人工手段很难解决这个问题,因为我们需要实现视频和用户之间的双向感知和精准匹配,这背后是万亿级的大数据。aauto faster从很早就开始引用人工智能了。
解决这个问题的技术。如今,从视频制作到视频分发,大量的AI技术被应用在Aauto faster的整个流程中。
内容生产
郑文,技术副总裁:内容生产'/内容理解,的自动驾驶技术公司使用的人工智能技术
今年,Aauto Quicker推出了一些流行的爆款特效。比如“时光机”的神奇表情,可以展现一个人的脸从年轻到年老的过程,唤起用户的深厚感情。《满舞机》的魔幻表达,将射击与游戏结合,让录制更有趣。
我们也希望提高内容质量,并开发和应用了许多图像增强技术。例如,当用户在黑暗环境中拍摄时,信息和细节往往会在制作的视频中丢失,而这些细节可以通过暗光增强技术来恢复。
我们也希望AI技术能让记录更丰富更有趣,同时拥有更高的质量。基于这个目标,我们开发了许多多媒体和人工智能。
背景分割、天空分割、头发分割、人体关键点、人脸关键点、手势关键点检测等技术。
然而,Aauto Facter中的大量用户使用的是低端机型,现在是高级AI。
技术需要大量的设备计算。如何让最广大的用户获得先进的技术体验,我们希望定制底层平台,基于Aauto Quicker开发的YCNN。
深度学习推理引擎,上述技术可以在大多数模型上高效运行,并针对不同的模型和不同的硬件进行适配和优化。
郑文,技术副总裁:内容生产'/内容理解,的自动驾驶技术公司使用的人工智能技术
接下来,我们最近在内容生产:三维人脸中开发了一些技术,为单个人脸图像恢复人脸的三维信息。一方面可以实现对脸部的一些修饰,比如打磨,做一些表情,实现三维换脸特效;另一方面,通过三维人脸信息,我们可以提取人的表情变化,然后将表情传递给虚拟娃娃,类似于。
iPhoneX推出的animagi功能,但iPhoneX有结构光,运行的是animagi。
它需要很大的计算能力,通过技术研发,我们可以在配置更低的手机上实现类似的功能。
/p>刚才也提到了语义分割,比如把人像和背景分开,分别对人像和背景做特效,或者替换背景,另外还可以做人像虚化;头发分割,可以把头发区域分割出来,做染发效果。另外还有如天空分割等其他分割技术。
技术副总裁郑文:快手在内容生产&内容理解上用到的 AI 技术' />
人体姿态估计则是预测人的关节点位置,利用这一技术,我们可以在肢体上加特效,或者修改人的体型,做美体瘦身功能。此外,我们还利用人体姿态去给跳舞动作打分。
手势检测是把各种特定的不同手形检测出来,实现「控雨」等玩法。另外还有 AR 相机姿态估计,背后是快手自研的 3D
引擎,并在其基础上添加编辑器模块、渲染模块、肢体模块、声音模块等,来实现模型精致而自然的光感、材质。
在音视频方面,我们运用了很多智能算法,比如需要视频尽可能清晰,但同时也要求传输流畅,这就需要针对视频复杂度做一些自适应优化。另外,我们也会对图像的 ROI
进行分析,比如视频里面人脸的区域往往对大家的观感影响最大,我们会把人脸的区域检测出来,然后将码率做得更高,使得整体观感获得很大的提升。
我们也会检测图像质量,比如视频生产过程中存在一些导致图像质量较低的因素,如拍摄没有对好焦,镜头长期没有擦试,或者视频经过多次上传和压缩而产生块状瑕疵。我们会把这些问题通过
AI 算法检测出来,一方面提醒用户拍摄的时候注意这些问题,另一方面在做视频推荐时也会对高质量视频进行一些倾斜。
内容理解
技术副总裁郑文:快手在内容生产&内容理解上用到的 AI 技术' />
内容生产环节完成后,视频会被上传到后端服务器,这里我们需要对视频内容进行更深层次的理解。视频的内容理解会用在很多方面,比如内容安全、原创保护、推荐、搜索、广告等等。这里大概分为两个阶段。
首先是感知阶段,从人脸、图像、音乐、语音四个维度对视频信息进行理解。
人脸是一个很重要的维度,因为人脸往往包含了人所关心的最主要的部分,我们会对人脸区域进行检测,识别身份,跟踪位置,提取关键点,得到年龄、性别、表情等信息。
另外一个维度是图像层面,我们会对图像进行分类,如图像是在什么场景下,此外也会检测图像中有哪些物体,还会进行图像质量评估,以及利用 OCR
技术从图像中提取文字。
音乐也是一个非常重要的因素,它是影响视频感染力很重要的一部分,我们可以从视频里识别出音乐类型,甚至可以对音乐进行结构化分析,把伴奏和歌唱的部分分开。最近我们也加入了
K 歌功能,现在在研发如何美化歌声,给歌声打分等等。
语音也是视频非常重要的维度,往往从图像中可能并不能很好地得到视频所传达的信息,这时候语音就非常重要,我们会把语音识别出来转化成文字,也会通过语音去识别这个人的身份、年龄、性别等等。
第二是推理阶段,通过把这些不同维度的信息进行多模态融合,推理出更高层次的语音信息,或者对视频进行情感识别。
我们也用到知识图谱技术,把视频里的知识存储在知识图谱里表达出来。通过知识图谱的推理,我们能够得到一些更高层、更深入的信息。
以下是我们在内容理解方面一些比较具体的技术,如快手开发了一套视频标签系统,可以对视频里出现的大多数内容和场景进行分类。在快手语音识别功能模块,我们采用深度学习算法,结合上下文语境模块,使得识别精度得到很大提升。
技术副总裁郑文:快手在内容生产&内容理解上用到的 AI 技术' />
一方面,我们需要理解视频内容,另一方面,我们也需要对用户进行理解。这里包含用户的基本信息,比如年龄、性别、IP
地址、地点、手机型号等等。用户在实时使用快手时,也会产生一些行为数据,这些数据都会传送到后端的深度学习模型里,训练出对用户理解的向量。通过这些向量,我们可以预测用户的兴趣以及他与其他用户之间的关系。
最后我们得到对用户的描述以及对视频的理解,用户和视频之间的匹配就会产生万亿级别特征的大数据,这个大数据就会被用在实时在线的推荐系统里。
另外我们也会对社区里的内容进行排序,比如前面提到如何分配注意力,我们希望注意力分配的差距不要太大,所以会根据基尼系数调整视频内容的分配情况。此外,还会考虑到内容的安全性、多样性以及原创保护等因素。
(完)
雷锋网雷锋网