记者|彦希
CSDN制造(ID:CSDNnews)。
动画伴随着我们大多数人的青春,很多人都有一个动画梦。如果有一天他们能成为漫画中的人,那一定感觉很棒,对吧?
有人真的用科技帮助我们实现了这个梦想。最近,Tik Tok发布的一部漫画变成了特效,成为了爆款。不管是高价值的明星咖啡,还是在等我的人,都可以随意拍个视频,迷上漫画。
普世风格漫画脸的诞生
这部漫画的特效如此受欢迎,与特效的简单操作和更符合大众审美的风格有很大关系。左右滑动可以在现实和虚拟漫画之间切换,效果也清新自然,符合大众使用后“变美”的心理预期。
不过,在确定最终特效风格之前,Tik Tok团队也考虑到了不同年龄段人群的喜好,收集并观看了大量的漫画风格,包括孙漫、郭曼、韩漫等主流风格的漫画和剧集,如日式清新风格。
郭曼孟梦大风
还有这个(不知道什么风)。
初步效果探索。
但最终,团队锁定了效果方向:具有普适风格的漫画脸效果。
最终效果确定。
这种具有通用风格的卡通脸需要满足两个基本要求——“形象”和“美”。用过这个特效的人应该对这两点没有异议。使用特效后,人的发型、脸型,甚至表情、眼神都和真人相似,卡通脸也让人感觉莫名的舒服和好看。
#独家披露实时视频处理背后的技术。
当然,除了好玩,这种特效背后的“科技”才是我们最感兴趣的。
与其他流行的卡通特效相比,这种特效用三个关键词来概括:“实时”、“视频”和“卡通”。
之前我们见过很多与漫画相关的技术应用,比如香港中文、哈工大、腾讯优图合作的一篇论文中提出的方法,可以将人脸照片转换成手绘漫画图片,甚至将漫画图片反转成真人版,令人惊叹。
W15mKTil' alt='独家揭秘!抖音爆款实时视频漫画变身特效背后技术' />华盛顿大学的照片唤醒技术,可以把动态图像转换成3D动态,让目标像是从画里走出来一般:
这些神奇的魔法,都与 GAN 技术相关。GAN(生成式对抗网络,Generative Adversarial Networks
)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块:生成模型(Generative
Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。由于这样的特点,GAN成为各种生成技术的不二之选。
抖音这次推出的漫画变身特效主要技术也还是GAN,但与以往相比也有差异之处。
此前,变漫画功能基本都基于人脸表情跟踪,学界和工业界都没有千人千面的实时漫画生成方法,这次抖音推出的漫画特效是在视频中实时实现的,这项技术在全球也是首次落地。在视频中,可实现人脸和头发变漫画的效果,配合背景风格迁移技术,完成全屏漫画的实时生成,并且通过“手动滑杆”道具,能与真实视频随意切换。
实际上,抖音实时漫画特效在最终技术选型之前,曾对比过大量当前生成技术方法,包括生成漫画的方法,如 ugatit,也有做其他任务的方法,如 MUNIT 等。
但经调研发现,当前的 GAN 用于漫画生成、风格迁移等任务存在一些问题
,首先是训练不稳定,超参数进行一些微小的调整就可能对结果产生很大影响,而且还容易遇到梯度消失的问题。对此,抖音的改善方案是尝试多种
loss,包括WGAN、LSGAN等,但目前为止还是没有银弹,所以需要在实验过程中监控梯度的变化。
抖音技术团队告诉CSDN,在漫画视频技术探索过程中,技术团队在初期尝试中屡屡碰壁,在前期预研中,输出版本效果与图片版相差较大,且性能也未能达标。在几次尝试效果均不理想的情况下,团队内部一度对实时漫画的可行性也出现了怀疑。
但好在几次失败的尝试后,在总结经验时有人指出了关键所在:之前的模型结构单一,不同模型的优缺点不完全一致。于是,技术团队尝试了模型嫁接的方法,用不同的模块拼接出新模型,大幅提升了漫画的生成质量。在质量达标后,又通过计算每层的重要程度来裁剪模型,最终确定了实时版模型的结构。
效果产品团队也参与模型效果调优,总结出参数与效果之间的定量关系,通过微调参数优化模型。最终,行业首发的高清实时真人漫画风格处理爆款才得以诞生。
与静态图片处理相比,实现实时漫画处理究竟难在哪里呢,尤其是在手机端实现?
抖音技术团队表示,实时视频漫画处理难度还是挺高的,比如模型本身计算量需要非常小,在有限的计算量下要达到比较好的漫画效果,需要让每一次运算都要充分发挥其价值。其次,抖音的用户众多,用户使用的机型性能差距也非常大。为了满足不同层次用户的需求,抖音研发了复杂的模型下发策略,实现了模型的定制化下发,这在最终保证了实时漫画的成功上线,在效果和性能方面达到实时漫画的要求。
此外,抖音漫画特效启用了自研的推理引擎ByteNN,这个针对端侧算法快速落地的推理引擎不仅支持 CPU 和 GPU 的通用计算能力,也充分发挥了厂商
NPU/DSP 硬件的加速能力,端侧性能和功耗均处于业界领先水平,这也保证了实时漫画能够稳定支持抖音海量的用户群体。
当然,这个实时漫画特效目前的算法针对一些特殊场景还是有一定优化空间,在之后的迭代中也会从模型本身和推理引擎两个方面入手,提升模型效果的同时优化推理性能。
# 在泛娱乐场景,GAN还有更大发挥空间
从当前推出的一些漫画生成效果来看,GAN这个热门技术确实为娱乐领域注入了很多新小的血液,引入了一些新鲜的玩法。不仅限于漫画,泛娱乐领域中,GAN方法的应用潜力肉眼可见,未来,这项新兴技术还会有哪些技术发展趋势,或者研究热点呢?
抖音技术人员认为,GAN本质上是分布之间的迁移,只要能定义分布之间的映射,就能尝试GAN。至于未来GAN还可以在哪些方向上大有用武之地,他们认为真实感和非真实感的风格迁移可能是长期的热点。除此之外,生成网络与3D技术的结合也可能是未来的热点之一。
比如同时期在日本一款 爆火的3D
姿态追踪漫画人物应用ThreeDPoseTracker,只需要使用一个USB摄像机或一段舞蹈视频来捕获运动,通过一种姿势预估模型(主干为Res-
Net-34),就能让虚拟动漫人物跟着自己舞动,生成的动作效果十分精准、自然流畅。
抖音表示,这是一个有趣的应用,团队一直在关注一些前沿并且有趣的技术,事实上,抖音此前也已经上线了类似的特效,抖音搜索“召唤光头强”、“Line
dancer”就可以体验。
正如抖音技术人员所说,GAN的能力不应仅局限于图片,3D的应用场景将给这项技术提供更大的展示舞台,期待在未来,GAN能够带给我们更多惊喜!