以服务于中国广大创业者为己任,立志于做最好的创业网站。

标签云创业博客联系我们

导航菜单

抖音口型唱歌怎么做到的 抖音如何对口型视频教程

  

  还记得《哈利波特》电影里的动人照片吗?   

  

  比如守卫格兰芬多学院休息室的胖夫人——。   

  

     

  

  脾气不好的胖女人。   

  

  神奇世界里还有《预言家日报》,打开报纸,新闻图片都是动图,还有可以像纪录片一样自动播放的事件报道。   

  

     

  

  《预言家日报》   

  

  看电影的时候,小智对这些细节印象深刻。没想到现在这些魔法竟然成真了!   

  

  现在,只要提供一张照片,就有可能利用神经网络技术使静止的人移动甚至说话。   

  

  这就是有情绪、有表情,口型跟声音完全一致的那种!.   

  

  比如玛丽莲梦露。   

  

  原图   

  

     

  

  治疗后的动态效果。   

  

     

  

  你可能会说,“门罗的图片太多了,这个gif有什么稀罕的?”好的,这件怎么样?——.   

  

  原图   

  

     

  

  治疗后的动态效果。   

  

     

  

  只有一张蒙娜丽莎的平面图创造了一个三维的动态图形。这是如何实现的?   

  

  #01 先让照片动起来   

  

  研究人员从YouTube上收集了7000张名人照片和人脸视频,并训练机器学习识别人脸的显著特征,如眼睛、嘴巴形状和鼻梁形状。并使用卷积神经网络来创建。   

  

  动态头部模型。   

  

  之后,我们将训练好的模型与我们想要移动的照片“粘贴”在一起。此时,系统可以自行找到相应的面部特征,然后在新的人脸中调整关键点,最终达到自然的动态效果。   

  

     

  

  此时,即使只有一张目标照片,也可以进行人脸模拟。当然,照片越多,最终视频会越精致,越逼真。   

  

     

  

  目标人物1、8、32张照片的训练结果。   

  

  研究人员表示,“尽管需要调整数千万个参数,但系统可以根据不同的人来初始化发生器和鉴别器参数。因此,只需借助几幅图像就可以快速完成训练。”。   

  

  #02 加上声音对口型   

  

  好了,动静态照片的操作已经完成,现在可以用音频完成了。   

  

  但这个“配音”步骤并没有那么简单。   

  

  如果我们简单粗暴地将音频添加到已完成的视频中,结果将变成我们年轻时观看的粗糙漫画:卡通人物不管在说啥,嘴巴永远只有“开”“合”这两个动作——.   

44aef8ea32bef275e5f26' alt='一张照片就能生成视频?连口型和声音都能对上' />

  

例如上图,光看口型,你知道海绵宝宝说了什么吗?

  

小时候从来都没质疑过人物口型为啥跟台词对不上的朋友,请到这里集合······

  

  

成年人的视觉对脸部细节的敏感程度比小孩子要高得多 ,要不然也不会出现明星因为口型对不上被观众逮到假唱的糗事了。

  

因此,在不久前举办的计算机视觉顶会CVPR 2019

  

上,这项新研究提出了一个端到端系统。在之前研究的基础上,不仅实现了人物口型和音频的同步,还实现了更为自然的人物面部表情,比如眨眼和眉毛动作等。

  

  

  

  

新合成视频中人物的情绪饱满

  

这才是“jpg→gif→mp4”的全过程。

  

# 03 仍有些粗糙

  

虽然以上的实验成果已经非常惊艳了,但细看之下,仍可以发现不少bug。

  

例如,正常人说话时会有轻微的头部运动。但实验合成的一些人物头部转动时, 五官和脸型会发生变形 ,有种说不出的怪异感。

  

  

又比如一些人物 背景会发生扭曲

  

  

而图灵测试的结果也反应,大众并没有那么容易被合成的假视频欺骗。

  

> 【什么是图灵测试?】

  

> 图灵测试是由“计算机科学之父”艾伦·麦席森·图灵提出的关于机器人的著名 判断原则

  

> 如果说现在有一台机器人,其运算速度非常快,可以进行听说读写,还能回答许多问题。那么,我们是否就能说这台机器人具有思维能力了呢?

  

> 我们可以进行这样的测试:将测试者与被测试的机器人隔开的,测试者通过一些装置(如键盘)向被测试者提出一些问题。几轮问答后,如果测试者能正确分辨出被测试对象中哪些是真人、哪些是机器人,那机器就没有通过图灵测试;反之,若测试者没能判断出来,那这个机器就可以被认为是有人类智能的。

  

在对本项目进行的图灵测试中,66名测试志愿者需要观看 24 个视频(12 个真实视频,12

  

个合成视频),并且将每个视频标注为“真”或“假”。测试结果表明,平均用户标注的正确率为 52%。

  

  

总的来说,模型的动作幅度越大、速度越快,目标照片的背景元素越复杂,产生的怪异感和形变就会越严重;而视频时间越长,观众容易发现漏洞的概率也会越大。

  

# 04 技术应用

  

单张或少量照片就能完成动态人像,这样的速度和效率让该模型更利于推广。可以预测,未来这一系统将会被应用在游戏、电视、电影特效行业中。

  

例如好莱坞的许多大型数字特效公司,利用现有技术将一位演员的面容“移植”到另一个身体上,需要花费几个月的时间。而使用这样的技术,可以大大缩短制作时间,节省成本。

  

  

特效电影《阿凡达》就花费了大量的后期制作时间

  

当然,也有不少网友表示,一些演技堪忧的流量明星这下可有救了。

  

  

此外,这一技术还可应用于特殊人物的 “复活” 。例如,在佛罗里达州的圣彼得堡,达利博物馆就将著名的超现实主义画家达利“复活”了。

  

在这场名为《Dalí

  

Lives》的展览上,展品是一个显示屏,上面有一个按钮,当你摁下按钮时,屏幕里的达利仿佛听到了门铃声,会走过来和你说话,让人感觉非常真实。

  

  

而这一展览使用的,就是机器学习驱动的视频编辑技术。

  

预测将来,这一技术还可以成为私人化定制服务,满足客户将名人或过世的亲人“复活”的需求。

  

  

而此刻正在B站刷视频的小智,产生了一个大胆的想法——是时候用AI技术为鬼畜区添砖加瓦了。

  

  

B站全明星阵容,敬请期待

  

而点开微信表情包,我又产生了一车大胆的想法——