杨静来自奥菲寺。
量子报道| QbitAI,微信官方账号。
生成语音视频只需要一个声音。
就像这样。
可以看到,表情、动作、表情都是在线的,穿的衣服也不一样。
甚至发型和发际线也可能不同。(手动狗头)
视频的主人公是美国著名主持人约翰奥利弗,他正在主持一档节目《Last Week Tonight with John Oliver》。
而这样的视频生成效果在Reddit上就像580一样火爆。
很多网友说:那么,视频博主从此会省事吗?
别急,先研究一下康康说的话。
#论文详情。
能达到上述效果的是一个NWT生成器,利用表象学习实现音视频生成。
它由两个模型组成。
一种用于离散电位表示的视频自动编码器。另一种自回归先验模型用于生成新视频。
此外,该生成器可以控制生成的视频中的潜在属性,这些属性在数据中没有标记。
首先,自动编码器dVAE-Adv将视频帧从256224压缩到1614的潜在空间。
每个潜在的网格元素被称为Memcode,每个Memcode携带像素域中大约768个元素的信息。
自回归模型作为一种编解码模型,可以从离散的分类分布中自动采样,将音频转换为视频。
研究人员使用的数据集是来自主机的程序《Last Week Tonight with John Oliver (LWT)》。
然而,这些视频样本经过了处理,研究人员将它们分成16127个视频片段,平均长度为7.46秒。
最后,在主观评价测试中,该方法明显优于以往的唇语和人脸生成任务。
研究人员表示,这项研究是会话式人体视频合成技术的新突破,显示了未来普遍应用的潜力。
尽管如此,这个模型仍然有一些局限性。
比如不能由别人的声音产生。
对此,作者表示,“我尝试过,但唇语同步会有影响。”。
有网友注意到视频中人的手很奇怪。
作者指出,与遗传算法的问题不同,它们主要是由自回归生成过程中的错误分类引起的。
接下来,他们将进一步扩展数据集和模型,以处理不同的个人。另一个想法是,给定一帧或部分图像,模型可以模仿特定的情节。
论文地址:
https://arxiv.org/pdf/2106.04283.pdf
参考链接:
[1]https://下周-今晚. github.io/NWT_blog/
[2]https://www.youtube.com/watch?v=HctArhfIGs4
-完毕.
量子位QBITAI头条数字签名。
关注我们,第一时间获悉前沿科技趋势。