以服务于中国广大创业者为己任,立志于做最好的创业网站。

标签云创业博客联系我们

导航菜单

凹音短视频26版本下载 凹音短视频app下载新版本

  

  杨静来自奥菲寺。   

  

  量子报道| QbitAI,微信官方账号。   

  

  生成语音视频只需要一个声音。   

  

  就像这样。   

  

     

  

  可以看到,表情、动作、表情都是在线的,穿的衣服也不一样。   

  

     

  

  甚至发型和发际线也可能不同。(手动狗头)   

  

     

  

  视频的主人公是美国著名主持人约翰奥利弗,他正在主持一档节目《Last Week Tonight with John Oliver》。   

  

  而这样的视频生成效果在Reddit上就像580一样火爆。   

  

     

  

  很多网友说:那么,视频博主从此会省事吗?   

  

     

  

  别急,先研究一下康康说的话。   

  

  #论文详情。   

  

  能达到上述效果的是一个NWT生成器,利用表象学习实现音视频生成。   

  

     

  

  它由两个模型组成。   

  

  一种用于离散电位表示的视频自动编码器。另一种自回归先验模型用于生成新视频。   

  

  此外,该生成器可以控制生成的视频中的潜在属性,这些属性在数据中没有标记。   

  

  首先,自动编码器dVAE-Adv将视频帧从256224压缩到1614的潜在空间。   

  

     

  

  每个潜在的网格元素被称为Memcode,每个Memcode携带像素域中大约768个元素的信息。   

  

  自回归模型作为一种编解码模型,可以从离散的分类分布中自动采样,将音频转换为视频。   

  

     

  

  研究人员使用的数据集是来自主机的程序《Last Week Tonight with John Oliver (LWT)》。   

  

  然而,这些视频样本经过了处理,研究人员将它们分成16127个视频片段,平均长度为7.46秒。   

  

  最后,在主观评价测试中,该方法明显优于以往的唇语和人脸生成任务。   

  

     

  

  研究人员表示,这项研究是会话式人体视频合成技术的新突破,显示了未来普遍应用的潜力。   

  

  尽管如此,这个模型仍然有一些局限性。   

  

  比如不能由别人的声音产生。   

  

  对此,作者表示,“我尝试过,但唇语同步会有影响。”。   

  

     

  

  有网友注意到视频中人的手很奇怪。   

  

     

  

  作者指出,与遗传算法的问题不同,它们主要是由自回归生成过程中的错误分类引起的。   

  

  接下来,他们将进一步扩展数据集和模型,以处理不同的个人。另一个想法是,给定一帧或部分图像,模型可以模仿特定的情节。   

  

  论文地址:   

  

  https://arxiv.org/pdf/2106.04283.pdf   

  

  参考链接:   

  

  [1]https://下周-今晚. github.io/NWT_blog/   

  

  [2]https://www.youtube.com/watch?v=HctArhfIGs4   

  

  -完毕.   

  

  量子位QBITAI头条数字签名。   

  

  关注我们,第一时间获悉前沿科技趋势。