关于短视频创作的论文,短视频的发展论文摘要

　　编者按：随着网络性能的不断提升，视频已经成为越来越多的人获取信息、娱乐休闲的主要方式。与此同时，也涌现出了许多视频创作者，他们以创意视频的形式呈现自己喜欢的人、事、物，这让小白和边肖一样，羡慕没有视频创作细胞。但是，你很快就可以借助技术实现这种能力。微软亚洲研究院提出的开放域视频生成预训练模型基于　　

　　3D注意力机制克服了视频帧连续性建模的挑战，可以在几秒钟内基于文本脚本生成视频。　　

　　_提问：把大象放进冰箱.再来一次。_ 　　

　　
　　_提问：:从文字脚本到创意视频生成有多少个步骤？_ 　　
　　
　　_回答：'s步骤相当多，需要画面构思、分镜设计、配色、场景筛选、元素点缀、实地拍摄、动画制作等.可以说，它是趟过山川，走进天地._ 　　
　　
　　但是随着人工智能技术的不断发展，未来我们只需要输入文字脚本就可以直接生成视频，一步就可以完成。　　
　　
　　近日，微软亚洲研究院自然语言计算组发布了一项创新研究成果——开放域视频生成预训练模型。　　
　　
　　GODIVA(论文链接：https://arxiv.org/abs/2104.14806)实现了文本到视频的第二代。在视频成为主流媒体的今天，未来每个人都有机会成为视频制作人。　　
　　
　　　　
　　
　　是的，你没有弄错。这是自然语言处理领域研究人员的成果。为什么学习NLP？　　
　　
　　科学家开始研究视频了吗？他们是如何实现这项技术的？接下来，我们来看看。　　
　　
　　#自然语言和视觉的跨模态智能　　
　　
　　事实上，通过文本阅读和语言对话获取信息只是人类成长和学习过程的一部分，有些信息来自视觉输入。例如，我们看到马可以在地上跑，但不能在天上飞；鸟可以在天上飞，不能在水里游，等等。因为这种信息被认为是理所当然的常识，很少频繁地反映在文字和语言中，所以研究人员正在基于大规模文本进行训练。　　
　　
　　NLP模型，我越来越觉得现有模型缺乏常识知识，因为这方面的知识通常更多的出现在图片和视频中。　　
　　
　　此前，由于计算能力和AI跨领域处理方法的差异，跨领域、多模态的内容学习非常困难。近年来，NLP 　　
　　
　　随着技术的快速发展，一些新的底层模型不断涌现，并被应用于计算机视觉(CV)等其他领域的模型训练，如Transformer。　　
　　
　　随着自然语言处理和计算机视觉之间底层模型共性的增加，这两个领域的研究人员越来越多地尝试其他领域的算法来提高模型的表示和推理能力。在NLP 　　
　　
　　在该领域全球峰会的ACL上，近年来出现了许多与多模态问答、多模态摘要生成和多模态内容检索相关的论文。在CVPR的时候　　
　　
　　在计算机视觉领域的顶峰，也有许多结合自然语言处理任务的跨模态方法。跨领域多模态机器学习已经取得了初步的成果。　　
　　
　　“从NLP研究的角度来看，我们希望能够从视频或图片信号中学习到无法用文字描述的常识信息，从而对现有的NLP进行补充。　　
　　
　　模型中缺乏常识或物理知识最终会使NLP模型取得更好的效果。同时，它还可以使NLP 　　
　　
　　与图片和视频任务建立内部联系，”微软亚洲研究院自然语言计算组高级研究员段楠说这就是我们视频生成研究的初衷。" 　　
　　
　　#创新3D注意力机制，克服视频连续建模挑战　　
　　
　　目前常见的视频生成技术主要基于生成对抗网络(GAN)，而微软亚洲研究院的视频生成则基于VQ-VAE技术。是NLP 　　
　　
　　对于该领域的研究者来说，后者的技术路线更接近NLP领域的研究思路。它可以将视频/图片信息映射成文本，然后从序列化的角度对其进行处理，生成符号。　　
　　
　　这里视频和图片没有本质的区别，因为视频可以分为很多视频帧，也就是图片。与VQ-VAE 　　
　　
　　该算法可以将每一个视频帧编码成离散的矢量表示，使得图片信息可以对应相应的文本，将其序列化为NLP最擅长处理的令牌，充分利用现有的NLP。　　
　　
　　模型和算法。经过大规模数据预训练后，基于VQ-VAE模型将离散序列反转为视频帧，将所有帧连接在一起形成视觉视频。　　
　　
　　这种方法的优点是每个生成的视频帧都与文本有很高的相关性。然而，如何保证生成的视频帧之间的流畅度，以及如何解决生成视频时的长序列建模问题，成为了研究人员必须攻克的技术难点。鉴于以上两个挑战，研究人员在帧间引入了一个。　　
　　
　　3D稀疏注意力机制，在生成当前帧的一个区域时，同时考虑该区域的三维视觉信息：行、列和时态(如图1所示)。　　
.com/large/pgc-image/a553cc582c82483fb1fbc9db179303aa' />
　　
图1：3D 稀疏注意力的掩码矩阵
　　
图1给出了输入文本长度为3个 token、输出视频为2帧、每帧由4个 token 组成时的 3D 稀疏注意力掩码矩阵。其中，行表示模型需要生成的8个视觉
　　
token (v_1, v_2,…, v_8)，列表示生成该视觉 token 需要关注哪些
　　
token。红色、蓝色、紫色分别表示行、列、时三种稀疏关注机制的独有的关注，绿色表示三种关注机制共享的关注，黑色则表示不关注。例如，第一行前三列为绿色，表示在生成
　　
v_1 的时候，三种关注机制都关注了所有的语言 token t_1, t_2, t_3。第二行表示前三列为绿色，第四列为蓝色，表示在生成 v_2
　　
的时候，除了三种关注机制都关注了 t_1, t_2, t_3 外，列关注机制还专门关注了 v_1。这是由于当视频的一帧由4个 token 组成时，v_1 是
　　
v_2 的先前列 token（如图2，对于 Column 轴而言，1在2之前）。再例如第4行就表示在生成 v_4 时，模型除了关注 t_1, t_2,
　　
t_3 外，行关注专门关注了 v_2，列关注专门关注了 v_4。从图2可以看出，这是由于 v_2 是 v_4 的先前行 token，v_3 是 v_4
　　
的先前列 token。值得一提的是，为了减少计算，模型不再关注与 v_4 间隔比较远的 v_1。
　　
　　
图2：每帧视频由4个 token 组成时的 token 排列
　　
这样有三个好处：其一，通过稀疏的注意力建模，模型省去了大量的运算（可以从图1看出，大量的位置都是黑色的），从而可以进行长序列的建模。其二，行、列、时三个维度的关注使得模型在生成某一视觉区域时，同时考虑空间和时间的依赖性，从而能够生成帧内更平滑、帧间更流畅的视频。其三，由于在生成每个视觉
　　
token 的时候都会关注全部文本信息（图1前3列都是绿色的），则生成的视频和文本的一致性会比较好。
　　
　　
图3：微软亚洲研究院开放领域视频生成预训练模型图
　　
图3给出了整个的模型图。可以看到，通过上述的行、列、时稀疏注意力的循环堆叠，模型可以迭代地生成视觉 token 序列。这些 token 组装之后，通过
　　
VQ-VAE 的解码器就可以一帧一帧地输出视频了。
　　
除了以上几个技术方面的挑战，基于文字生成视频的另一个难点是，对视频生成效果的评价会相对主观。同样一段小孩与小狗在游泳池边嬉戏的文字，对应的视频可能有千万种呈现方式，很难通过标注数据对生成的视频进行衡量，这给视频生成研究的自动评价机制带来了巨大挑战。为了解决这个问题，微软亚洲研究院的研究员们采用了人工审核与技术判别相结合的方式。在技术判别方面，研究员们基于
　　
CLIP（论文链接：https://arxiv.org/abs/2103.00020）设计了自动评测指标 RM（Relative Matching）：
　　
　　
其中，t 表示输入文字描述，v^(l) 和 v ^(l) 分别表示真实视频 v 和生成视频 v 中的第 l 帧，CLIP(t, v^(l) )
　　
表示基于 CLIP 模型计算的 t 和 v^(l)
　　
之间的相似度。实验数据表明，该指标能够很好地将生成视频所对应的输入文字描述从若干文字描述集合中选取出来（按照 RM
　　
得分最大值，如图4所示），从而证明了该开放领域视频生成预训练模型生成的视频内容和输入文字描述之间具有很好的相关性。
　　
　　
图4：输入文本和视频标准答案之间的相似度
　　
目前，该模型在 HowTo100M 的公开数据集预训练，并在 MSR-VTT 公开数据集上
　　
finetune（微调），取得了不错的测试结果。尽管现有版本仅生成了十帧的视频，但可以看出视频有着较高的连贯性，而且与文本的相关性也很高，初步验证了基于文字生成视频技术的可行性。随着未来算法的更新和计算能力的提升，研究员们将进一步完善视频长度、画质分辨率等更多细节。
　　
下面让我们一起来看看目前基于文字所生成的视频效果：
　　
输入文本： Digit 9 is moving down then up. （数字9先向下，再向上移动）
　　
输出视频：
　　
　　
输入文本： Digit 7 moves right then left while digit 3 moves down then up.
　　
（数字7先向右，再向左移动；同时数字3先向下，再向上移动）
　　
输出视频：
　　
　　
输入文本： A baseball game is played. （正在举行的棒球比赛）
　　
输出视频：
　　
　　
输入文本： A girl on the voice kids talks to the judges. （The Voice Kids
　　
节目上，一个女孩在和评委说话）
　　
输出视频：
　　
　　
# 多技术融合是趋势，“无中生有”的视频还远吗？
　　
对于视频的生成，大家或许会有一个疑惑：AI
　　
模型到底是根据文本去搜索、筛选了一个相符合的视频，还是完全原创地生成了一个全新的视频？这个问题有点哲学，毕加索曾经说过“Good artists copy,
　　
great artists steal（杰出的艺术家模仿，伟大的艺术家窃取）”，艺术家的艺术创作都会把他们吸收到的各方精髓进行融合、创新，所以 AI
　　
也不能免俗。
　　
通常，文字到视频的生成可以分为三种：第一种，基于搜索，筛选出最相符的视频（相关论文链接：https://arxiv.org/abs/2104.08860），这与在搜索引擎中查找图片和视频类似；第二种，根据文字描述搜集大量已有视频，从不同的视频中裁剪出与文字相符的部分，再进行拼接，至于转场、衔接是否丝滑，就要看模型的自身“功力”了；第三种，也是视频生成的最高境界――从无到有地生成视频，这就类似于我们经过繁多的步骤去拍摄或制作一个视频。
　　
目前微软亚洲研究院所做的基于文字生成视频的技术 GODIVA，大致介于第二种与第三种生成方式之间――部分是由 AI 模型截取于已有视频，部分则是 AI
　　
模型自身生成的。然而，分别以 VQ-VAE 和 GAN 为核心技术进行的文字生成视频，都存在一定的不足，但也各具优势。
　　
“未来，VQ-VAE 和 GAN 两个技术的相互融合、优势互补将会成为文字生成视频的一个研究方向。我们也在尝试创新地结合多种 AI
　　
技术，以提升生成视频的内容质量和长度，并希望通过聚焦视频理解与生成研究来促进 NLP 预训练模型在多模态处理和常识知识获取等前沿领域的进步，”段楠表示。
　　
论文：GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions
　　
论文链接：https://arxiv.org/abs/2104.14806
　　
论文作者：吴晨飞、黄伦（杜克大学）、张虔熙、李镔洋、纪蕾、杨凡、GuillermoSapiro（杜克大学）、段楠