以服务于中国广大创业者为己任,立志于做最好的创业网站。

标签云创业博客联系我们

导航菜单

视频标签有哪些,视频审核标签分类

  

  机器智信原创   

  

  作者:蛋酱   

  

  BLENDer是如何取得单车型和多车型历史上最好成绩的?   

  

  2020年11月19日,腾讯微视“BLENDer”模型以“81.6、86.4、70.8”的评分,荣登多模态领域权威榜单VCR榜首。   

  

  最新成果来自腾讯微视视频理解团队。此前,该榜单的纪录保持者分别是百度、微软、脸书等知名机构。   

  

     

  

  BLENDer(双峰编码器)创造了VCR排行榜中单/多模型的最佳得分,提交模型的出发点只是为了验证团队的多模态算法。   

  

  什么是 VCR ?   

  

  当人们谈到“腾讯微视”时,可能会想到一个“短视频App”,它经常出现在微信朋友圈,也是很多人安装的必备软件.   

  

  既然是视频服务,肯定会涉及内容审核、内容创作等。视觉常识。   

  

  推理,VCR)解决了让机器“秒懂内涵”的问题。所以,在走近腾讯微视技术团队之前,我们应该对VCR的任务有更深入的了解。   

  

  2018年,来自华盛顿大学和艾伦人工智能研究所的罗文泽勒尔斯、约纳坦比斯克、阿里法尔哈迪和叶筋蔡。   

  

  四位学者共同发起了一项VCR任务。该数据集包含11万个电影场景中的29万个多项式选择题,是图像理解和多模态领域中层次最深、阈值最高的任务之一。   

  

  录像机的任务包括回答问题和解释原理。   

  

  两个子任务。在问答子任务上,计算机需要了解问题(如图片中人物的动作和意图)以及与问题相关的图片,从四个中选择一个进行回答;在解释子任务上,计算机需要从四个选项中选择一个给出答案第一部分的解释。   

  

  下图就是一个例子。模型需要回答两轮问题。只有两个问题都答对了,才能得到最后的分数。   

  

  第一个问题:为什么人4指向人1?   

  

     

  

  正确答案是,人4在告诉人3,人1点了煎饼。(这很容易被人类解读。)   

  

  给出答案后,电脑也需要回答:“你为什么这样判断?例如,在这个例子的第二个问题中,正确答案是:   

  

  第三个人正在上菜,但他不知道是谁点的菜。   

  

  对于人类来说,只看图片就很容易理解图片的内涵,比如行为、目标、精神状态,甚至人物之间的关系。但这类任务对于机器视觉系统来说难度较大,需要较高的认知水平和常识推理能力。   

  

  这项艰巨的任务吸引了来自微软、谷歌、脸书、百度等科技公司的团队。此前,这项任务的许多记录保持者包括ERNI-ViL-large(15。   

  

  一套模型)、uniter-large(10套模型)等。   

  

     

  

  但是现在最强的是BLENDer,它用单个模型同时刷新了之前列表上的单个和多个模型效果。   

  

  单模型 BLENDer 如何打榜 VCR?   

  

  BLENDer是怎么做到的?   

  

     

  

  BLENDer第一阶段算法模型。   

  

  BLENDer是基于目前主流视觉语言之一流的BERT模型,而这个模型的学习过程分为三个阶段:   

  

  第一阶段,在150w左右预训练一个图片及其描述的样本,采用掩蔽语言建模(MLM)和掩蔽。   

  

  区域建模(MRM)和图像-文本匹配(ITM)是三组预训练任务,如图所示。   

所示。

  

第二阶段在 VCR 的训练集上进行进一步的预训练,继续采用第一阶段的 MLM 和 MRM 任务。

  

第三阶段进行最后的 finetune,输入 VCR 提供的 question, answer 和 rationale 以及 box

  

feature,在[CLS] token 的输出进行 Q->A 和 QA->R 的二分类。以上所有阶段的 box feature 都采用的 BUTD

  

算法提取的 res-101 feature,除了 flip 没有采用其他增强手段。

  

相比以往的参赛模型,BLENDer 加入了人物物体关系推理、噪声对抗训练以及针对性更强的 MLM,最终,BLENDer 将三项问答准确率提高到了 81.6,

  

86.4, 70.8 的水平,单模型表现即超越此前单、多模型效果。具体技术方案细节,团队会在近期开源相关代码、模型和文章。

  

腾讯微视将人工智能技术赋能短视频

  

一直以来,腾讯微视高度关注技术研发,腾讯微视产品也为人工智能技术落地提供了广泛的应用场景。

  

视频理解团队更是长期深耕多模态语义理解领域,持续进行技术突破和落地,将相关技术应用在海量图像、视频、文本等跨媒体信息的认知推理中。

  

同时,团队也从业务出发不断探索前沿领域,并将人工智能技术应用到短视频生态中,贯穿内容创作、内容审核以及内容分发的各个环节。

  

在内容创作环节,腾讯微视将 3D 人脸、人体、GAN 等 AI 技术结合 AR

  

技术辅助用户进行内容创作,让创作过程更加便捷、有趣和普惠;在视频审核环节,腾讯微视借助图像检测、分类、多模态理解等 AI

  

技术精准识别视频内容,提升审核效率,使得用户生产的内容最快时间触达消费者,目前腾讯微视内容处理效率已经持平业界领先水平;而在视频分发环节,腾讯微视借助 AI

  

技术从非结构化的图像、音频、文本数据中提取结构化信息输出,如标签、特征等,支撑分发精准匹配用户。

  

未来,人工智能将具备更加多元、深度的交流学习能力,而技术的创新和精进将进一步推动 AI 技术在短视频业务中智能交互场景的落地。