本文通过对市场上智能编辑功能的体验,挖掘不同产品的功能模式,还原产品的逻辑和结构。通过对竞争产品的对比分析,总结出智能编辑功能的迭代方向。
# 01研究背景。
## 1\.什么是智能剪辑?
传统的视频编辑需要大量的后期处理工作,包括手动编辑、拼接、音乐选择、添加转场、配色、字幕等。其具有高阈值并且耗时费力。
智能编辑使整个编辑流程更加智能化、规范化、简单化,能够显著降低创作门槛,提升普通创作者的创作意愿和能力。
市场主流短视频产品普遍开发了智能编辑功能,其中核心优化了以下三个关键环节:
(1)判断素材类型,智能组合剪辑;
(2)智能匹配音乐,结合智能编辑,可生成音乐卡带视频;
(3)智能增加动态效果,包括过渡、特效、滤镜等丰富效果。
## 2\.为什么要做智能编辑?
第一个结论:智能编辑功能可以有效降低普通用户的制作门槛,帮助用户低成本编辑。
首先说说为什么主流短视频产品都有智能剪辑功能,而制作长视频的专业剪辑软件基本没有这个功能。
一是因为用户的积极选择,使用专业编辑软件的用户整体具备一定的制作能力,而日常使用短视频app的用户一般制作能力较低,更适合使用轻量级的智能编辑功能。
第二,由于载体本身的原因,长视频更多的是一种叙事结构,适合讲故事。前后有着密切的逻辑关系,需要结合人的思维和创造力。然而,机器智能暂时无法通过声音、文字、图像等材料理解其逻辑。
但是短视频自由多了,有更多个人化的话题,比如自画像、旅游、美食等等,不需要复杂的剪辑。
其次,我们来看看智能编辑功能对短视频产品本身的好处。
对于短视频产品,绝大多数用户是消费者,只有少部分用户是生产者。消费者会消费生产者创造的内容。消费者虽然有一定的创造意愿,但创造能力较弱,将消费者转化为生产者的成本也较高。
即使是UGC生态的短视频产品,也会从UGC逐渐发展到PGC,中间状态叫UPGC。
在这个过程中,普通用户产生的大量低质量、低价值的内容会被过滤掉,而专业用户产生的高质量、高价值的内容会得到更多的曝光。最终,我们在短视频产品中看到的基本上是专业用户制作的内容。
那为什么要为普通消费者或者尾部生产者做智能编辑呢?
因为普通用户还是有生产需求和一定的生产意愿,他们会拍摄旅游、美食或者记录重要生活事件等。制作视频后,他们会经常在朋友圈、微博、Tik Tok、Aauto faster等社交网络上发布,或者直接与家人朋友分享。
也就是说,视频制作需求的背后,本质是社会需求。
而消费视频完全是两个逻辑,帮助头部创作者制作是为了普通消费者有内容可看,但刺激和帮助普通用户制作内容是促进用户使用产品的重要手段,同时可以丰富UGC生态,最终涌现出专业制作人。
总而言之:
(1)目标用户:尾部制作人,典型特征是低质量,没有固定的创作主题,作品偏向个人。
(2)使用场景:拍摄旅行、美食或记录重要生活事件后,想制作一段自己社交网络的短视频,但专业的视频编辑软件太复杂,用起来没时间琢磨。
(3)满足需求:表面上满足了小制作短视频的需求,但本质上满足了社会需求,彰显了心理。
# 02研究目标。
了解市场上竞争产品的智能编辑功能的优缺点,并结合实际业务sce
跨领域竞争产品:DJI、魁克。
根据上表的概述,我们可以发现【智能剪辑】功能有三个核心要素:剪辑、音乐和视觉。
首先,算法会分析素材的内容,识别素材的场景,然后匹配相应的音乐和动画。
每首音乐都会有一个对应的节拍点。根据拍子点,将每块料切成一定的播放长度后拼接在一起。
这里还会有另一个问题,那就是如何在每一块材质中找到高质量的亮点?
因此,有必要借助算法识别和过滤素材中的亮点,进行合理剪裁。
视觉效果包括过渡效果、图片装饰、滤镜、贴纸等。还需要识别物料对应的场景进行匹配。
通过以上分析可以发现,根据剪裁、音乐、动画三者之间的关系,市场上【智能剪裁】功能的主流模式有三种:
(1)【音乐可选无动作】:根据素材匹配推荐音乐,可手动切换,素材将以音乐为基础。
再次剪裁,无转场、页面装饰等视觉效果,典型代表是抖音;(2)【音乐固定+动效固定】:音乐和动效绑定,两者都是固定的,不能组合,也就是集成为“模板”,每个模板的剪裁也是固定的,此时需要用户自己手动选择模板,典型代表是微视;
(3)【音乐可选+动效可选】:音乐根据素材进行匹配和推荐,可手动切换,素材会根据音乐再次剪裁,同时转场、页面装饰等视觉效果集成为统一风格的“主题”,可进行切换,典型代表是快手和VUE。
## 2\. 核心竞品详述
根据以上分析,音乐智能匹配和视频精彩片段智能选取,这两个关键环节主要依靠算法解决,对于用户而言相当于黑盒。
而另一个关键点,怎么依靠音乐节拍点划分素材的长度,则有规律可循,因此,下文将针对抖音的音乐卡点模式进行简单实验,推测其智能剪裁规则。
整体分为三个环节:导入素材、制作流程、发布。
导入素材:可同时导入图片和视频,素材总数的上限是35。
制作流程:默认音乐卡点模式,会根据匹配的音乐,对素材进行裁剪,也可以手动调整素材片段的顺序,但是因为每个音乐的卡点位置是固定的,因此每个素材片段剪裁的长度也是固定的,只能调整每段素材剪裁的位置。
举个例子,我上传了4段视频,基于匹配的音乐自动剪裁后,4段素材分别的长度为:5.6s、4.4s、4.4s、5.6s。
现在我将第4段素材(有人像)的位置从第4个位置移动到第2个位置,然后第4段视频(有人像)的长度从5.6s转变为4.4s,也就是说根据素材的数量会计算音乐卡点的位置,分配相同数量的位置,每个位置的长度是固定的。
接下来,将通过简单实验,归纳总结其裁剪规则。
在此次简单实验中,通过将素材总时长逐渐增加,从3秒到890秒,我们可以看到以下规律:
(1)素材数量>=2时,才能进入【音乐卡点】模式;
(2)素材总时长30秒左右是临界点
1. 总时长在30秒以下的素材,裁剪后保留的比例为55%~60%;
2. 总时长在30秒以上、50秒以下的素材,裁剪后保留的时长逐渐贴近20秒,保留的时长不再有大幅的增加;
3. 总时长在50秒以下的素材,裁剪后保留的时长稳定在20秒左右,因此保留的比例会迅速下跌;
(3)抖音导入素材的限制是,每段素材必须大于1秒,且素材的总数量不能超过35个;
1. 通过实验可以看到,剪裁后的总时长上限为20秒,在最多35段素材的情况下,平均每段素材剪裁后的长度为0.57秒,因此可见”35“基本接近了维持视频最终效果的极限,素材数量再增多,将会影响视频效果;
2. 随着素材数量和素材时长的增加,每段素材剪裁后的时长将逐渐接近1秒,直至1秒以下,因此需要限制每段素材必须大于1秒。
# 04 结论与方案
本次报告通过对市面竞品的扫描,总结归纳了市面上主流【智能剪辑】功能的三种模式:
(1)【音乐可选+无动效】:音乐根据素材进行匹配和推荐,可手动切换,素材会根据音乐再次剪裁,无转场、页面装饰等视觉效果,典型代表是抖音;
(2)【音乐固定+动效固定】:音乐和动效绑定,两者都是固定的,不能组合,也就是集成为“模板”,每个模板的剪裁也是固定的,此时需要用户自己手动选择模板,典型代表是快手、微视;
(3)【音乐可选+动效可选】:音乐根据素材进行匹配和推荐,可手动切换,素材会根据音乐再次剪裁,同时转场、页面装饰等视觉效果集成为统一风格的“主题”,可进行切换,典型代表是VUE。
并针对抖音的音乐卡点模式进行了拆解,通过实验推测其智能剪裁的规则:
(1)总时长在30秒以下的素材,裁剪后保留的比例为55%~60%;
(2)总时长在30秒以上的素材,裁剪后保留的时长逐渐贴近20秒;
(3)导入的每段素材必须大于1秒,且导入的素材总数量不能超过35个,这样才能保证最终的视觉效果。
但是只了解其规则是不够的,需要能够输出为可落地的方案才有价值。
接下来,我将结合多个竞品的功能亮点,并删繁就简,初步策划足够简单、足够好用的【智能剪辑】功能。
1. 建议采用【音乐可选+动效可选】的模式,即根据上传的素材进行场景识别,智能匹配音乐和相关的视觉主题。
2. 素材需根据所匹配的音乐进行智能裁剪,用户手动更换音乐,需再次裁剪。
3. 视觉主题则采用通用样式,包括通用性的页面装饰、滤镜和转场特效,用户可手动更换,对素材剪裁没有影响。
4. 用户手动剪裁素材或调整素材顺序需要客户端的渲染能力,成本较高,可考虑在后续迭代。
本文由 @岳小鱼 原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自 Unsplash,基于CC0协议






