图片来源@视觉中国
文字|深原,作者|陈。
从勇者为王到精益创业,一代又一代的企业都在这个瞬息万变的商业世界里追寻着成长的脉搏和规律。从国外的谷歌、网飞、亚马逊,到中国的字节跳动、BAT,再到小到十个人的创业公司,一个人的产品思维,都渴望拨开迷雾,锚定真正的增长引擎。
在众多增长方法中,以数据驱动为核心理念的A/B测试是目前最热门的尝试之一。为了进一步明确这种增长方式的来龙去脉、可行性和适用范围、真实价值和常见误区,沈欢在充分的国内外案头调研的基础上,采访了几位一线交易员,沉淀了当前市场对A/B测试和数据驱动的主流认识和实际应用。
今天,我介绍增长实验室系列的第三部分,《一年8万次A/B测试,谁是抖音凶猛的幕后英雄》。
# #追求完美。
如何让看视频的用户体验更好?
作为一名支持的数据分析师,苏的工作始终在试图解决这个无休止的问题。
Tik Tok疯狂的增长拥有超过6亿的日活跃用户,庞大的用户数量要求团队在每一个微小的细节变化上都要极其谨慎。在这家知名的“用数据说话”的公司,A/B测试就像一道屏障,是产品快速更新迭代中必不可少的一环。
今年年初,Tik Tok UI设计师提出,或许可以优化文字和视频内容之间的蒙版,让视频界面上的文字更加突出,用户刷视频的体验更加舒适,从而在App上停留的时间更长。
那么如何设置蒙版的高度和透明度来达到想要的效果呢?这只有通过A/B测试才能知道。确定优化目标后,苏团队开始设计实验方案,调整了两个主要参数,即口罩的高度和透明度,然后交给团队实施,最后分发给不同的用户。
"这是一个不断接近其局部最优解的过程."苏对说道。围绕这两个变量的组合,研究小组在一个小口罩上进行了半个月的实验。每个方案,结合不同的参数,将需要7天左右的观察时间来收集用户的观看时间、留存等指标。
最后,最终确定了最佳计划(如下图2)。与原版本相比,平均应用使用时间增加了约0.2%,平均应用活跃天数增加了约0.1%。
仔细对比左右图片,标题和视频内容的蒙版有细微差别。团队通过了A/B测试结果,最终选择了右边的方案。
类似上面面具的例子数不胜数。比如在Tik Tok最初的界面设计中,为了简洁和美观,按钮设计主要是象征性的,类似的爱意味着赞美,省略号意味着评论。但在评估用户体验时,团队发现这种设计对不熟悉产品功能的新用户并不友好,他们很少主动使用。通过A/B测试,团队增加了更直观的文字提示,指导用户的行为。
A/B测试贯穿了Tik Tok的整个生命周期,从产品命名、功能、交互设计到推荐算法策略,这是字节跳动的基因。
2012年,当公司刚刚成立,公司掌舵人张一鸣正在一行行地输入代码时,A/B测试开始了,帮助人们通过科学和可量化的方法做出产品决策。
“其实A/B测试,在某种程度上让信息更加透明,在人们说话的时候也更加公平、有理有据。而且,对于我们的各种帮手来说,可以积累产品知识,充分了解业务。”苏告诉深环。
现在,仅Tik Tok每年就要进行6万到8万次实验。全公司每天新增实验约1500个,服务覆盖广告优化、营销活动等400多个业务,累计做了70万个实验。毫不夸张地说,A/B测试是字节跳动创造成长神话的秘密武器。
没有通用工具,几乎不可能完成这么大规模的A/B测试。幕后,字节很早就开始打磨内部A/B测试平台天秤座。
# #打磨锋利的工具。
天秤座是一个前瞻性的字节移动。
2014年,公司开始推广A/B测试的平台,“让它更严谨,发现它的问题,在公司更广泛地使用”,副总裁杨振源在4月份的一次技术开放日演讲中说。到2016年,天秤座已经在内部正式实施。
这是真实需求的结果。内部数据驱动的价值深入人心,对A/B测试这种量化、科学化的评价方式的需求日益增加。
“刚开始的时候产品很少,主要是围绕今天头条的推荐算法做A/B测试。但是,随着业务的不断增长,团队有了很多新的想法,(A/B测试工具)的规模也有了需求。”磅
PM惠凯告诉深环,“A/B实验更依赖数据计算分析的能力,数据以台为主,很早就以字节发芽,为我们做天秤座提供了很好的基础。”
有了数据建设的基础设施和工具,她用“循规蹈矩”这个词来形容天秤座的发展。
然而,字节跳动的产品很多,增长飞轮正在加速。在这种背景下,如何搭建通用平台?
er">
字节庞大的产品矩阵 图源:官网
事实上,中台和业务的多样性,本身是不冲突的。但难点在于,不同的产品,诉求千差万别。信息流产品、工具类产品、直播产品等,相应的A/B测试的实验场景不同。而且,在使用Libra之前,内部不同团队可能都有自研,或正在使用的A/B测试工具了,这又给Libra带来了新的挑战和竞争。
一步一步来。Libra的研发团队深入业务,去了解每个产品的技术形态,需要怎样的A/B工具接入;了解数据是如何流转的,而应对不同数据规模,Libra又应该如何做处理。
“我们尽量把其中共性的东西提炼出来,构建技术支撑,并把一些核心能力和场景梳理好;另一方面,针对业务的特殊需求,投入专人去做。”Libra研发人员子牧解释道。
不过众所周知,“中台”类型的工具如果得不到内部业务端的支持,最终就会沦为鸡肋。Libra能在字节里持续进化,离不开字节内部的高效协同。
苏嘉沐告诉「深响」,在使用过程中,遇到Libra难以解决的问题时,提出需求,研发会快速跟进。“假设我们在某个实验中,需要一个功能,是对特定用户分流,或者是,需要新增一个指标的显著性计算等等,我们都能迅速、直接地找到他们(研发团队)。”她说。
字节产品多,业务线庞大,A/B实验需求旺盛,但是通过双向的沟通,Libra成为了功能强大、场景覆盖广阔的测试平台。它能从统计学上比较科学地去解决用户分流的难题。在实验进程中,Libra提供了一个全面指标监控体系,使数据变化实时可追踪,帮助后续决策。
经受几十万次实验的打磨,Libra不仅积累了字节A/B测试的技术手段,也沉淀着对这一方法的认知。
## 需求来了
Libra在字节内部生根发芽,与此同时,商业世界,特别是互联网公司对于A/B测试的认知也在扩散。
国外科技巨头谷歌亚马逊、FB、Netflix等都是A/B测试的拥趸者。国内腾讯、阿里、百度、美团、滴滴等头部互联网公司也在积极采用这一增长方法。而一些中小创业公司看到了A/B测试的功效,正在试图用数据驱动的理念,让公司跑得更快、更稳。
这给了字节跳动把内部工具Libra外化的环境契机。
2017年,一些对字节技术非常认可的客户主动提出了需求。这些需求促使字节团队试水,输出了以A/B测试工具为核心的一系列数据分析工具。2019年,在初步尝试之后正式立项,字节开始决心做一个对外的A/B测试平台,让更多外部客户可以使用这个增长利器。
“本质的驱动点是,这个工具能服务内部,也有机会在外部市场上产生价值, ”子牧参与了A/B测试产品化的推动,他说,To
B的事情,团队也是从零开始,但是结合内部的经验和外部的市场预期,大家很有信心。
不过,虽然数据导向已是共识,科技公司对A/B测试的认知开始成熟,但是落到实际操作,A/B测试的应用依然不广泛。
究其原因,其一,A/B测试的时间、研发、资金投入成本高,对中小团队来说,为A/B测试做数据基建未必是一个高收益率的选择。其二,技术壁垒高,A/B测试原理简单,但在应用中,根据case的复杂程度,实验设计要求非常精细。若在分流、指标设计、统计和解读环节有漏洞,A/B测试只能说是事倍功半。市面上有独立的第三方A/B测试工具,但尚在分散状态,未见明显领军者。
字节的A/B测试工具是火山引擎在智能营销套件产品应用层的重要产品。面对上述痛点,这个工具希望为企业提供专业的分流能力、科学的统计算法与丰富的实验功能。
从内部工具到对外输出,这款工具的逻辑思路发生了微妙的变化。子牧用两个关键词――“化繁为简”、“从简单到丰富”――来概括这样的变化。
一方面要让这个A/B平台相比Libra更简单易用。
“早期孵化时期,我们多做减法,抽象精简,尽量降低门槛和用户成本,而非直接开放Libra。”他说。但外部市场的很多客户在A/B测试方面的技术投入和能力差距比较大,让用户先接触这个工具,有机会把它用好,是必须要走的一步。
另一方面是拓展到各个行业,以及在常用场景上做深度迭代,即“从简单到丰富”。
最初一批种子用户主要来自泛互联网行业,主打的诉求就是增长、增效。这是字节的优势场景,内部已有很多实践,头条、抖音等成功产品,经验和方法沉淀、体现在产品中。其实,有数字化转型诉求的传统行业,比如金融,也有A/B测试的需求,这要求实现跨行业通用的产品支持。并且,在广告、营销等有重点需求的场景,做更精细化的运营。
经过2019年一整年的内部孵化,2020年初,火山引擎的A/B测试工具已经开始了规模化尝试。
A/B测试是火山引擎智能数据产品中最强的单品之一。在整个火山引擎To
B架构应用层中,还形成了彼此强关联的产品体系,包括UBA、CDP、GMP等。它们通过数据分析和洞察――策略设置――实验上线验证――功能上线――效果再验证,这一整套完整的闭环全方位助力解决企业的增长困局。
种子用户的体验已经初步验证了上述思路。
比如预约出行服务平台悟空租车。租车出行场景里,不可缺少的环节之一是押金缴纳。押金缴纳有多种形式,如直接缴纳、第三方信用免押等。对于用户来说,在付款环节若无法使用信用进行免押,就必须同时支付一笔额外的数额较大的押金,增加的现金流成本会影响用户决策,这直接波及平台的成单率。
悟空租车团队希望找到一种方式,降低押金开销带来的对决策的负面影响,提升下单转化率。因此,团队通过火山引擎A/B测试产品,设计了一组实验:
* 对照组:现行支付流程,用户在下单页面需要同时支付租金与押金;
* 实验组:新方案,用户在订单支付完成后,再进入押金缴纳页。
悟空租车设计的A/B测试,新方案分离了押金缴纳页。
实验运行两周后,团队发现针对“最终下单完成”这一指标,实验组比对照组上升了7%。用真实数据说话,实验之后,悟空租车决定开放新方案给全量用户。
字节自身的经验赋予火山引擎A/B测试这一产品极大的优势。子牧认为,相较国内外其他A/B测试平台,目前从产品能力的完备性和实验场景的丰富度上来讲,火山引擎A/B产品毫不逊色。
这既包括实验基础的流程管控能力,也包含实验后的报告分析能力。背后依托是头条、抖音这些大数据规模场景下的验证。同时,内部很多成长中的业务,也为产品提供了高覆盖度。
ToB市场的客户需要的不仅是一个产品,还有方法来落地。“不仅在推进对接客户中,而且在后续的实验方法论培训、重难点分析支持、运维等方面,我们也提供服务。”他说。
我们回过头来看A/B测试本身,这绝非易事。很多时候,方法原理越是朴素,可延展性就越高。用慧开的话来说,对A/B测试,她经历了四个阶段:你并不知道自己不知道;知道自己不知道;我知道自己知道;我不知道自己知道。
最初接触A/B的时候,觉得实验分流、统计分析并不难实现,非常容易复刻。但是随着各项产品发展的速度,复杂棘手的问题频频出现,简单的方案无法满足业务需求,人的经验和对业务的深刻理解愈发重要,A/B测试背后那么多门道,她认识到“方法比功能更重要”。再往后,顺应业务发展,人也在迭代,摸清了一些规律,发现问题后能够更多维度去寻找解答。“更上一层,是我们要努力的方向吧,可以得心应手地用A/B测试去解决各种各样的问题。”
A/B测试工具是一个有力的把手,其延伸开来是火山引擎提供的整套的解决方案――基于字节跳动的成长理念,火山引擎将服务字节跳动从0到1、从1到N的能力与工具产品化输出的具象体现。
## 结语
其实说起来,“抖音”这个名字并不是A/B测试结果的第一名。
当时产品已有demo,但还未正式发布,于是团队把产品用不同的名字和logo包装,在应用市场商店做A/B测试,并且保证对方案们投入同样的预算,同样的位置以测出用户对名字的敏感度,吸引力程度,下载转化率等等。
“抖音”排名第二。团队讨论认为,相比第一名,“抖音”长期来说更符合认知,更能体现产品形态,于是采纳了这个名字。
A/B结果是为决策提供依据,最终做出判断的还是人。
苏嘉沐告诉「深响」,有一次团队对内容策略进行调整,按理说内容供给很重要,需要鼓励用户去发布内容提升平台丰富度。但A/B测试的结果却让团队犯了难――如果算法多给用户推荐可模仿的模板视频可以提高投稿率,但同时,过多的同质化视频会让用户整体消费的时长变短。
“在平台更多的内容输入和用户整体的消费体验之间,必须做出权衡。”苏嘉沐说:“这就还得回归到产品的价值观来做决定。「用户最终的使用黏性」成为这个案例里的评估尺度。”
A/B测试不是灵丹妙药。理解它的工具属性,或许是正确认知的第一步。
(以上采访对象为化名)