火山引擎产品总监宋鼎：做好精细优化运营这些出海手游爆款都是如何用A/B测试磨出来的

火山引擎数据中台AB测试产品总监宋鼎受邀参会，他从研发到制作人，12年游戏行业从业经历，从产品使用分析到广告监测，从广告投放到AB测试，负责过字节多款大数据产品，经验丰富。本次将以《无限进化的游戏—A/B测试》为题，分享如何深耕产品，让游戏立足海外。

9月8日，由扬帆出海主办的「PAGC2021产品与增长大会」在深圳拉开帷幕。本次大会邀请了游戏、电商、社交、应用等行业领域的多位大咖，共同讨论在后疫情时代背景下的互联网出海，助力中国企业走出国门，布局海外。

而在9月9日的APP分论坛中，火山引擎数据中台AB测试产品总监宋鼎受邀参会，他从研发到制作人，12年游戏行业从业经历，从产品使用分析到广告监测，从广告投放到AB测试，负责过字节多款大数据产品，经验丰富。本次将以《无限进化的游戏—A/B测试》为题，分享如何深耕产品，让游戏立足海外。

以下为现场实录：

宋鼎：大家下午好，我简单介绍一下，我叫宋鼎，现在在火山引擎数据中台做一些微小的工作。

因为我自己也算是在游戏行业摸爬滚打过十几年，这十几年中从最早的KJava到现在的UE4，游戏的品质在不断提升，游戏的玩家也在随之变化，在这个过程中我们研发运营也要做一些调整，做一些适应。我今天分享的题目叫无限进化的游戏，讲讲A/B测试在这个过程中起到哪些作用。

首先我这里提了一个命题叫游戏行业现在是红海一片，精细化才是方舟，出海是我们的方向，为什么这么说？我们先看一些数据，在2020年，全年版号只有1400多个通过，而同时我们会发现光有渠道统计的游戏厂商就有超过5千多家，多如牛毛，而且经过这么多年的教育，玩家对游戏的品质要求是越来越高，整个行业的精细化程度在整体的提升，而同时，现在游戏行业头部的集中度非常高，高到什么程度？高到top一千的游戏当中，前三的收入占到20%，高到前三款和尾部的900款收入规模是相当的，而且这个过程中整个流量的成本，买量获客的成本在逐年提升，所以我们发现整体行业现在毛利率10%不到，这个非常低，甚至不如一些传统行业，游戏行业会有，但是接下来会更难。

但是同时我们会发现，2020年整个中国的游戏收入2700多亿，增长了20%，这个增长速度还是相当可观的，尤其自研出海的收入1千亿左右，整体增长33%，而且自研式游戏在全球的份额中只占到8.8%，未来的空间还很大，所以我们得出刚才第一个结论，就是精细化是方舟，出海是我们的方向，而如何做这样的精细化？做事要有策略，分析要有章程，我们需要增加科学的方法，那什么是科学的方法？

我们需要理解玩家，去做精准优化，去做持续增长。首先我们在做游戏数据分析过程中发现了问题，我们去尝试解决优化，去制定对应的优化策略出来，但这个过程中有一个关键的环节就是方法验证，我们不拍脑袋决策，我们觉得原因可能在这，我们去做科学的验证。因为一个没有经过科学验证的策略上线之后可能会出现反复，也许带来的是增长，也许带来的是负向损失，我们是希望我们的每一个步骤都是通往增长之道，而不是出现反复，所以A/B能帮我们解决这个点。通过科学先验后再根据结果决策上线，跟踪数据寻找可优化点进行原因分析，方案制定，继续科学验证，达到一个科学的循环，持续的增长。

因为每一款游戏都是我们游戏开发厂商用心孵化的孩子，我们也看一下别人家的孩子是怎么做的，怎么通过A/B测试工具给自己的游戏做持续增长。

我们这边举了几个案例，首先这是在美术设计环节的一个A/B测试，我们发现左边这是一个蓝色的风格，右边是一个黑色的风格，整体评估看蓝色的风格可能亲和力好一些，但是黑色底酷炫一些，我们自己判断左边会好一点，但是我们没有草率的下决定，我们通过A/B测试做了一次验证，我们把左边作为我们的对照组，右边作为验证组，结果很惊喜的发现，其实并不如当初所想的一样。之后我们发现实验组在留存上面都有一些提升，而且在人均时长上面，在广告点击次数上面都有不错的提升，所以这当时很出乎我们的意料，我们当时觉得黑色看起来很单调，不如蓝色看起来更有亲和力，但是数据说话，避免了我们一些鲁莽的决策，带来数据的增长。

我们再看第二个实验，这是一个入口设定的实验，这个游戏大家可能比较熟悉，是一个球跳塔类的游戏，当时上线之后我们做了一些简单的分析，右边是我们的合成球页面，做了一些运营的小设计，整个游戏的过程中我们可以选这么一个小球，做一些合成，做一些道具，结果发现有的合成行为的玩家留存明显高于整体的玩家，所以我们当时就做了一个大胆的设想，我们可不可以把合成球页面做成整个游戏的入口，当时觉得应该是不错的，但是心里也没底，A/B实验就可以帮我们得出这样的底气，左边是我们的对照组，右边是我们的实验组，我们看一下它的留存，人均时长，看它的广告点击次数，结果我们发现，确实就和刚开始预期的一样，通过合成球页面作为入口，我们看到人均广告展示次数、留存上面都有不错的表现，所以坚定了我们把合成球页面作为游戏入口的想法。

再看一个例子，这是一个射击类的游戏，这类射击类游戏最大的问题是说如果游戏挑战难度太难了，用户其实体验并不好，黏性会比较弱。但是如果难度太低，用户觉得没有挑战，所以什么样一个难度参数是合适的？我们不知道，而经过一段时间运营，我们当时初步设想我们的难度应该做适当的增强，在每一关的时候我们增加一到两个boss，在小的僵尸死后马上有新的僵尸补充过来，在我们内部觉得这个应该很不错的，但是我们还是做了A/B实验，左边是我们的实验组，增加了难度，增加两个boss，小僵尸死了马上复活，右边是全部僵尸死亡之后才能补充新的，结果数据并不如预期，我们增加难度之后数据并不好。而相反，我们发现普通难度的在人均启动次数上比更高难度的组高了34%，而且在次留和三留上面都相对较高，这个超出了我们的意料，A/B测试的魅力就在这，验证了我们很多的想法，同时也推翻我们很多的想法，这样我们每一步的步骤都有很好的洞察，所以可以通过这样的数据帮助我们做决策判断。

如果我们自己想做A/B，我们需要一个专业工具，工欲善其事必先利其器，在产品增长领域，所谓的科学其实无外乎遵照科学的方法，依托专业的工具，并没有什么很神奇的特效药，所以很简单，我们遵照这些方法，刚才说的理论，依照我们的工具。所以这里介绍一下火山引擎推出的A/B测试平台工具，如何帮我们实现刚才的游戏精准增长。

在不同的环节我们的A/B测试平台都能提供对应的价值，首先在精准获客的环节，我们的A/B测试平台可以帮我们的客户做渠道质量的评估，可以做广告投放策略的评估分享裂变机制的评估，同时在新客激活的阶段我们也可以做落地页效果的评估、新客户激励体系的新手转化通道的评估，同时在老客留存的阶段可以帮我们做流量内向增长，帮我们评估单个功能或功能矩阵矩阵的优劣，当然下面我们拆分很多实验的能力，下面我们具体讲一下。

我们都通过什么样的能力来支持呢？我们现在火山引擎支持六种A/B测试模版，第一种是广告营销实验，因为广告其实本身就是一个A/B的过程，投广告的过程就是寻找最佳组合的过程，我们现在可以支持不同素材，不同的人群定向，不同的出价，帮助客户找出最优解，在可视化建站环节，无需研发，在多链接的网页实验中，我们可以验证同一网站或者落地页入口情况下不同内容表现最佳方案，同时还可以提供客户端实验和服务端编程实验，支持前端交互的优化，系统功能的优化，也支持ios、安卓、web、小程序等多平台，在服务端我们支持多种语言，像java、php等，另外我们也支持个性化推送实验，去验证不同的文案，不同的推送时机等，而且我们现在打通了像极光、个推三方推送平台，也支持苹果的APNs、android的FCM等，同时如果有一些自有的触达通道我们也可以用webhook这样的方式去对接。

我们具体来看一下这个实验怎么做，第一个是广告，之前做过一个统计，我们会发现在广告投放过程中高频是三个变量，创意、人群、出价，所以所谓广告实验，通过科学的方法打通前后链路，就是属于广告数据以及我们的行为数据，找出最佳选择，节约时间和试错成本。在创意素材环节我们其实支持像图片、视频、文案、广告位、落地页等参数变量，在我们的人群定向环节，我们支持BMP人群包，也支持系统画像，比如人群画像，像性别、年龄、地域等、也可以支持消费偏好、消费能力作为他的变量，同时在预算出价环节我们会可以评估不同的出价，不同的投放方式，不同的投放时间，不同的转化目标，这是目前我们广告的营销实验的部分。

在可视化阶段，我们经常会有一些文案编辑、图片更替、颜色对比、字体大小、背景图案、布局位置、新增元素等一些验证项，这个过程中我们可能需要更快、更便捷的响应方式，投屏中的案例是我们自己官网的主页，当时我们想去改slogan，在可视化实验上工具上进行编辑，是很简单的事情，非常便捷。

下面是我们的多链接实验，因为我们经常会有一些官网、着陆页有大的改版，我们按照统一的入口，用户进来之后，根据我们分流的策略，重定向到不同的页面，同时验证它后面的数据，看他的停留，看到底哪个落地页的效果更好。右边是我们当时火山引擎做的火种计划的官网的宣传页，当时自己主观觉得上面的图可能看起来更科技化一点，更酷炫一点，下面的图看起来似乎土了一些，但是实际上通过AB实验的数据来看，下面的转化流程在一些情况下更好一些，所以有时候A/B测试往往会给我们带来意外的惊喜，发现原来想法不一定是对的。

同时我们介绍一下服务端实验和客户端实验，我们把这两种实验称之为万能实验，因为在这个过程中我们既可以通过服务端去控制生效实验，比如推荐的算法或者服务器开关等，客户端实验也可以去控制客户端UI的样式、交互的功能设计等app唤起，以及比如我们接了SDK，接了一些新玩法都可以通过客户端实现。

同时整个操作过程非常便捷，基本上我们的可视化平台上进行一个输入，制定参数、类型，参数的名称都可以进行设定，只需要研发人员在代码中进行响应的判断就可以完成这个过程。而且我们还提供长时运行提醒，实验报告我们也会有邮件，定时发送这样的报告，非常便捷。

（图）关联Feature

这是我们推送运营实验，这里我们举个例子，在游戏过程中，比如我们发现用户连续闯关4次失败就会流失，我们得到这个结论的时候我们假设用户在闯关4次失败的时候，我们马上推送一个复活卡，一个闯关道具，是不是就可以避免流失，就可以通过我们AB推送实验来先验，因为我们并不是只支持传统的红点推送，也支持应用内通道，我们就可以在代码中去响应，下发一些复活道具等一些响应方式。同时我们平台支持了很多第三方平台，如果我们已经使用了极光这些三方平台，可以节省成本。我们可以在推送标题、推送的内容、推送的时机、推送的受众等维度进行测试实验，受众我们可以通过设定，比如对当前北上广深的用户做这个实验，或者对女性做这样的实验，都可以通过这个平台实现。同时推送通道、落地页、提醒方式都可以是我们实验可作为变量的一部分。

（图）对照版本

业内也有一些公司自己做了一部分AB的工具开发，可能都会发现一些问题，A/B实验最大的问题是什么呢？我们跑出来了这个报告之后我们自己信不信的问题，因为我们之前也了解过很多客户他们自己做了AB平台有这样的困扰，经过分流，也经过计算跑出的实验报告，但是放量之后还能不能跑出这样的结果，他们心里没有底，其实我们自己也在这9年做AB的过程中，也趟过这些坑，怎么解决？我们公司内部成立了一个数据科学的团队，通过数学模型的方式来解决这样的问题。

比如我们可能会遇到一些新上线的模块，刚上线的时候用户觉得很新鲜，觉得还不错，但是跑了七八天之后，用户对模块有所了解之后，新鲜度下降，数据很快下降。同时也会出现这样的情况，有些模块因为前期的露出或者精准引导做的还不够，这会导致什么呢？导致一开始的数据并不好，但是跑了七八天或者十几天之后，数据很快提升，这也会导致我们的A/B实验，之前跑出来实验结果了，后期放量或者说长期和我们预期不一样，所以这个过程中我们提供我们自己的经验积累，比如我们会提供MDE值，提供波动修正、统计学分析，解决刚才的不同时间段对产品理解不异样，同时我们提供分时趋势、累积趋势等等一些关键的指标，核心只有一个，让我们当前做的实验和经过放量之后真实表现是一致的，这是非常关键的点。

总结一下，因为A/B测试是在字节成立之初的时候我们就创立这么一个产品，在过程中我们大概累计的实验大概80W+，日新增的实验是1500+，同时运行的实验是1W+，而且字节所有的业务线都在这个平台，所以同时支持的业务线是500多个，所以我们可以比较自豪的讲，A/B测试平台是我们一个内而优则外的能力，因为我们趟过很多坑，做过很多的验证，因为字节在外面也有一些声音，中间也有人会问我们有没有什么窍门？其实没什么窍门，只不过我们有一些科学的方法，一些专业的工具，并且不断把方法沉淀在工具上，让这个工具更专业。