为什么95%工作室的游戏测试是缺乏意义的 ?

2025年7月31日,Supersonic from Unity 在上海外滩组织了一场开发者分享会。

几位分享嘉宾分别来自发行、策划、内容等一线岗位,在几小时内密集输出了多个不同角度的观察。

回顾过往,Supersonic 在今年2月迎来发行业务五周年。官网的里程碑文章显示,自2020年2月首款作品上线以来,旗下游戏已在全球取得超过66亿次下载(统计截至2025年7月),平均月活跃用户约1.9亿(统计数据截取自2024年1–10月)。

这一体量让 Supersonic 在2024年按下载量计算跻身全球移动游戏发行商前五。

更具含金量的是,其作品《Build a Queen》《Going Balls》《Bridge Race》同时占据2025年2月全球超休闲下载榜前十,印证了Supersonic在“多题材矩阵”打法上的领先效率。

对正在寻找确定性突破口的中国团队来说,Supersonic 五年的成绩单,不只是一串数字,更是一张清晰的路线图——验证速度+题材多元+变现深耕。

在 2025 年,Supersonic 将重点转向了如何做出内购占比超过 50% 的混合休闲游戏,并在解密、放置品类中积累起了成功经验。

而罗斯基在日常与从业者交流时注意到,在休闲游戏赛道竞争高度内卷、投放成本普遍抬升的当下,越来越多开发者都面临一种相似的困境:

投入了时间、人力和资源,做了三轮、五轮甚至十轮的测试,但数据始终提不上来;第一版跑出了一些希望,D1 留存刚过及格线,CPI 也还在勉强能接受的范围之内,但再往下就陷入了“越调越差”的循环,最后只能仓促收场。

看似是运气不好,实则是选题、验证、分析和迭代策略上的一连串偏差所致。

为了回应这些行业疑难问题,Supersonic 在这场分享中给出了不少底层逻辑。比如:

测试的“有意义”,不是指数据亮眼,而是能明确回答“值不值得继续投资源”;原型从一开始就要服务于最终发布版本,而不能只是“丢出去看一眼”的试探;IAP 和 IAA 从来不是对立关系,而是一种定价体系内的分流与锚点设计。

在这场分享中,罗斯基捕捉到了三个显著趋势:

其一,“爆款逻辑”正在让位于“矩阵逻辑”——发行商不再执着一击制胜,而是通过多题材并行与快速迭代平滑风险;其二,测试的核心作用已从“打磨数值”转向“加速停损”,敢于在首轮验证就砍掉方向不明的原型,才能把资源押注在真正有潜力的项目上;其三,IAA 与 IAP 正在同一条价格曲线两端形成互补。

Supersonic 的《Trash Tycoon》在优化后 IAP 占比飙升至 45% 仍保持超休闲留存水准,佐证了“广告驱动+付费深耕”双轮模型的商业可行性。

对国内中小团队而言,这意味着 2025 年的混合休闲竞争,比拼的不再是谁的创意最抓眼,而是谁能最快跑完“题材验证、受众分层、变现锚点”的三步闭环。

本文将基于分享内容,依次梳理每位讲者的拆解路径。结合实际项目案例、关键指标和投放逻辑,尝试回应当下开发者们的普遍痛点。

·原型到发布的四维度胜负手

在 Supersonic 担任资深产品发行经理的 Selina Shi 经手过大量项目,在她看来,测试真正的意义并不在于把某个 Demo 调得多完美,而在于尽早判断它有没有可能长成一个完整的产品,并尽可能地在立项阶段和迭代阶段就帮助原型覆盖应有的功能。

她提出了一套评估框架,覆盖原型阶段最关键的四个维度:趋势选择、受众画像、核心玩法和变现路径。只有这四个维度同时具备向下延展的空间,测试数据才有参考价值,才值得继续投入资源做迭代。

趋势是原型最早期的出发点,却也是最容易出错的一环。很多团队习惯于只从榜单找灵感,但榜单显示的有时只是结果,而非过程,需要进一步的拆解和分析。

Selina 同时建议从近 30 天的素材投放入手,拆解那些“看起来相似”的产品背后,究竟是哪类素材跑出了极低的 CPI,又是哪种题材最近反复出现在视频投放里。

她特别提到,Supersonic 内部也非常重视国内外的自媒体生态,B站、公众号、YouTube、Instagram 上的日更内容,往往反应更快,能提供比榜单更敏捷的方向感。像 Knit Out 和 Unravel Master 这种玩法其实并不新,但由于其素材表现足够抓眼,又能解释清楚基本操作逻辑,目标(Goal)、Action(操作)和输赢结果(Result)都非常清晰,反而成为过去几个月内最具投放效率的组合之一。

如果说趋势是“进场理由”,那受众画像就是决定你能走多远的变量。以 Supersonic 的数据为例,美国市场的下载量只占全球的 7.77%,但收入却高达 48.65%。

这意味着,如果你的产品最终希望依赖 IAP 收益,那你在美区的测试表现就是硬指标;反之,如果本身就是纯IAA模型,那就必须面向 CPI 更低的市场去验证转化能力。

不同地区的用户属性、广告观看习惯、内购倾向,都会直接影响玩法结构和变现设计,因此原型从一开始就要想清楚“做给谁看”。

同时,游戏内的“叙事”的作用也不容忽视:好的叙事不仅服务于游戏玩法,有助于获得更好的留存率和游戏时长,增加游戏受众粘度;将游戏叙事用于广告,表明:目标,矛盾/冲突,动作/玩法,成果/结果,对于降低投放素材 CPI、提高转化率、获取目标受众来说也大有裨益。

玩法部分,Selina 提出的核心判断标准是:是否具备量产关卡,同时构建可控的难度曲线变化,深化玩法策划和控制变现卡点的能力?

她以 Unravel Master 为例解释其原型立项逻辑。通过毛线元素的介入,让视觉表现更有吸引力和解压氛围,快速的操作反馈也更具有连贯性。这种融合不是纯粹的拼贴,而是要结合已有的玩法优势和难度曲线变化,促进留存曲线和变现效果的自然递进。

如果一个玩法只能撑5个关卡、节奏变化不明显,那哪怕测试数据看起来“还行”,也不建议继续投入开发。

最后是变现路径,往往是团队在测试阶段最容易忽略的部分。Selina 强调,变现策略应该在第一版测试素材上线之前就定好,是主打 IAA、IAP,还是走混合路线,会直接影响资源结构和引导方式。

在 Supersonic 最近的几个美区项目中,混变产品的 IAP 占比已从 20% 提升至接近 40%,这说明即使是广告主导型的游戏,只要系统设计合理,也完全可以撑起一定比例的内购收益。这部分能力,无法靠事后补丁实现,必须在最初就打好基础。

她在结尾时说,真正有意义的测试,不是为了看数据有多好,同时也要评估这个原型的内容、难度曲线和变现模式能不能走到最终版本。如果一开始就缺少结构性潜力且忽视相关功能的铺垫,那后面花的每一分钱,都可能只是“拖延失败的时间”。

Selina列举了近期发行的3款游戏的留存数据作为同类产品的借鉴目标:Screw Master 3D:Pin Puzzle,Park Match – Car Jam Puzzle 和Trash Tycoon – Idle business。

·放置游戏的立项生死线

在 Supersonic APAC 负责产品发行的 Daisy Chen,经手过的项目中相当一部分来自放置赛道。她分享 Supersonic 对于 ldle 游戏的立项的观点是,Idle 游戏立项要充分讨论,游戏要提供一些有新的体验。跳出传统大亨类/模拟经营类的框架,在框架之外寻找一些不同的刺激点和新鲜点。

很多团队做 Idle 原型时倾向于“先跑个题材看看”,但 Daisy 更建议开发者用四个核心要素来对照——题材包装、吸量机制、负反馈系统、玩法融合。她指出,这些模块一旦缺位,产品后续的数据调优就会越来越困难。

比如,有的项目虽然题材选得好、素材点明确,首日投放也跑出了低 CPI,但只要系统设计不够完整、资源投放没逻辑,玩家留存就无法维持在可扩展的水平。

她强调,放置项目的测试不只是验证第一轮素材效果,而是要从一开始就明确目标 KPI。她给出了 Supersonic 在迭代期的数据目标:CPI 低于 0.8 美元,首日留存高于 45%,第七日留存不低于 15%,而首日时长则要控制在 50 分钟以上。

这套标准看似严苛,但已经成为当前混合休闲市场中的“基本合格线”。

更重要的是,这套测试标准并不意味着要不断“精修 Demo”,恰恰相反,她建议团队要尽早做出砍案决策。

很多原型项目在首轮数据不达标之后,团队会习惯性选择“再修一版”“调一下节奏”“换个表现形式”,结果投入了数周时间,指标却依然没有突破。

在她看来,测试本质上是一种判别机制,而不是一种缓冲手段。做出放弃的决定,比做出优化的决定更重要。

当然,她也不是要否定放置赛道的机会。Daisy 指出,现在这个品类仍有不少可挖掘的细分方向,尤其是“硬核玩法的轻量包装”。

比如近期市场上出现的经营+战斗、塔防+自动推进、PVP 自动编队等产品,虽然系统结构并不新颖,但只要换一套视觉和叙事外壳,就能快速吸引不同用户群体。

这类产品的逻辑是以放置为壳、但背后隐藏更高留存与ARPU潜力的系统,这才是 Supersonic 真正关注的结构价值。

对 Daisy 来说,真正好的放置项目,在测试阶段就能看出未来三个月的可能性;看不出希望的原型,就该早点放下。

·休闲益智的优化边界在哪里?

在 Supersonic 担任游戏策划的 Felix Tian 经常会接到这样的问题:

某个项目的留存还不错,但 ARPU 不高,要不要再做一轮美术升级?广告收益不如预期,是不是该换几个广告位的布局?新版本上线后指标涨了一点,是继续推,还是先稳一稳?

在他看来,这些问题背后其实都指向同一件事:优化努力的边界在哪里?

Puzzle 类(休闲益智)游戏常被认为是“可控性强”“易于微调”的品类,但 Felix 认为,这类游戏反而最容易被优化陷阱困住。

因为系统轻、节奏稳,开发者总会觉得“多调一调也没坏处”。但他观察到很多案例,团队花了很大力气打磨前五关的节奏、素材、UI 和奖励曲线,测试数据确实提升了一点点,但成本投入与收益改善完全不成比例。

更糟的是,这类优化往往忽略了一个关键事实:真正决定收入表现的,并不是泛化体验,而是核心用户的转化路径。

这种“把子弹留给核心用户”的策略,是 Felix 推荐的休闲益智项目通行做法。他指出,现在的用户留存曲线高度集中,能真正带来 ARPU 跃升的,是少部分高参与玩家。优化应该为他们服务,而不是试图把所有人都留住。

他提到,针对特定品类的游戏,比如 puzzle 游戏,找到核心玩家群体,并针对核心玩家群体进行分层设计,对游戏数据的提升非常大。

Felix 列举了一个游戏的实际数据,当他们的某款游戏达到了 ARPU 首日达到 0.74 美元,三十日 ARPU 4.78 美元的数据时,他们开启使用玩家分层的游戏优化思路,并在此基础上期望额外 15%。

这个跳跃看似夸张,但背后依赖的并不是“加量”,而是“变精”。尤其是在内购机制和广告位布局上,是否能针对高价值用户设计出合理的体验路径,是决定游戏商业上限的关键。

在这场分享的最后,他用了一个很直白的说法:“在休闲益智项目里,不该做的努力比该做的还多。”这不是保守,而是一种务实。

在测试越来越贵、素材迭代越来越频繁的当下,开发者必须学会“先达标,再分层”,不必把所有用户都留下,只要留下该留下的那一部分人。

·混合休闲需要更深刻的产品理解

David Wang 是 Supersonic APAC 发行负责人,在混合休闲这一领域工作多年。他在分享中没有试图重新下一个标准定义,而是开门见山地指出:对混合休闲的理解,每六个月可能就得重做一遍。

在2023年初,Supersonic 曾用“IAA 加 IAP”来界定混合休闲;年底,团队更强调系统深度和用户留存的关系;而到了现在,他们更倾向于从一个更加底层的体验目标来看待这个问题——即:产品是否能持续提供有变现压力的新鲜体验。

这种转变背后的核心,是从“标签式归类”转向“产品体验本质”的判断。

基于这种认知转变,David 提出了当前阶段混合休闲团队更需要关注的几个关键词。

第一个是立项时更加全面思考。兼顾吸量能力与变现潜力。这个是之前开发者相对比较熟悉的思路。切记不能在第一步测试原型阶段就瘸腿走路,后续想要补救非常困难。很多开发者求快的时候会容易忽略这一点,想着以后再去想吸量和变现如何解决,导致原型测试缺乏完整的意义。

第二个是融合新的体验。游戏行业永远面临着“娱乐通货膨胀”。用相同的体验是无法打动玩家的,不管做什么游戏,新鲜的体验是必须的。

Supersonic 内部推荐开发者在所有游戏中考虑增加直接的游戏内挑战,比如难度很高的关卡、实际的损失、对战胜败等。这些挑战一方面有利于放置等成熟品类做出革新,另一方面有利于指导解密等类型游戏的难度曲线设计。只有游戏核心循环中有实际、绕不过去的挑战,才能让游戏内付费是有动力的。

第三个是拆分用户体验。许多开发者在看数据时只关注整体百分比,却忽略了广告型用户和内购型用户在行为路径上的显著区别。

比如有些游戏的三日留存虽然达到 25%,但其中内购用户几乎全部在首日流失;也有产品整体留存平平,但广告转化曲线极稳。这种结构信息才是真正决定产品模型可持续性的关键,因此 Supersonic 内部现在更强调“指标颗粒度”而非平均值。

在不同的纬度区分不同的用户,比如难度纬度、付费纬度。为不同的用户设计不同的体验,才能有的放矢的精准优化游戏数据,分析测试结果,最终有效的提升游戏数据。

他在分享的最后特别强调,不要过早给项目贴上“我是 IAA”或“我是混合”的标签。更重要的是去拆指标,看结构,看节奏,看 ROI。

混合休闲不是一个固定模型,而是一个围绕变现目标的动态适配过程。正因为市场与素材变化如此之快,才更需要发行团队具备一套持续分析与判断的能力。

如果一个游戏在测试时无法回答清楚“变现靠什么”“节奏怎么设计”“用户怎么看完素材之后会怎么玩”,那无论它自称是混合还是纯休闲,最终结果可能都是一样的。

·IAA 与 IAP 如何共赢

Omri Grinberg 是 Supersonic 总部的产品管理总监,也是一位深度参游戏设计的实战派。他过去主导过《Coin Master》的立项与迭代以及《Family Island》、《Travel Town》的收购与调优,在多款明星产品的迭代、增长过程中掌握了大量极具价值的产品经验。

在这次分享中,他试图打破一个普遍误解:激励视频广告(IAA)和内购(IAP)并不是对立的,而是可以互相强化的收入结构。

Omri 开门见山地指出,很多开发者在面对变现设计时,往往会陷入一个二选一的逻辑:要么主打 IAP,提供高价值付费路径;要么放弃付费期待,靠 IAA 拉 ARPU。

但 Supersonic 的长期数据显示,在表现良好的混合产品中,付费玩家和广告用户之间并不存在明显的冲突关系。相反,付费用户中仍有 60%–70% 的人会选择观看激励广告,只要广告提供的是与付费不同类型的价值。

这种“价值差异化”是构建双轮驱动的核心。Omri 举了一个常见的对比逻辑:激励广告一般用于“短程功能”——比如快速复活、临时加速、每日限量资源补充;而 IAP 则承担“长效体验”——解锁新玩法、跳跃进度、提供稀有资源。

如果把这两者的作用区域清晰划开,广告反而能成为引导用户走向付费的预体验机制。玩家在广告中尝到的便利,往往会促使他们购买更高阶的 IAP 包,这在投放数据中已被反复验证。

他还提醒团队,激励广告的收益并不只是出现在“播放本身”。

通过设置冷却时间、次数限制、资源上限等参数,可以精细地调控广告观看频率,既保证体验感,也能拉高 eCPM。同时,这种设限机制还可以作为一种“对比锚点”,间接推动用户转向 IAP。比如常见的免广告礼包、跳关功能,就依赖这种结构设计来提高转化效率。

在投放层面,Omri 强调了“渠道人群匹配”的重要性。不同的广告平台和投放创意,带来的用户结构截然不同。开发者需要明确区分:哪些素材和渠道吸引来的是喜欢“看广告就好”的用户,哪些更倾向于付费升级。

很多变现问题,其实不是游戏机制不合理,而是 UA 端口没有与变现模型做匹配。

他也坦言,现阶段不少中小开发者仍然低估了 IAA 的长期价值——尤其是在海外市场,激励广告的生态远比国内成熟,甚至不少用户会“期待”广告带来的奖励作为常规体验的一部分。这种行为基础,反过来也让开发者有更大空间做变现策略上的分层安排。

在结尾,他强调一点:真正高效的变现系统,从来都不是靠一个机制撑起来的,而是建立在“结构理解”和“精细调配”上的协同逻辑。

如果团队能从第一天起就把 IAA 与 IAP 放在同一个框架内设计,它们的收益不会彼此抵消,只会彼此成就。

·测试要有意义,先要问三个问题

所谓“有意义的测试”,从来不是一个单一指标的达成,而是一个结构性决策过程——它必须建立在完整的判断维度上,并指向产品的真正可能性。不是为了调得更好,而是为了知道“值不值得继续做”。

对当下多数走混合休闲路线的中小团队而言,测试成本越来越高,留给反复试错的空间越来越少。

如何在项目初期就判断这条路有没有跑通的希望,Supersonic 给出了不少实操经验。而将这些方法凝结成通用性更强的思维框架,罗斯基认为大致可以归结为三个核心问题:

第一,这个题材在当前市场结构中是否存在结构性优势?

不是热不热门的问题,而是是否具备低 CPI 的素材表达能力,是否能在主力投放平台上跑出吸量表现。如果答案是否定的,就算玩法再完整,做下去也只是延长失败。

第二,这个原型是否具备扩展成“完整产品”的潜力?

玩法融合是否具备节奏层级?系统是否支持分层?资源机制能否撑起变现模型?这些能力不是靠后期补全解决的,而是必须在原型阶段就有所体现。如果没有,那早期的好数据只是一种错觉。

第三,这个测试是否能帮助我们做出“继续 or 放弃”的决策?

真正的测试是为判断力服务的,而不是为安慰团队士气做数字装饰。Selina 所说的“停损门槛”,Daisy 提到的“该放就放”,以及 Felix 分享的“把子弹留给高价值用户”,背后都是同一个态度:测试的目的,是做决策,不是博侥幸。

在罗斯基看来,这三点其实构成了当下中小开发者在立项与验证阶段最核心的行动清单:

用可观察的数据判断题材方向,用结构性的模型拆解原型构成,用实际可比的目标指导迭代路径。

只有这样,测试才能成为推动产品演化的加速器,而不是一个不断消耗时间与资源的迷宫。

真正好的测试,一定是在你决定继续之前,先清楚地告诉你,哪些项目该放弃。

了解更多关注罗斯基公众号

您可能还喜欢...