A/B EXPERIMENT · 系统性分析

创作 Tab 的 Feeds 流接入推荐实验分析报告

实验 ID:exp_create_tab_recommendation_01 · 数据周期:2026-06-18 ~ 2026-06-30(13 天)
对照组:人工配置 | 实验组:①质量分 ②质量分+新模板保量 ③质量分+新模板保量+打散

00实验背景

创作 Tab 的模板池已达 ~2000 个、周新增 ~200 个,日渗透约 60 万 UV,但线上一直依赖运营按上架时间/数据手工排序——颗粒度粗、无法规模化、新模板易被淹没。本实验(对应需求「2605 创作 Tab 模板标签接入 & 规则排序方案」)旨在用现有「模板质量分」实现自动化排序,并叠加两项机制:①新模板强插保量(上架 72h 内保底 1000 次曝光);②多样性打散(基于 TEG 一/二/三级类目 + 兴趣 tag 做客户端滑窗打散,避免相似模板聚集)。

本次不涉及个性化推荐,但按个推架构设计以便后续迭代(个性化排序 / 标签升级 / 差异化保量等)。三个实验组即对应上述机制的递进叠加,以拆解各机制的独立增量贡献。

模板池规模
~2000 个
周新增 ~200 个
创作 Tab 日渗透
~60 万 UV
流量基本盘
原排序方式
人工手排
按上架时间 / 数据
本次目标
规则化排序
质量分+保量+打散

01核心结论(TL;DR)

一句话结论:规则化推荐排序带来清晰、可量化的正向收益——从「模板点击→发送转化」到下游「人均使用/生成/曝光」全链路指标齐涨,且大盘留存零损耗。三版本中「质量分+新模板保量+打散」综合收益最全、副作用最小,建议作为放量版本。唯一代价是同屏 AI 生图入口被分流(-2.8%~-4.6%),属注意力再分配的良性副产品。

✅ 实验收益清单(按收益强度排序)

  • ① 模板点击发送 uvCTR:+5.09%~+6.36%(三版本全部正向显著) —— 最核心、最扎实的收益。用户点击模板后真正拿去发送/使用的转化质量全线提升,是整条链路的价值支点。
  • ② 人均模板使用次数:+9.52%~+15.06%(打散版 +14.86% 正向显著) —— 用户消费模板的频次明显抬升,直接对应 PRD 核心指标「人均生成次数」。
  • ③ 人均模板类型生成个数:+9.01%~+12.33%(打散版 +12.00% 正向显著) —— 不仅用得多,且尝试的模板类型更丰富,消费深度与广度同步提升。
  • ④ 人均模板曝光次数:+1.31%~+3.41%(打散版 +3.41% 最高) —— 单用户看到的模板量增加,供给侧曝光效率提升,对应 PRD 核心指标「人均曝光模板数」。
  • ⑤ 整体创作 Tab 功能次留:+1.85%~+4.95%(打散版 +4.95% 最高) —— 消费提升开始向短期留存传导,功能黏性正向。
  • ⑥ 模板曝光点击 uvCTR:+0.34%~+0.63%(质量分/打散正向) —— 曝光到点击环节小幅改善。
  • ⑦ 创作 Tab 底部按钮点击 uvCTR:+0.11%~+0.29%(三版本均正向) —— 页面内其他交互同步小幅受益。
  • ⑧ prompt 渗透 / 人均活跃天:基本持平、无负向 —— 未见任何侵蚀。

注:②③④⑤⑦ 在大盘为「正向但未全部显著」,打散版普遍最优且多项转显著;分人群下钻中,男性、中老年(41+)人群收益更强更显著(详见 §04/§05)。

数据速览

模板点击发送 uvCTR
+5.1%~+6.4%
三版本全部正向显著 ✅ 核心收益
人均模板使用次数
+9.5%~+15%
打散版显著,另两版趋势正向
人均类型生成个数
+9%~+12.3%
打散版显著,消费深度↑
人均模板曝光次数
+1.3%~+3.4%
曝光效率提升
整体创作Tab 次留
+1.9%~+4.9%
向留存正向传导
大盘 DAU 次留/7留
±0.1% 内
无损 ✅ 大盘中性
模板曝光点击 uvCTR
+0.3%~+0.6%
小幅改善
AI 生图入口 uvCTR
-2.8%~-4.6%
唯一代价 ⚠️ 打散版最轻

01+实验数据结论(速报版)

本次实验数据结论:质量分 + 新模板保量 + 打散」(完整方案)效果最优,核心转化收益显著且副作用最小,建议推全此策略。三个实验组相对对照组(人工排序)的核心指标 diff 如下:

1、质量分 + 保量 + 打散 vs 人工排序:模板点击发送 CTR +5.16%(显著),人均模板使用次数 +14.86%(显著),人均类型生成个数 +12.00%(显著),人均模板曝光次数 +3.41%,整体次留 +4.95%,大盘留存无损。结论:完整方案最优,建议推全

2、质量分 + 保量 vs 人工排序:模板点击发送 CTR +5.09%(显著),人均模板使用次数 +9.52%,人均类型生成个数 +9.01%,人均模板曝光次数 +1.31%,整体次留 +1.85%。结论:质量分 + 保量 ok,收益成立但幅度低于完整方案

3、质量分 vs 人工排序:模板点击发送 CTR +6.36%(显著),人均模板使用次数 +15.06%,人均类型生成个数 +12.33%,人均模板曝光次数 +1.93%,整体次留 +4.66%。结论:质量分基础排序 ok,转化收益已显著;但 AI 生图入口负向最重(-4.61%)

实验详情

收益总结

实验指标(相对对照组)

大盘(全体用户)

分人群下钻

数据分析

推荐排序未大幅改变「看到→点击」环节,而是显著提升「点击后真正使用/发送」的转化质量,说明推荐把更贴合用户意图的模板排到了前面,从而带动使用/生成/曝光全链路上行;代价仅为同屏 AI 生图入口的注意力被分流,属良性再分配。三版本中完整方案(质量分+保量+打散)收益最全、AI 生图入口副作用最小、banner 转正,风险收益比最优,建议推全,并开启 3% 贯穿层长期反转实验回收长期收益与疑似副作用(详见 §07)。

02实验设计与口径

在创作 Tab 的 Feeds 流引入推荐排序,验证「推荐 vs 人工配置」对模板消费与用户留存的影响。实验组沿三个递进方向叠加策略。

组别策略相对对照的核心变化
对照组人工排序运营按上架时间 / 数据手工排布(线上基线)
实验组①质量分倒序全量模板按质量分(保存率/分享率/CTR/生成量加权)倒序,小时级更新,缺失分按 50 分位兜底
实验组②质量分 + 新模板强插保量在质量分基础上,每 4 个坑位的第 4 个从待保量池强插新模板,保障上架 72h 内 ≥1000 次曝光
实验组③质量分 + 保量 + 多样性打散
(完整方案)
再叠加 TEG 类目/兴趣 tag 滑窗打散(4 坑同三级≤2、8 坑同三级≤4/同二级≤5),避免相似模板聚集

排序优先级:Pro 后台运营强插(最高)> 打散 > 保量强插 > 质量分基础排序。分流方式为 DAU 分流,各组流量 5%→25% 逐步放大以加速指标显著。PRD 核心指标为人均生成次数、人均曝光模板数(去重)。

本报告共分析 23 个大盘指标,覆盖「渗透 / 曝光点击 / 使用生成 / 留存 / 大盘稳定性 / 入口分流」六类;并按年龄(9 段)性别(男/女/未知)做下钻。显著性以平台统计检验(正向显著 / 负向显著 / 不显著)为准。

03大盘(概况)表现

✅ 正向收益:转化漏斗被显著改善

指标质量分+保量+打散结论
模板点击发送 uvCTR+6.36% 显著+5.09% 显著+5.16% 显著核心漏斗全线打赢
人均模板使用次数+15.06%+9.52%+14.86% 显著打散版显著,质/保量正向不显著
人均模板类型生成个数+12.33%+9.01%+12.00% 显著同上,消费深度提升
模板曝光点击 uvCTR+0.63%-0.07%+0.34%曝光→点击基本持平

解读:推荐排序并未大幅改变「看到模板→点击」这一步(曝光点击 CTR 持平),但显著提升了「点击后真正拿去发送/使用」的转化质量——说明推荐把更贴合用户意图的模板排到了前面,从而带动人均使用/生成量上行。这是本实验最扎实的正向信号。

⚠️ 主要代价:AI 生图入口被分流

指标质量分+保量+打散结论
创作 tab AI 生图入口曝光点击 uvCTR-4.61% 显著-3.09% 显著-2.84% 显著三版本全部负向显著
banner 模块曝光点击 uvCTR-2.37%-2.44%+0.43%打散版把 banner 拉回正向
注意力零和效应:Feeds 流模板消费变强,直接挤占了同屏其他入口(AI 生图、banner)的点击。这是「推荐做对了」的副产品而非 bug——但需评估 AI 生图入口的战略权重。关键优势:③打散版的负向幅度最小(-2.84%),且把 banner 点击拉回正向,说明多样性打散在保住核心收益的同时缓解了入口挤压。

大盘稳定性:无损

DAU 次留 / 第 7 日留存 / 人均活跃天 / 人均发消息天 / 人均复制次数等大盘健康指标,三版本相对差异均在 ±0.1% 以内且全部不显著——推荐策略没有伤害大盘留存与活跃,属于「局部增益、大盘中性」的健康形态。

04年龄下钻分析

核心收益指标「模板点击发送 uvCTR」在几乎所有年龄段都是正向,且越是中老年群体(41 岁以上)收益越大

模板点击发送 uvCTR × 年龄(相对对照)

年龄段对照基线质量分+保量+打散
18 岁及以下0.514+8.45% +5.70% +5.28%
19-24 岁0.532+1.92%+1.04%+2.17%
25-30 岁0.531+7.38% +5.62% +5.05%
31-35 岁0.522+5.52% +2.57%+3.04%
36-40 岁0.500+3.97%+6.18% +3.83%
41-45 岁0.450+9.18% +9.10% +7.66%
46-50 岁0.430+6.81% +4.91%+5.83%
51 岁及以上0.399+8.30% +5.46% +7.76%
关键洞察:①对照组基线 CTR 随年龄下降(0.51→0.40),说明中老年用户原本更难在人工配置下找到合适模板;②推荐策略恰好在这些人群带来最大提升(41-45 岁、51+ 三版本齐显著)。推荐对「长尾/弱表达用户」的帮助最大,这是极有价值的结构性收益。

留存类下钻:极端值多为小样本噪声

年龄下钻中出现的几个「负向显著」需要谨慎剔除小样本噪声

  • DAU次留(新用户) · 51岁+ · -64%次留 · 18岁以下 · +32%7留 · 19-24岁 · -39% 等:多数出自分子分母极小的子样本(如 8/26、7/30、238/2.56K),单日波动即可造成大幅相对差异,不构成稳定结论
  • 对应大盘留存全部不显著,可佐证这些是随机波动而非策略真实伤害

建议:下钻留存结论应设置最小样本量门槛(如分母 ≥ 数千),否则易误判。

05性别下钻分析

收益在男性用户上更强更稳,女性以小幅正向为主。

模板点击发送 CTR · 男
+8.2%~+9.6%
三版本全部正向显著 ✅
模板点击发送 CTR · 女
+1.9%~+3.6%
质量分/打散显著,幅度较小
整体次留 · 男
+6.2%~+6.3%
质量分/打散正向显著 ✅
指标 / 人群质量分+保量+打散
模板点击发送 CTR · 男(基线 0.419)+9.61% +8.81% +8.18%
模板点击发送 CTR · 女(基线 0.543)+3.56% +1.86%+2.36%
整体创作 tab 次留 · 男+6.34% +2.88%+6.19%
人均模板使用次数 · 男+14.16%+12.67%+18.84%
人均模板使用次数 · 女(基线 2.98,样本≈3.15K 人)+15.05%+1.10%+11.23%
整体创作 tab 7 留 · 女(样本≈4.18K 人)-12.9%-20.9% -20.6%
解读:①男性基线 CTR 更低(0.419 vs 女 0.543),推荐带来的提升空间更大、效果更强,与年龄结论「帮助弱表达用户」一致;②男性次留同步正向显著,说明消费提升传导到了留存;③女性「创作 Tab 功能 7 留」在「+保量」「+打散」两组负向显著(-20.9% / -20.6%),质量分组不显著(-12.9%)——但该口径分母仅约 4.1K 人(358/4.18K 量级),是所有留存口径中样本最小的;而女性大盘 DAU 次留/7 留(百万级样本)三组全部无损(±0.1% 内)。大概率为小样本+短周期波动,需按下方方法复核确认。

专项:「整体创作 Tab 7 留 · 女」为何负向显著

这是本实验唯一在女性人群上出现的负向显著信号(+保量 -20.9%、+打散 -20.6%,质量分 -12.9% 不显著),有必要拆解其成因,判断是「真副作用」还是「统计假象」。

先看这条指标在各口径下的表现(女性):

留存口径 · 女样本量(分子/分母)质量分+保量+打散判定
大盘 DAU 次留≈352万/673万+0.03%+0.01%+0.03%✅ 无损
大盘 DAU 第7日留存≈83.7万/181万-0.08%+0.00%-0.06%✅ 无损
创作Tab功能 次留≈1.77K/13.75K-1.0%-5.4%-2.8%不显著
创作Tab功能 3留≈999/10.47K-0.5%-9.4%-7.2%不显著
创作Tab功能 7留≈358/4.18K-12.9%-20.9% -20.6% ⚠️ 唯一负向显著

负向的四类可能原因

  • ① 小样本统计噪声(最可能):7 留分母仅约 4.18K 人(留存分子仅 358 人),是所有口径里样本最小的。留存率本身低(8.6%),少数用户的进出就能造成 ±20% 的相对波动。对照佐证:同一批女性的大盘留存(百万级样本)三组全部无损——若推荐真伤留存,大盘不该毫无反应。
  • ② 短观察窗放大偏差:数据周期仅 6/18–6/30(13 天),能满 7 天的用户本就少且集中在实验前半段,样本进一步被压缩,随机性更强。7 留是所有留存口径中最晚成熟、最易受周期切割影响的。
  • ③ 幸存者/构成偏差:推荐让更多「低意图女性用户」也点开并使用了模板(模板消费面变宽),这批本就留存倾向较低的用户被纳入创作 Tab 功能留存的分母,稀释了 7 留分子占比——即「拉新了弱用户」而非「赶走了老用户」,属良性扩面的副作用而非体验受损。
  • ④ 真实体验副作用(需警惕但证据不足):若推荐排序对女性偏好匹配不佳,长期可能降低复访。当前唯一支持信号是保量组呈 次留-5.4% → 3留-9.4% → 7留-20.9% 的单调放大趋势,值得盯;但打散组趋势不单调(-2.8%→-7.2%→-20.6% 中间有起伏),且大盘无损,暂不足以定性为真副作用。

综合判断

大概率为「小样本 + 短周期」造成的统计假象,叠加良性扩面稀释(原因①②③),而非推荐真实伤害女性留存。但因保量组存在单调放大趋势(原因④),不能完全排除,需通过下方长期反转实验用大样本 + 长窗口最终定性。

女性留存核验方法

如何确认上述负向到底是真问题还是噪声(4 个方法,按优先级):

  • ① 大盘 vs 小盘对照(最快):真副作用应在大样本口径也露头;本次女性百万级大盘留存无损、只有 4.1K 样本口径负向 → 强烈提示为噪声。
  • ② 拉长观察窗:7 留仅覆盖 6/18–6/30 内满 7 天的用户,周期偏短。延长至 3–4 周看负向是否持续、置信区间是否收窄。
  • ③ 看趋势一致性:保量组呈 次留-5%→3留-9%→7留-21% 的单调放大,需盯;但样本小仍要放量确认,忽正忽负则判为波动。
  • ④ 提高样本量重跑:将女性子样本扩到万级以上再看显著性是否仍在——这正是下方长期反转实验要解决的。

06三版本横向对比与选型

🥇
推荐放量
质量分+保量+打散
核心收益齐全(模板使用/生成显著)、生图入口负向最小(-2.84%)、banner 转正、大盘无损。综合最稳。
🥈
收益最猛但有取舍
质量分
模板点击发送 CTR 提升最大(+6.36%),但 AI 生图入口负向也最大(-4.61%),副作用最重。
🥉
较温和
质量分+新模板保量
收益幅度介于两者之间;女性创作Tab 7留(4.1K小样本)负向显著,与打散版同现,需反转实验复核。
维度质量分+保量+打散
模板点击发送 CTR+6.36% 显+5.09% 显+5.16% 显
模板使用/生成显著性正向不显著正向不显著✅ 显著
AI 生图入口副作用-4.61%(最重)-3.09%-2.84%(最轻)
banner 入口-2.37%-2.44%+0.43%(转正)
大盘留存无损无损无损
风险点入口挤压重女性7留负向最小

07结论与行动建议

  • ① 建议放量「质量分+新模板保量+打散」版本:在拿下核心转化收益的同时,副作用最小、多样性最好、大盘无损,是风险收益比最优的版本。
  • ② 优先复用于中老年 & 男性人群:这两类原基线 CTR 低、提升空间大且显著,可作为推荐策略的重点受益人群做精细化运营。
  • ③ 评估 AI 生图入口的战略取舍:生图入口 -3% 级负向显著是稳定信号。若生图为高优业务,需在 Feeds 流布局中为其保留固定坑位 / 提权,避免被模板完全挤占。
  • ④ 开启创作 Tab 长期反转实验(核心动作,见下方专节):以贯穿层流量长期验证推荐策略的真实长期收益与副作用,重点回收「女性 7 留」等疑似负向是否长期存在。
  • ⑤ 下钻分析设最小样本门槛:剔除分母过小(如 <数千)子样本的「伪显著」,避免 -64%/+53% 之类噪声误导决策。
  • ⑥ 后续观察项:模板使用/生成在质量分、保量版仅「正向不显著」,建议延长实验或加大流量以确认收益能否转显著。

⑦ 创作 Tab 长期反转实验方案

为验证推荐策略的长期净收益(消除短期新奇效应、回收留存等长周期指标),设立 3% 贯穿层流量的长期反转实验,三桶各占 1% 均分。

流量策略作用
反转桶(人工排序)1%人工排序(旧对照)长期反事实基准,衡量「不上推荐」的世界
Baseline 桶1%baseline基线校准,剔除层间偏差与埋点噪声
最优策略桶1%现最优策略(质量分+新模板保量+打散)长期验证推荐净收益与副作用
目的与关注点:
  • 长期净收益验证:对比「最优策略桶 vs 反转桶」在 4 周以上窗口的模板点击发送 CTR、人均使用/生成、创作 Tab 留存,确认短期收益能长期维持、不衰减。
  • 副作用回收:在贯穿层大样本下重新观测「女性 7 留」「AI 生图入口 CTR」,判断此前小样本负向显著是真实副作用还是短期波动。
  • Baseline 校准:Baseline 桶用于校正贯穿层与常规实验层之间的系统性偏差,保证反转结论可信。
数据来源:实验概况表(23 大盘指标)、年龄下钻表(16 指标 × 9 年龄段)、性别下钻表(16 指标 × 男/女/未知)。
显著性判定采用平台统计检验结果;报告已对小样本极端值做噪声甄别。周期:2026-06-18 ~ 06-30。