00实验背景
创作 Tab 的模板池已达 ~2000 个、周新增 ~200 个,日渗透约 60 万 UV,但线上一直依赖运营按上架时间/数据手工排序——颗粒度粗、无法规模化、新模板易被淹没。本实验(对应需求「2605 创作 Tab 模板标签接入 & 规则排序方案」)旨在用现有「模板质量分」实现自动化排序,并叠加两项机制:①新模板强插保量(上架 72h 内保底 1000 次曝光);②多样性打散(基于 TEG 一/二/三级类目 + 兴趣 tag 做客户端滑窗打散,避免相似模板聚集)。
本次不涉及个性化推荐,但按个推架构设计以便后续迭代(个性化排序 / 标签升级 / 差异化保量等)。三个实验组即对应上述机制的递进叠加,以拆解各机制的独立增量贡献。
01核心结论(TL;DR)
一句话结论:规则化推荐排序带来清晰、可量化的正向收益——从「模板点击→发送转化」到下游「人均使用/生成/曝光」全链路指标齐涨,且大盘留存零损耗。三版本中「质量分+新模板保量+打散」综合收益最全、副作用最小,建议作为放量版本。唯一代价是同屏 AI 生图入口被分流(-2.8%~-4.6%),属注意力再分配的良性副产品。
✅ 实验收益清单(按收益强度排序)
- ① 模板点击发送 uvCTR:+5.09%~+6.36%(三版本全部正向显著) —— 最核心、最扎实的收益。用户点击模板后真正拿去发送/使用的转化质量全线提升,是整条链路的价值支点。
- ② 人均模板使用次数:+9.52%~+15.06%(打散版 +14.86% 正向显著) —— 用户消费模板的频次明显抬升,直接对应 PRD 核心指标「人均生成次数」。
- ③ 人均模板类型生成个数:+9.01%~+12.33%(打散版 +12.00% 正向显著) —— 不仅用得多,且尝试的模板类型更丰富,消费深度与广度同步提升。
- ④ 人均模板曝光次数:+1.31%~+3.41%(打散版 +3.41% 最高) —— 单用户看到的模板量增加,供给侧曝光效率提升,对应 PRD 核心指标「人均曝光模板数」。
- ⑤ 整体创作 Tab 功能次留:+1.85%~+4.95%(打散版 +4.95% 最高) —— 消费提升开始向短期留存传导,功能黏性正向。
- ⑥ 模板曝光点击 uvCTR:+0.34%~+0.63%(质量分/打散正向) —— 曝光到点击环节小幅改善。
- ⑦ 创作 Tab 底部按钮点击 uvCTR:+0.11%~+0.29%(三版本均正向) —— 页面内其他交互同步小幅受益。
- ⑧ prompt 渗透 / 人均活跃天:基本持平、无负向 —— 未见任何侵蚀。
注:②③④⑤⑦ 在大盘为「正向但未全部显著」,打散版普遍最优且多项转显著;分人群下钻中,男性、中老年(41+)人群收益更强更显著(详见 §04/§05)。
数据速览
模板点击发送 uvCTR
+5.1%~+6.4%
三版本全部正向显著 ✅ 核心收益
人均模板使用次数
+9.5%~+15%
打散版显著,另两版趋势正向
人均类型生成个数
+9%~+12.3%
打散版显著,消费深度↑
人均模板曝光次数
+1.3%~+3.4%
曝光效率提升
整体创作Tab 次留
+1.9%~+4.9%
向留存正向传导
大盘 DAU 次留/7留
±0.1% 内
无损 ✅ 大盘中性
模板曝光点击 uvCTR
+0.3%~+0.6%
小幅改善
AI 生图入口 uvCTR
-2.8%~-4.6%
唯一代价 ⚠️ 打散版最轻
01+实验数据结论(速报版)
本次实验数据结论:「质量分 + 新模板保量 + 打散」(完整方案)效果最优,核心转化收益显著且副作用最小,建议推全此策略。三个实验组相对对照组(人工排序)的核心指标 diff 如下:
1、质量分 + 保量 + 打散 vs 人工排序:模板点击发送 CTR +5.16%(显著),人均模板使用次数 +14.86%(显著),人均类型生成个数 +12.00%(显著),人均模板曝光次数 +3.41%,整体次留 +4.95%,大盘留存无损。结论:完整方案最优,建议推全。
2、质量分 + 保量 vs 人工排序:模板点击发送 CTR +5.09%(显著),人均模板使用次数 +9.52%,人均类型生成个数 +9.01%,人均模板曝光次数 +1.31%,整体次留 +1.85%。结论:质量分 + 保量 ok,收益成立但幅度低于完整方案。
3、质量分 vs 人工排序:模板点击发送 CTR +6.36%(显著),人均模板使用次数 +15.06%,人均类型生成个数 +12.33%,人均模板曝光次数 +1.93%,整体次留 +4.66%。结论:质量分基础排序 ok,转化收益已显著;但 AI 生图入口负向最重(-4.61%)。
实验详情
- 实验周期:2026.06.18 - 06.30(13 天)
- 实验设置
- 对照组:模板排序策略 = 运营按上架时间 / 数据手工排序(线上基线)
- 实验组(模板排序策略,递进叠加):
- 实验组①:质量分倒序(保存率/分享率/CTR/生成量加权,小时级更新,缺失按 50 分位兜底)
- 实验组②:质量分 + 新模板强插保量(每 4 坑第 4 个强插,72h 内保底 1000 次曝光)
- 实验组③:质量分 + 保量 + 多样性打散(TEG 类目/兴趣 tag 滑窗打散:4 坑同三级≤2、8 坑同三级≤4/同二级≤5)
- 实验流量:DAU 分流,各组 5%→25% 逐步放大(小流量观察 1~2 天,无问题后放大以加速指标显著)
- 排序优先级:Pro 后台运营强插(最高)> 打散 > 保量强插 > 质量分基础排序
收益总结
- 业务收益
- 模板点击发送 uvCTR +5.09%~+6.36%(三版本全部正向显著)——核心转化漏斗全线打赢。
- 人均模板使用次数 +9.52%~+15.06%、人均模板类型生成个数 +9.01%~+12.33%(打散版均正向显著)——对应 PRD 核心指标「人均生成次数」。
- 人均模板曝光次数 +1.31%~+3.41%——对应 PRD 核心指标「人均曝光模板数」。
- 整体创作 Tab 功能次留 +1.85%~+4.95%——消费提升向短期留存正向传导。
- 大盘 DAU 次留/7留/活跃天 全部无损(±0.1% 内不显著)——收益不以牺牲大盘为代价。
- 系统能力收益
- 模板排序由人工手排升级为规则化自动排序,摆脱 ~2000 模板池 + 周新增 ~200 的人工维护瓶颈,大幅提升迭代效率。
- 接入 TEG 一/二/三级类目 + 兴趣 tag 结构化打标,为后续个性化推荐打好数据与架构基础(本次已按个推架构设计)。
- 新模板强插保量机制打通,新内容冷启曝光有保障,缓解「新模板被淹没」问题。
实验指标(相对对照组)
大盘(全体用户)
- 基础转化:模板点击发送 CTR +5.09%~+6.36%(显著);模板曝光点击 CTR +0.34%~+0.63%;底部按钮点击 CTR +0.11%~+0.29%
- 消费深度:人均模板使用次数 +9.52%~+15.06%;人均类型生成个数 +9.01%~+12.33%;人均模板曝光次数 +1.31%~+3.41%(打散版多项转显著)
- 留存:整体创作 Tab 功能次留 +1.85%~+4.95%(正向);大盘 DAU 次留/7留 波动无损
- 代价:AI 生图入口点击 CTR -2.84%~-4.61%(负向显著,打散版最轻);banner 点击 CTR 打散版转正 +0.43%
分人群下钻
- 年龄:模板点击发送 CTR 越是中老年收益越大(41-45 岁、51+ 三版本齐显著,如 41-45 岁最高 +9.18%)——推荐对「弱表达/长尾用户」帮助最大
- 性别:男性收益更强更稳(模板点击发送 CTR +8.18%~+9.61% 全显著,整体次留 +6.19%~+6.34% 显著);女性以小幅正向为主。女性「创作 Tab 功能 7 留」在保量/打散组负向显著(-20.9%/-20.6%,样本仅 4.1K),大概率小样本噪声,待长期反转实验复核
数据分析
推荐排序未大幅改变「看到→点击」环节,而是显著提升「点击后真正使用/发送」的转化质量,说明推荐把更贴合用户意图的模板排到了前面,从而带动使用/生成/曝光全链路上行;代价仅为同屏 AI 生图入口的注意力被分流,属良性再分配。三版本中完整方案(质量分+保量+打散)收益最全、AI 生图入口副作用最小、banner 转正,风险收益比最优,建议推全,并开启 3% 贯穿层长期反转实验回收长期收益与疑似副作用(详见 §07)。
02实验设计与口径
在创作 Tab 的 Feeds 流引入推荐排序,验证「推荐 vs 人工配置」对模板消费与用户留存的影响。实验组沿三个递进方向叠加策略。
| 组别 | 策略 | 相对对照的核心变化 |
| 对照组 | 人工排序 | 运营按上架时间 / 数据手工排布(线上基线) |
| 实验组① | 质量分倒序 | 全量模板按质量分(保存率/分享率/CTR/生成量加权)倒序,小时级更新,缺失分按 50 分位兜底 |
| 实验组② | 质量分 + 新模板强插保量 | 在质量分基础上,每 4 个坑位的第 4 个从待保量池强插新模板,保障上架 72h 内 ≥1000 次曝光 |
| 实验组③ | 质量分 + 保量 + 多样性打散 (完整方案) | 再叠加 TEG 类目/兴趣 tag 滑窗打散(4 坑同三级≤2、8 坑同三级≤4/同二级≤5),避免相似模板聚集 |
排序优先级:Pro 后台运营强插(最高)> 打散 > 保量强插 > 质量分基础排序。分流方式为 DAU 分流,各组流量 5%→25% 逐步放大以加速指标显著。PRD 核心指标为人均生成次数、人均曝光模板数(去重)。
本报告共分析 23 个大盘指标,覆盖「渗透 / 曝光点击 / 使用生成 / 留存 / 大盘稳定性 / 入口分流」六类;并按年龄(9 段)与性别(男/女/未知)做下钻。显著性以平台统计检验(正向显著 / 负向显著 / 不显著)为准。
03大盘(概况)表现
✅ 正向收益:转化漏斗被显著改善
| 指标 | 质量分 | +保量 | +打散 | 结论 |
| 模板点击发送 uvCTR | +6.36% 显著 | +5.09% 显著 | +5.16% 显著 | 核心漏斗全线打赢 |
| 人均模板使用次数 | +15.06% | +9.52% | +14.86% 显著 | 打散版显著,质/保量正向不显著 |
| 人均模板类型生成个数 | +12.33% | +9.01% | +12.00% 显著 | 同上,消费深度提升 |
| 模板曝光点击 uvCTR | +0.63% | -0.07% | +0.34% | 曝光→点击基本持平 |
解读:推荐排序并未大幅改变「看到模板→点击」这一步(曝光点击 CTR 持平),但显著提升了「点击后真正拿去发送/使用」的转化质量——说明推荐把更贴合用户意图的模板排到了前面,从而带动人均使用/生成量上行。这是本实验最扎实的正向信号。
⚠️ 主要代价:AI 生图入口被分流
| 指标 | 质量分 | +保量 | +打散 | 结论 |
| 创作 tab AI 生图入口曝光点击 uvCTR | -4.61% 显著 | -3.09% 显著 | -2.84% 显著 | 三版本全部负向显著 |
| banner 模块曝光点击 uvCTR | -2.37% | -2.44% | +0.43% | 打散版把 banner 拉回正向 |
注意力零和效应:Feeds 流模板消费变强,直接挤占了同屏其他入口(AI 生图、banner)的点击。这是「推荐做对了」的副产品而非 bug——但需评估 AI 生图入口的战略权重。关键优势:③打散版的负向幅度最小(-2.84%),且把 banner 点击拉回正向,说明多样性打散在保住核心收益的同时缓解了入口挤压。
大盘稳定性:无损
DAU 次留 / 第 7 日留存 / 人均活跃天 / 人均发消息天 / 人均复制次数等大盘健康指标,三版本相对差异均在 ±0.1% 以内且全部不显著——推荐策略没有伤害大盘留存与活跃,属于「局部增益、大盘中性」的健康形态。
04年龄下钻分析
核心收益指标「模板点击发送 uvCTR」在几乎所有年龄段都是正向,且越是中老年群体(41 岁以上)收益越大。
模板点击发送 uvCTR × 年龄(相对对照)
| 年龄段 | 对照基线 | 质量分 | +保量 | +打散 |
| 18 岁及以下 | 0.514 | +8.45% 显 | +5.70% 显 | +5.28% |
| 19-24 岁 | 0.532 | +1.92% | +1.04% | +2.17% |
| 25-30 岁 | 0.531 | +7.38% 显 | +5.62% 显 | +5.05% |
| 31-35 岁 | 0.522 | +5.52% 显 | +2.57% | +3.04% |
| 36-40 岁 | 0.500 | +3.97% | +6.18% 显 | +3.83% |
| 41-45 岁 | 0.450 | +9.18% 显 | +9.10% 显 | +7.66% 显 |
| 46-50 岁 | 0.430 | +6.81% 显 | +4.91% | +5.83% |
| 51 岁及以上 | 0.399 | +8.30% 显 | +5.46% 显 | +7.76% 显 |
关键洞察:①对照组基线 CTR 随年龄下降(0.51→0.40),说明中老年用户原本更难在人工配置下找到合适模板;②推荐策略恰好在这些人群带来最大提升(41-45 岁、51+ 三版本齐显著)。推荐对「长尾/弱表达用户」的帮助最大,这是极有价值的结构性收益。
留存类下钻:极端值多为小样本噪声
年龄下钻中出现的几个「负向显著」需要谨慎剔除小样本噪声:
- DAU次留(新用户) · 51岁+ · -64%、次留 · 18岁以下 · +32%、7留 · 19-24岁 · -39% 等:多数出自分子分母极小的子样本(如 8/26、7/30、238/2.56K),单日波动即可造成大幅相对差异,不构成稳定结论。
- 对应大盘留存全部不显著,可佐证这些是随机波动而非策略真实伤害。
建议:下钻留存结论应设置最小样本量门槛(如分母 ≥ 数千),否则易误判。
05性别下钻分析
收益在男性用户上更强更稳,女性以小幅正向为主。
模板点击发送 CTR · 男
+8.2%~+9.6%
三版本全部正向显著 ✅
模板点击发送 CTR · 女
+1.9%~+3.6%
质量分/打散显著,幅度较小
整体次留 · 男
+6.2%~+6.3%
质量分/打散正向显著 ✅
| 指标 / 人群 | 质量分 | +保量 | +打散 |
| 模板点击发送 CTR · 男(基线 0.419) | +9.61% 显 | +8.81% 显 | +8.18% 显 |
| 模板点击发送 CTR · 女(基线 0.543) | +3.56% 显 | +1.86% | +2.36% 显 |
| 整体创作 tab 次留 · 男 | +6.34% 显 | +2.88% | +6.19% 显 |
| 人均模板使用次数 · 男 | +14.16% | +12.67% | +18.84% 显 |
| 人均模板使用次数 · 女(基线 2.98,样本≈3.15K 人) | +15.05% | +1.10% | +11.23% |
| 整体创作 tab 7 留 · 女(样本≈4.18K 人) | -12.9% | -20.9% 显 | -20.6% 显 |
解读:①男性基线 CTR 更低(0.419 vs 女 0.543),推荐带来的提升空间更大、效果更强,与年龄结论「帮助弱表达用户」一致;②男性次留同步正向显著,说明消费提升传导到了留存;③女性「创作 Tab 功能 7 留」在「+保量」「+打散」两组负向显著(-20.9% / -20.6%),质量分组不显著(-12.9%)——但该口径分母仅约 4.1K 人(358/4.18K 量级),是所有留存口径中样本最小的;而女性大盘 DAU 次留/7 留(百万级样本)三组全部无损(±0.1% 内)。大概率为小样本+短周期波动,需按下方方法复核确认。
专项:「整体创作 Tab 7 留 · 女」为何负向显著
这是本实验唯一在女性人群上出现的负向显著信号(+保量 -20.9%、+打散 -20.6%,质量分 -12.9% 不显著),有必要拆解其成因,判断是「真副作用」还是「统计假象」。
先看这条指标在各口径下的表现(女性):
| 留存口径 · 女 | 样本量(分子/分母) | 质量分 | +保量 | +打散 | 判定 |
| 大盘 DAU 次留 | ≈352万/673万 | +0.03% | +0.01% | +0.03% | ✅ 无损 |
| 大盘 DAU 第7日留存 | ≈83.7万/181万 | -0.08% | +0.00% | -0.06% | ✅ 无损 |
| 创作Tab功能 次留 | ≈1.77K/13.75K | -1.0% | -5.4% | -2.8% | 不显著 |
| 创作Tab功能 3留 | ≈999/10.47K | -0.5% | -9.4% | -7.2% | 不显著 |
| 创作Tab功能 7留 | ≈358/4.18K | -12.9% | -20.9% 显 | -20.6% 显 | ⚠️ 唯一负向显著 |
负向的四类可能原因
- ① 小样本统计噪声(最可能):7 留分母仅约 4.18K 人(留存分子仅 358 人),是所有口径里样本最小的。留存率本身低(8.6%),少数用户的进出就能造成 ±20% 的相对波动。对照佐证:同一批女性的大盘留存(百万级样本)三组全部无损——若推荐真伤留存,大盘不该毫无反应。
- ② 短观察窗放大偏差:数据周期仅 6/18–6/30(13 天),能满 7 天的用户本就少且集中在实验前半段,样本进一步被压缩,随机性更强。7 留是所有留存口径中最晚成熟、最易受周期切割影响的。
- ③ 幸存者/构成偏差:推荐让更多「低意图女性用户」也点开并使用了模板(模板消费面变宽),这批本就留存倾向较低的用户被纳入创作 Tab 功能留存的分母,稀释了 7 留分子占比——即「拉新了弱用户」而非「赶走了老用户」,属良性扩面的副作用而非体验受损。
- ④ 真实体验副作用(需警惕但证据不足):若推荐排序对女性偏好匹配不佳,长期可能降低复访。当前唯一支持信号是保量组呈 次留-5.4% → 3留-9.4% → 7留-20.9% 的单调放大趋势,值得盯;但打散组趋势不单调(-2.8%→-7.2%→-20.6% 中间有起伏),且大盘无损,暂不足以定性为真副作用。
综合判断
大概率为「小样本 + 短周期」造成的统计假象,叠加良性扩面稀释(原因①②③),而非推荐真实伤害女性留存。但因保量组存在单调放大趋势(原因④),不能完全排除,需通过下方长期反转实验用大样本 + 长窗口最终定性。
女性留存核验方法
如何确认上述负向到底是真问题还是噪声(4 个方法,按优先级):
- ① 大盘 vs 小盘对照(最快):真副作用应在大样本口径也露头;本次女性百万级大盘留存无损、只有 4.1K 样本口径负向 → 强烈提示为噪声。
- ② 拉长观察窗:7 留仅覆盖 6/18–6/30 内满 7 天的用户,周期偏短。延长至 3–4 周看负向是否持续、置信区间是否收窄。
- ③ 看趋势一致性:保量组呈 次留-5%→3留-9%→7留-21% 的单调放大,需盯;但样本小仍要放量确认,忽正忽负则判为波动。
- ④ 提高样本量重跑:将女性子样本扩到万级以上再看显著性是否仍在——这正是下方长期反转实验要解决的。
06三版本横向对比与选型
🥇推荐放量
质量分+保量+打散
核心收益齐全(模板使用/生成显著)、生图入口负向最小(-2.84%)、banner 转正、大盘无损。综合最稳。
🥈收益最猛但有取舍
质量分
模板点击发送 CTR 提升最大(+6.36%),但 AI 生图入口负向也最大(-4.61%),副作用最重。
🥉较温和
质量分+新模板保量
收益幅度介于两者之间;女性创作Tab 7留(4.1K小样本)负向显著,与打散版同现,需反转实验复核。
| 维度 | 质量分 | +保量 | +打散 |
| 模板点击发送 CTR | +6.36% 显 | +5.09% 显 | +5.16% 显 |
| 模板使用/生成显著性 | 正向不显著 | 正向不显著 | ✅ 显著 |
| AI 生图入口副作用 | -4.61%(最重) | -3.09% | -2.84%(最轻) |
| banner 入口 | -2.37% | -2.44% | +0.43%(转正) |
| 大盘留存 | 无损 | 无损 | 无损 |
| 风险点 | 入口挤压重 | 女性7留负向 | 最小 |
07结论与行动建议
- ① 建议放量「质量分+新模板保量+打散」版本:在拿下核心转化收益的同时,副作用最小、多样性最好、大盘无损,是风险收益比最优的版本。
- ② 优先复用于中老年 & 男性人群:这两类原基线 CTR 低、提升空间大且显著,可作为推荐策略的重点受益人群做精细化运营。
- ③ 评估 AI 生图入口的战略取舍:生图入口 -3% 级负向显著是稳定信号。若生图为高优业务,需在 Feeds 流布局中为其保留固定坑位 / 提权,避免被模板完全挤占。
- ④ 开启创作 Tab 长期反转实验(核心动作,见下方专节):以贯穿层流量长期验证推荐策略的真实长期收益与副作用,重点回收「女性 7 留」等疑似负向是否长期存在。
- ⑤ 下钻分析设最小样本门槛:剔除分母过小(如 <数千)子样本的「伪显著」,避免 -64%/+53% 之类噪声误导决策。
- ⑥ 后续观察项:模板使用/生成在质量分、保量版仅「正向不显著」,建议延长实验或加大流量以确认收益能否转显著。
⑦ 创作 Tab 长期反转实验方案
为验证推荐策略的长期净收益(消除短期新奇效应、回收留存等长周期指标),设立 3% 贯穿层流量的长期反转实验,三桶各占 1% 均分。
| 桶 | 流量 | 策略 | 作用 |
| 反转桶(人工排序) | 1% | 人工排序(旧对照) | 长期反事实基准,衡量「不上推荐」的世界 |
| Baseline 桶 | 1% | baseline | 基线校准,剔除层间偏差与埋点噪声 |
| 最优策略桶 | 1% | 现最优策略(质量分+新模板保量+打散) | 长期验证推荐净收益与副作用 |
目的与关注点:
- 长期净收益验证:对比「最优策略桶 vs 反转桶」在 4 周以上窗口的模板点击发送 CTR、人均使用/生成、创作 Tab 留存,确认短期收益能长期维持、不衰减。
- 副作用回收:在贯穿层大样本下重新观测「女性 7 留」「AI 生图入口 CTR」,判断此前小样本负向显著是真实副作用还是短期波动。
- Baseline 校准:Baseline 桶用于校正贯穿层与常规实验层之间的系统性偏差,保证反转结论可信。