创作Tab Feeds流接入推荐实验 · 系统性分析报告

00实验背景

创作 Tab 的模板池已达 ~2000 个、周新增 ~200 个，日渗透约 60 万 UV，但线上一直依赖运营按上架时间/数据手工排序——颗粒度粗、无法规模化、新模板易被淹没。本实验（对应需求「2605 创作 Tab 模板标签接入 & 规则排序方案」）旨在用现有「模板质量分」实现自动化排序，并叠加两项机制：①新模板强插保量（上架 72h 内保底 1000 次曝光）；②多样性打散（基于 TEG 一/二/三级类目 + 兴趣 tag 做客户端滑窗打散，避免相似模板聚集）。

本次不涉及个性化推荐，但按个推架构设计以便后续迭代（个性化排序 / 标签升级 / 差异化保量等）。三个实验组即对应上述机制的递进叠加，以拆解各机制的独立增量贡献。

模板池规模

~2000 个

周新增 ~200 个

创作 Tab 日渗透

~60 万 UV

流量基本盘

原排序方式

人工手排

按上架时间 / 数据

本次目标

规则化排序

质量分+保量+打散

01核心结论（TL;DR）

一句话结论：规则化推荐排序带来清晰、可量化的正向收益——从「模板点击→发送转化」到下游「人均使用/生成/曝光」全链路指标齐涨，且大盘留存零损耗。三版本中「质量分+新模板保量+打散」综合收益最全、副作用最小，建议作为放量版本。唯一代价是同屏 AI 生图入口被分流（-2.8%~-4.6%），属注意力再分配的良性副产品。

✅ 实验收益清单（按收益强度排序）

① 模板点击发送 uvCTR：+5.09%~+6.36%（三版本全部正向显著） —— 最核心、最扎实的收益。用户点击模板后真正拿去发送/使用的转化质量全线提升，是整条链路的价值支点。
② 人均模板使用次数：+9.52%~+15.06%（打散版 +14.86% 正向显著） —— 用户消费模板的频次明显抬升，直接对应 PRD 核心指标「人均生成次数」。
③ 人均模板类型生成个数：+9.01%~+12.33%（打散版 +12.00% 正向显著） —— 不仅用得多，且尝试的模板类型更丰富，消费深度与广度同步提升。
④ 人均模板曝光次数：+1.31%~+3.41%（打散版 +3.41% 最高） —— 单用户看到的模板量增加，供给侧曝光效率提升，对应 PRD 核心指标「人均曝光模板数」。
⑤ 整体创作 Tab 功能次留：+1.85%~+4.95%（打散版 +4.95% 最高） —— 消费提升开始向短期留存传导，功能黏性正向。
⑥ 模板曝光点击 uvCTR：+0.34%~+0.63%（质量分/打散正向） —— 曝光到点击环节小幅改善。
⑦ 创作 Tab 底部按钮点击 uvCTR：+0.11%~+0.29%（三版本均正向） —— 页面内其他交互同步小幅受益。
⑧ prompt 渗透 / 人均活跃天：基本持平、无负向 —— 未见任何侵蚀。

注：②③④⑤⑦ 在大盘为「正向但未全部显著」，打散版普遍最优且多项转显著；分人群下钻中，男性、中老年（41+）人群收益更强更显著（详见 §04/§05）。

数据速览

模板点击发送 uvCTR

+5.1%~+6.4%

三版本全部正向显著 ✅ 核心收益

人均模板使用次数

+9.5%~+15%

打散版显著，另两版趋势正向

人均类型生成个数

+9%~+12.3%

打散版显著，消费深度↑

人均模板曝光次数

+1.3%~+3.4%

曝光效率提升

整体创作Tab 次留

+1.9%~+4.9%

向留存正向传导

大盘 DAU 次留/7留

±0.1% 内

无损 ✅ 大盘中性

模板曝光点击 uvCTR

+0.3%~+0.6%

小幅改善

AI 生图入口 uvCTR

-2.8%~-4.6%

唯一代价 ⚠️ 打散版最轻

01+实验数据结论（速报版）

本次实验数据结论：「质量分 + 新模板保量 + 打散」（完整方案）效果最优，核心转化收益显著且副作用最小，建议推全此策略。三个实验组相对对照组（人工排序）的核心指标 diff 如下：

1、质量分 + 保量 + 打散 vs 人工排序：模板点击发送 CTR +5.16%（显著），人均模板使用次数 +14.86%（显著），人均类型生成个数 +12.00%（显著），人均模板曝光次数 +3.41%，整体次留 +4.95%，大盘留存无损。结论：完整方案最优，建议推全。

2、质量分 + 保量 vs 人工排序：模板点击发送 CTR +5.09%（显著），人均模板使用次数 +9.52%，人均类型生成个数 +9.01%，人均模板曝光次数 +1.31%，整体次留 +1.85%。结论：质量分 + 保量 ok，收益成立但幅度低于完整方案。

3、质量分 vs 人工排序：模板点击发送 CTR +6.36%（显著），人均模板使用次数 +15.06%，人均类型生成个数 +12.33%，人均模板曝光次数 +1.93%，整体次留 +4.66%。结论：质量分基础排序 ok，转化收益已显著；但 AI 生图入口负向最重(-4.61%)。

实验详情

实验周期：2026.06.18 - 06.30（13 天）
实验设置
- 对照组：模板排序策略 = 运营按上架时间 / 数据手工排序（线上基线）
- 实验组（模板排序策略，递进叠加）：
  - 实验组①：质量分倒序（保存率/分享率/CTR/生成量加权，小时级更新，缺失按 50 分位兜底）
  - 实验组②：质量分 + 新模板强插保量（每 4 坑第 4 个强插，72h 内保底 1000 次曝光）
  - 实验组③：质量分 + 保量 + 多样性打散（TEG 类目/兴趣 tag 滑窗打散：4 坑同三级≤2、8 坑同三级≤4/同二级≤5）
实验流量：DAU 分流，各组 5%→25% 逐步放大（小流量观察 1~2 天，无问题后放大以加速指标显著）
排序优先级：Pro 后台运营强插（最高）＞打散＞保量强插＞质量分基础排序

收益总结

业务收益
- 模板点击发送 uvCTR +5.09%~+6.36%（三版本全部正向显著）——核心转化漏斗全线打赢。
- 人均模板使用次数 +9.52%~+15.06%、人均模板类型生成个数 +9.01%~+12.33%（打散版均正向显著）——对应 PRD 核心指标「人均生成次数」。
- 人均模板曝光次数 +1.31%~+3.41%——对应 PRD 核心指标「人均曝光模板数」。
- 整体创作 Tab 功能次留 +1.85%~+4.95%——消费提升向短期留存正向传导。
- 大盘 DAU 次留/7留/活跃天全部无损（±0.1% 内不显著）——收益不以牺牲大盘为代价。
系统能力收益
- 模板排序由人工手排升级为规则化自动排序，摆脱 ~2000 模板池 + 周新增 ~200 的人工维护瓶颈，大幅提升迭代效率。
- 接入 TEG 一/二/三级类目 + 兴趣 tag 结构化打标，为后续个性化推荐打好数据与架构基础（本次已按个推架构设计）。
- 新模板强插保量机制打通，新内容冷启曝光有保障，缓解「新模板被淹没」问题。

实验指标（相对对照组）

大盘（全体用户）

基础转化：模板点击发送 CTR +5.09%~+6.36%（显著）；模板曝光点击 CTR +0.34%~+0.63%；底部按钮点击 CTR +0.11%~+0.29%
消费深度：人均模板使用次数 +9.52%~+15.06%；人均类型生成个数 +9.01%~+12.33%；人均模板曝光次数 +1.31%~+3.41%（打散版多项转显著）
留存：整体创作 Tab 功能次留 +1.85%~+4.95%（正向）；大盘 DAU 次留/7留波动无损
代价：AI 生图入口点击 CTR -2.84%~-4.61%（负向显著，打散版最轻）；banner 点击 CTR 打散版转正 +0.43%

分人群下钻

年龄：模板点击发送 CTR 越是中老年收益越大（41-45 岁、51+ 三版本齐显著，如 41-45 岁最高 +9.18%）——推荐对「弱表达/长尾用户」帮助最大
性别：男性收益更强更稳（模板点击发送 CTR +8.18%~+9.61% 全显著，整体次留 +6.19%~+6.34% 显著）；女性以小幅正向为主。女性「创作 Tab 功能 7 留」在保量/打散组负向显著（-20.9%/-20.6%，样本仅 4.1K），大概率小样本噪声，待长期反转实验复核

数据分析

推荐排序未大幅改变「看到→点击」环节，而是显著提升「点击后真正使用/发送」的转化质量，说明推荐把更贴合用户意图的模板排到了前面，从而带动使用/生成/曝光全链路上行；代价仅为同屏 AI 生图入口的注意力被分流，属良性再分配。三版本中完整方案（质量分+保量+打散）收益最全、AI 生图入口副作用最小、banner 转正，风险收益比最优，建议推全，并开启 3% 贯穿层长期反转实验回收长期收益与疑似副作用（详见 §07）。

02实验设计与口径

在创作 Tab 的 Feeds 流引入推荐排序，验证「推荐 vs 人工配置」对模板消费与用户留存的影响。实验组沿三个递进方向叠加策略。

组别	策略	相对对照的核心变化
对照组	人工排序	运营按上架时间 / 数据手工排布（线上基线）
实验组①	质量分倒序	全量模板按质量分（保存率/分享率/CTR/生成量加权）倒序，小时级更新，缺失分按 50 分位兜底
实验组②	质量分 + 新模板强插保量	在质量分基础上，每 4 个坑位的第 4 个从待保量池强插新模板，保障上架 72h 内 ≥1000 次曝光
实验组③	质量分 + 保量 + 多样性打散（完整方案）	再叠加 TEG 类目/兴趣 tag 滑窗打散（4 坑同三级≤2、8 坑同三级≤4/同二级≤5），避免相似模板聚集

排序优先级：Pro 后台运营强插（最高）＞打散＞保量强插＞质量分基础排序。分流方式为 DAU 分流，各组流量 5%→25% 逐步放大以加速指标显著。PRD 核心指标为人均生成次数、人均曝光模板数（去重）。

本报告共分析 23 个大盘指标，覆盖「渗透 / 曝光点击 / 使用生成 / 留存 / 大盘稳定性 / 入口分流」六类；并按年龄（9 段）与性别（男/女/未知）做下钻。显著性以平台统计检验（正向显著 / 负向显著 / 不显著）为准。

03大盘（概况）表现

✅ 正向收益：转化漏斗被显著改善

指标	质量分	+保量	+打散	结论
模板点击发送 uvCTR	+6.36% 显著	+5.09% 显著	+5.16% 显著	核心漏斗全线打赢
人均模板使用次数	+15.06%	+9.52%	+14.86% 显著	打散版显著，质/保量正向不显著
人均模板类型生成个数	+12.33%	+9.01%	+12.00% 显著	同上，消费深度提升
模板曝光点击 uvCTR	+0.63%	-0.07%	+0.34%	曝光→点击基本持平

解读：推荐排序并未大幅改变「看到模板→点击」这一步（曝光点击 CTR 持平），但显著提升了「点击后真正拿去发送/使用」的转化质量——说明推荐把更贴合用户意图的模板排到了前面，从而带动人均使用/生成量上行。这是本实验最扎实的正向信号。

⚠️ 主要代价：AI 生图入口被分流

指标	质量分	+保量	+打散	结论
创作 tab AI 生图入口曝光点击 uvCTR	-4.61% 显著	-3.09% 显著	-2.84% 显著	三版本全部负向显著
banner 模块曝光点击 uvCTR	-2.37%	-2.44%	+0.43%	打散版把 banner 拉回正向

注意力零和效应：Feeds 流模板消费变强，直接挤占了同屏其他入口（AI 生图、banner）的点击。这是「推荐做对了」的副产品而非 bug——但需评估 AI 生图入口的战略权重。关键优势：③打散版的负向幅度最小（-2.84%），且把 banner 点击拉回正向，说明多样性打散在保住核心收益的同时缓解了入口挤压。

大盘稳定性：无损

DAU 次留 / 第 7 日留存 / 人均活跃天 / 人均发消息天 / 人均复制次数等大盘健康指标，三版本相对差异均在 ±0.1% 以内且全部不显著——推荐策略没有伤害大盘留存与活跃，属于「局部增益、大盘中性」的健康形态。

04年龄下钻分析

核心收益指标「模板点击发送 uvCTR」在几乎所有年龄段都是正向，且越是中老年群体（41 岁以上）收益越大。

模板点击发送 uvCTR × 年龄（相对对照）

年龄段	对照基线	质量分	+保量	+打散
18 岁及以下	0.514	+8.45% 显	+5.70% 显	+5.28%
19-24 岁	0.532	+1.92%	+1.04%	+2.17%
25-30 岁	0.531	+7.38% 显	+5.62% 显	+5.05%
31-35 岁	0.522	+5.52% 显	+2.57%	+3.04%
36-40 岁	0.500	+3.97%	+6.18% 显	+3.83%
41-45 岁	0.450	+9.18% 显	+9.10% 显	+7.66% 显
46-50 岁	0.430	+6.81% 显	+4.91%	+5.83%
51 岁及以上	0.399	+8.30% 显	+5.46% 显	+7.76% 显

关键洞察：①对照组基线 CTR 随年龄下降（0.51→0.40），说明中老年用户原本更难在人工配置下找到合适模板；②推荐策略恰好在这些人群带来最大提升（41-45 岁、51+ 三版本齐显著）。推荐对「长尾/弱表达用户」的帮助最大，这是极有价值的结构性收益。

留存类下钻：极端值多为小样本噪声

年龄下钻中出现的几个「负向显著」需要谨慎剔除小样本噪声：

DAU次留(新用户) · 51岁+ · -64%、次留 · 18岁以下 · +32%、7留 · 19-24岁 · -39% 等：多数出自分子分母极小的子样本（如 8/26、7/30、238/2.56K），单日波动即可造成大幅相对差异，不构成稳定结论。
对应大盘留存全部不显著，可佐证这些是随机波动而非策略真实伤害。

建议：下钻留存结论应设置最小样本量门槛（如分母 ≥ 数千），否则易误判。

05性别下钻分析

收益在男性用户上更强更稳，女性以小幅正向为主。

模板点击发送 CTR · 男

+8.2%~+9.6%

三版本全部正向显著 ✅

模板点击发送 CTR · 女

+1.9%~+3.6%

质量分/打散显著，幅度较小

整体次留 · 男

+6.2%~+6.3%

质量分/打散正向显著 ✅

指标 / 人群	质量分	+保量	+打散
模板点击发送 CTR · 男（基线 0.419）	+9.61% 显	+8.81% 显	+8.18% 显
模板点击发送 CTR · 女（基线 0.543）	+3.56% 显	+1.86%	+2.36% 显
整体创作 tab 次留 · 男	+6.34% 显	+2.88%	+6.19% 显
人均模板使用次数 · 男	+14.16%	+12.67%	+18.84% 显
人均模板使用次数 · 女（基线 2.98，样本≈3.15K 人）	+15.05%	+1.10%	+11.23%
整体创作 tab 7 留 · 女（样本≈4.18K 人）	-12.9%	-20.9% 显	-20.6% 显

解读：①男性基线 CTR 更低（0.419 vs 女 0.543），推荐带来的提升空间更大、效果更强，与年龄结论「帮助弱表达用户」一致；②男性次留同步正向显著，说明消费提升传导到了留存；③女性「创作 Tab 功能 7 留」在「+保量」「+打散」两组负向显著（-20.9% / -20.6%），质量分组不显著（-12.9%）——但该口径分母仅约 4.1K 人（358/4.18K 量级），是所有留存口径中样本最小的；而女性大盘 DAU 次留/7 留（百万级样本）三组全部无损（±0.1% 内）。大概率为小样本+短周期波动，需按下方方法复核确认。

专项：「整体创作 Tab 7 留 · 女」为何负向显著

这是本实验唯一在女性人群上出现的负向显著信号（+保量 -20.9%、+打散 -20.6%，质量分 -12.9% 不显著），有必要拆解其成因，判断是「真副作用」还是「统计假象」。

先看这条指标在各口径下的表现（女性）：

留存口径 · 女	样本量（分子/分母）	质量分	+保量	+打散	判定
大盘 DAU 次留	≈352万/673万	+0.03%	+0.01%	+0.03%	✅ 无损
大盘 DAU 第7日留存	≈83.7万/181万	-0.08%	+0.00%	-0.06%	✅ 无损
创作Tab功能次留	≈1.77K/13.75K	-1.0%	-5.4%	-2.8%	不显著
创作Tab功能 3留	≈999/10.47K	-0.5%	-9.4%	-7.2%	不显著
创作Tab功能 7留	≈358/4.18K	-12.9%	-20.9% 显	-20.6% 显	⚠️ 唯一负向显著

负向的四类可能原因

① 小样本统计噪声（最可能）：7 留分母仅约 4.18K 人（留存分子仅 358 人），是所有口径里样本最小的。留存率本身低（8.6%），少数用户的进出就能造成 ±20% 的相对波动。对照佐证：同一批女性的大盘留存（百万级样本）三组全部无损——若推荐真伤留存，大盘不该毫无反应。
② 短观察窗放大偏差：数据周期仅 6/18–6/30（13 天），能满 7 天的用户本就少且集中在实验前半段，样本进一步被压缩，随机性更强。7 留是所有留存口径中最晚成熟、最易受周期切割影响的。
③ 幸存者/构成偏差：推荐让更多「低意图女性用户」也点开并使用了模板（模板消费面变宽），这批本就留存倾向较低的用户被纳入创作 Tab 功能留存的分母，稀释了 7 留分子占比——即「拉新了弱用户」而非「赶走了老用户」，属良性扩面的副作用而非体验受损。
④ 真实体验副作用（需警惕但证据不足）：若推荐排序对女性偏好匹配不佳，长期可能降低复访。当前唯一支持信号是保量组呈 次留-5.4% → 3留-9.4% → 7留-20.9% 的单调放大趋势，值得盯；但打散组趋势不单调（-2.8%→-7.2%→-20.6% 中间有起伏），且大盘无损，暂不足以定性为真副作用。

综合判断

大概率为「小样本 + 短周期」造成的统计假象，叠加良性扩面稀释（原因①②③），而非推荐真实伤害女性留存。但因保量组存在单调放大趋势（原因④），不能完全排除，需通过下方长期反转实验用大样本 + 长窗口最终定性。

女性留存核验方法

如何确认上述负向到底是真问题还是噪声（4 个方法，按优先级）：

① 大盘 vs 小盘对照（最快）：真副作用应在大样本口径也露头；本次女性百万级大盘留存无损、只有 4.1K 样本口径负向 → 强烈提示为噪声。
② 拉长观察窗：7 留仅覆盖 6/18–6/30 内满 7 天的用户，周期偏短。延长至 3–4 周看负向是否持续、置信区间是否收窄。
③ 看趋势一致性：保量组呈次留-5%→3留-9%→7留-21% 的单调放大，需盯；但样本小仍要放量确认，忽正忽负则判为波动。
④ 提高样本量重跑：将女性子样本扩到万级以上再看显著性是否仍在——这正是下方长期反转实验要解决的。

06三版本横向对比与选型

🥇

推荐放量

质量分+保量+打散

核心收益齐全（模板使用/生成显著）、生图入口负向最小(-2.84%)、banner 转正、大盘无损。综合最稳。

🥈

收益最猛但有取舍

质量分

模板点击发送 CTR 提升最大(+6.36%)，但 AI 生图入口负向也最大(-4.61%)，副作用最重。

🥉

较温和

质量分+新模板保量

收益幅度介于两者之间；女性创作Tab 7留(4.1K小样本)负向显著，与打散版同现，需反转实验复核。

维度	质量分	+保量	+打散
模板点击发送 CTR	+6.36% 显	+5.09% 显	+5.16% 显
模板使用/生成显著性	正向不显著	正向不显著	✅ 显著
AI 生图入口副作用	-4.61%（最重）	-3.09%	-2.84%（最轻）
banner 入口	-2.37%	-2.44%	+0.43%（转正）
大盘留存	无损	无损	无损
风险点	入口挤压重	女性7留负向	最小

07结论与行动建议

① 建议放量「质量分+新模板保量+打散」版本：在拿下核心转化收益的同时，副作用最小、多样性最好、大盘无损，是风险收益比最优的版本。
② 优先复用于中老年 & 男性人群：这两类原基线 CTR 低、提升空间大且显著，可作为推荐策略的重点受益人群做精细化运营。
③ 评估 AI 生图入口的战略取舍：生图入口 -3% 级负向显著是稳定信号。若生图为高优业务，需在 Feeds 流布局中为其保留固定坑位 / 提权，避免被模板完全挤占。
④ 开启创作 Tab 长期反转实验（核心动作，见下方专节）：以贯穿层流量长期验证推荐策略的真实长期收益与副作用，重点回收「女性 7 留」等疑似负向是否长期存在。
⑤ 下钻分析设最小样本门槛：剔除分母过小（如 <数千）子样本的「伪显著」，避免 -64%/+53% 之类噪声误导决策。
⑥ 后续观察项：模板使用/生成在质量分、保量版仅「正向不显著」，建议延长实验或加大流量以确认收益能否转显著。

⑦ 创作 Tab 长期反转实验方案

为验证推荐策略的长期净收益（消除短期新奇效应、回收留存等长周期指标），设立 3% 贯穿层流量的长期反转实验，三桶各占 1% 均分。

桶	流量	策略	作用
反转桶（人工排序）	1%	人工排序（旧对照）	长期反事实基准，衡量「不上推荐」的世界
Baseline 桶	1%	baseline	基线校准，剔除层间偏差与埋点噪声
最优策略桶	1%	现最优策略（质量分+新模板保量+打散）	长期验证推荐净收益与副作用

目的与关注点：

长期净收益验证：对比「最优策略桶 vs 反转桶」在 4 周以上窗口的模板点击发送 CTR、人均使用/生成、创作 Tab 留存，确认短期收益能长期维持、不衰减。
副作用回收：在贯穿层大样本下重新观测「女性 7 留」「AI 生图入口 CTR」，判断此前小样本负向显著是真实副作用还是短期波动。
Baseline 校准：Baseline 桶用于校正贯穿层与常规实验层之间的系统性偏差，保证反转结论可信。

数据来源：实验概况表（23 大盘指标）、年龄下钻表（16 指标 × 9 年龄段）、性别下钻表（16 指标 × 男/女/未知）。
显著性判定采用平台统计检验结果；报告已对小样本极端值做噪声甄别。周期：2026-06-18 ~ 06-30。