创作Tab推荐实验 · 下钻与选型分析

01年龄下钻分析

核心收益指标「模板点击发送 uvCTR」在几乎所有年龄段都是正向，且越是中老年群体（41 岁以上）收益越大。

模板点击发送 uvCTR × 年龄（相对对照）

年龄段	对照基线	质量分	+保量	+打散
18 岁及以下	0.514	+8.45% 显	+5.70% 显	+5.28%
19-24 岁	0.532	+1.92%	+1.04%	+2.17%
25-30 岁	0.531	+7.38% 显	+5.62% 显	+5.05%
31-35 岁	0.522	+5.52% 显	+2.57%	+3.04%
36-40 岁	0.500	+3.97%	+6.18% 显	+3.83%
41-45 岁	0.450	+9.18% 显	+9.10% 显	+7.66% 显
46-50 岁	0.430	+6.81% 显	+4.91%	+5.83%
51 岁及以上	0.399	+8.30% 显	+5.46% 显	+7.76% 显

关键洞察：①对照组基线 CTR 随年龄下降（0.51→0.40），说明中老年用户原本更难在人工配置下找到合适模板；②推荐策略恰好在这些人群带来最大提升（41-45 岁、51+ 三版本齐显著）。推荐对「长尾/弱表达用户」的帮助最大，这是极有价值的结构性收益。

留存类下钻：极端值多为小样本噪声

年龄下钻中出现的几个「负向显著」需要谨慎剔除小样本噪声：

DAU次留(新用户) · 51岁+ · -64%、次留 · 18岁以下 · +32%、7留 · 19-24岁 · -39% 等：多数出自分子分母极小的子样本（如 8/26、7/30、238/2.56K），单日波动即可造成大幅相对差异，不构成稳定结论。
对应大盘留存全部不显著，可佐证这些是随机波动而非策略真实伤害。

建议：下钻留存结论应设置最小样本量门槛（如分母 ≥ 数千），否则易误判。

02性别下钻分析

收益在男性用户上更强更稳，女性以小幅正向为主。

模板点击发送 CTR · 男

+8.2%~+9.6%

三版本全部正向显著 ✅

模板点击发送 CTR · 女

+1.9%~+3.6%

质量分/打散显著，幅度较小

整体次留 · 男

+6.2%~+6.3%

质量分/打散正向显著 ✅

指标 / 人群	质量分	+保量	+打散
模板点击发送 CTR · 男（基线 0.419）	+9.61% 显	+8.81% 显	+8.18% 显
模板点击发送 CTR · 女（基线 0.543）	+3.56% 显	+1.86%	+2.36% 显
整体创作 tab 次留 · 男	+6.34% 显	+2.88%	+6.19% 显
人均模板使用次数 · 男	+14.16%	+12.67%	+18.84% 显
人均模板使用次数 · 女（基线 2.98，样本≈3.15K 人）	+15.05%	+1.10%	+11.23%
整体创作 tab 7 留 · 女（样本≈4.18K 人）	-12.9%	-20.9% 显	-20.6% 显

解读：①男性基线 CTR 更低（0.419 vs 女 0.543），推荐带来的提升空间更大、效果更强，与年龄结论「帮助弱表达用户」一致；②男性次留同步正向显著，说明消费提升传导到了留存；③女性「创作 Tab 功能 7 留」在「+保量」「+打散」两组负向显著（-20.9% / -20.6%），质量分组不显著（-12.9%）——但该口径分母仅约 4.1K 人（358/4.18K 量级），是所有留存口径中样本最小的；而女性大盘 DAU 次留/7 留（百万级样本）三组全部无损（±0.1% 内）。大概率为小样本+短周期波动，需按下方方法复核确认。

专项：「整体创作 Tab 7 留 · 女」为何负向显著

这是本实验唯一在女性人群上出现的负向显著信号（+保量 -20.9%、+打散 -20.6%，质量分 -12.9% 不显著），有必要拆解其成因，判断是「真副作用」还是「统计假象」。

先看这条指标在各口径下的表现（女性）：

留存口径 · 女	样本量（分子/分母）	质量分	+保量	+打散	判定
大盘 DAU 次留	≈352万/673万	+0.03%	+0.01%	+0.03%	✅ 无损
大盘 DAU 第7日留存	≈83.7万/181万	-0.08%	+0.00%	-0.06%	✅ 无损
创作Tab功能次留	≈1.77K/13.75K	-1.0%	-5.4%	-2.8%	不显著
创作Tab功能 3留	≈999/10.47K	-0.5%	-9.4%	-7.2%	不显著
创作Tab功能 7留	≈358/4.18K	-12.9%	-20.9% 显	-20.6% 显	⚠️ 唯一负向显著

负向的四类可能原因

① 小样本统计噪声（最可能）：7 留分母仅约 4.18K 人（留存分子仅 358 人），是所有口径里样本最小的。留存率本身低（8.6%），少数用户的进出就能造成 ±20% 的相对波动。对照佐证：同一批女性的大盘留存（百万级样本）三组全部无损——若推荐真伤留存，大盘不该毫无反应。
② 短观察窗放大偏差：数据周期仅 6/18–6/30（13 天），能满 7 天的用户本就少且集中在实验前半段，样本进一步被压缩，随机性更强。7 留是所有留存口径中最晚成熟、最易受周期切割影响的。
③ 幸存者/构成偏差：推荐让更多「低意图女性用户」也点开并使用了模板（模板消费面变宽），这批本就留存倾向较低的用户被纳入创作 Tab 功能留存的分母，稀释了 7 留分子占比——即「拉新了弱用户」而非「赶走了老用户」，属良性扩面的副作用而非体验受损。
④ 真实体验副作用（需警惕但证据不足）：若推荐排序对女性偏好匹配不佳，长期可能降低复访。当前唯一支持信号是保量组呈 次留-5.4% → 3留-9.4% → 7留-20.9% 的单调放大趋势，值得盯；但打散组趋势不单调（-2.8%→-7.2%→-20.6% 中间有起伏），且大盘无损，暂不足以定性为真副作用。

综合判断

大概率为「小样本 + 短周期」造成的统计假象，叠加良性扩面稀释（原因①②③），而非推荐真实伤害女性留存。但因保量组存在单调放大趋势（原因④），不能完全排除，需通过长期反转实验用大样本 + 长窗口最终定性。

女性留存核验方法

如何确认上述负向到底是真问题还是噪声（4 个方法，按优先级）：

① 大盘 vs 小盘对照（最快）：真副作用应在大样本口径也露头；本次女性百万级大盘留存无损、只有 4.1K 样本口径负向 → 强烈提示为噪声。
② 拉长观察窗：7 留仅覆盖 6/18–6/30 内满 7 天的用户，周期偏短。延长至 3–4 周看负向是否持续、置信区间是否收窄。
③ 看趋势一致性：保量组呈次留-5%→3留-9%→7留-21% 的单调放大，需盯；但样本小仍要放量确认，忽正忽负则判为波动。
④ 提高样本量重跑：将女性子样本扩到万级以上再看显著性是否仍在——这正是长期反转实验要解决的。

03三版本横向对比与选型

🥇

推荐放量

质量分+保量+打散

核心收益齐全（模板使用/生成显著）、生图入口负向最小(-2.84%)、banner 转正、大盘无损。综合最稳。

🥈

收益最猛但有取舍

质量分

模板点击发送 CTR 提升最大(+6.36%)，但 AI 生图入口负向也最大(-4.61%)，副作用最重。

🥉

较温和

质量分+新模板保量

收益幅度介于两者之间；女性创作Tab 7留(4.1K小样本)负向显著，与打散版同现，需反转实验复核。

维度	质量分	+保量	+打散
模板点击发送 CTR	+6.36% 显	+5.09% 显	+5.16% 显
模板使用/生成显著性	正向不显著	正向不显著	✅ 显著
AI 生图入口副作用	-4.61%（最重）	-3.09%	-2.84%（最轻）
banner 入口	-2.37%	-2.44%	+0.43%（转正）
大盘留存	无损	无损	无损
风险点	入口挤压重	女性7留负向	最小

选型结论：推荐放量 ③「质量分+新模板保量+打散」——在拿下核心转化收益（模板点击发送 CTR +5.16% 显著、人均使用/生成显著）的同时，AI 生图入口副作用最小（-2.84%）、banner 转正、大盘无损，是三版本中风险收益比最优、最稳的方案。

数据来源：年龄下钻表（16 指标 × 9 年龄段）、性别下钻表（16 指标 × 男/女/未知）、实验概况表。
显著性判定采用平台统计检验结果；报告已对小样本极端值做噪声甄别。周期：2026-06-18 ~ 06-30。