01年龄下钻分析
核心收益指标「模板点击发送 uvCTR」在几乎所有年龄段都是正向,且越是中老年群体(41 岁以上)收益越大。
模板点击发送 uvCTR × 年龄(相对对照)
| 年龄段 | 对照基线 | 质量分 | +保量 | +打散 |
| 18 岁及以下 | 0.514 | +8.45% 显 | +5.70% 显 | +5.28% |
| 19-24 岁 | 0.532 | +1.92% | +1.04% | +2.17% |
| 25-30 岁 | 0.531 | +7.38% 显 | +5.62% 显 | +5.05% |
| 31-35 岁 | 0.522 | +5.52% 显 | +2.57% | +3.04% |
| 36-40 岁 | 0.500 | +3.97% | +6.18% 显 | +3.83% |
| 41-45 岁 | 0.450 | +9.18% 显 | +9.10% 显 | +7.66% 显 |
| 46-50 岁 | 0.430 | +6.81% 显 | +4.91% | +5.83% |
| 51 岁及以上 | 0.399 | +8.30% 显 | +5.46% 显 | +7.76% 显 |
关键洞察:①对照组基线 CTR 随年龄下降(0.51→0.40),说明中老年用户原本更难在人工配置下找到合适模板;②推荐策略恰好在这些人群带来最大提升(41-45 岁、51+ 三版本齐显著)。推荐对「长尾/弱表达用户」的帮助最大,这是极有价值的结构性收益。
留存类下钻:极端值多为小样本噪声
年龄下钻中出现的几个「负向显著」需要谨慎剔除小样本噪声:
- DAU次留(新用户) · 51岁+ · -64%、次留 · 18岁以下 · +32%、7留 · 19-24岁 · -39% 等:多数出自分子分母极小的子样本(如 8/26、7/30、238/2.56K),单日波动即可造成大幅相对差异,不构成稳定结论。
- 对应大盘留存全部不显著,可佐证这些是随机波动而非策略真实伤害。
建议:下钻留存结论应设置最小样本量门槛(如分母 ≥ 数千),否则易误判。
02性别下钻分析
收益在男性用户上更强更稳,女性以小幅正向为主。
模板点击发送 CTR · 男
+8.2%~+9.6%
三版本全部正向显著 ✅
模板点击发送 CTR · 女
+1.9%~+3.6%
质量分/打散显著,幅度较小
整体次留 · 男
+6.2%~+6.3%
质量分/打散正向显著 ✅
| 指标 / 人群 | 质量分 | +保量 | +打散 |
| 模板点击发送 CTR · 男(基线 0.419) | +9.61% 显 | +8.81% 显 | +8.18% 显 |
| 模板点击发送 CTR · 女(基线 0.543) | +3.56% 显 | +1.86% | +2.36% 显 |
| 整体创作 tab 次留 · 男 | +6.34% 显 | +2.88% | +6.19% 显 |
| 人均模板使用次数 · 男 | +14.16% | +12.67% | +18.84% 显 |
| 人均模板使用次数 · 女(基线 2.98,样本≈3.15K 人) | +15.05% | +1.10% | +11.23% |
| 整体创作 tab 7 留 · 女(样本≈4.18K 人) | -12.9% | -20.9% 显 | -20.6% 显 |
解读:①男性基线 CTR 更低(0.419 vs 女 0.543),推荐带来的提升空间更大、效果更强,与年龄结论「帮助弱表达用户」一致;②男性次留同步正向显著,说明消费提升传导到了留存;③女性「创作 Tab 功能 7 留」在「+保量」「+打散」两组负向显著(-20.9% / -20.6%),质量分组不显著(-12.9%)——但该口径分母仅约 4.1K 人(358/4.18K 量级),是所有留存口径中样本最小的;而女性大盘 DAU 次留/7 留(百万级样本)三组全部无损(±0.1% 内)。大概率为小样本+短周期波动,需按下方方法复核确认。
专项:「整体创作 Tab 7 留 · 女」为何负向显著
这是本实验唯一在女性人群上出现的负向显著信号(+保量 -20.9%、+打散 -20.6%,质量分 -12.9% 不显著),有必要拆解其成因,判断是「真副作用」还是「统计假象」。
先看这条指标在各口径下的表现(女性):
| 留存口径 · 女 | 样本量(分子/分母) | 质量分 | +保量 | +打散 | 判定 |
| 大盘 DAU 次留 | ≈352万/673万 | +0.03% | +0.01% | +0.03% | ✅ 无损 |
| 大盘 DAU 第7日留存 | ≈83.7万/181万 | -0.08% | +0.00% | -0.06% | ✅ 无损 |
| 创作Tab功能 次留 | ≈1.77K/13.75K | -1.0% | -5.4% | -2.8% | 不显著 |
| 创作Tab功能 3留 | ≈999/10.47K | -0.5% | -9.4% | -7.2% | 不显著 |
| 创作Tab功能 7留 | ≈358/4.18K | -12.9% | -20.9% 显 | -20.6% 显 | ⚠️ 唯一负向显著 |
负向的四类可能原因
- ① 小样本统计噪声(最可能):7 留分母仅约 4.18K 人(留存分子仅 358 人),是所有口径里样本最小的。留存率本身低(8.6%),少数用户的进出就能造成 ±20% 的相对波动。对照佐证:同一批女性的大盘留存(百万级样本)三组全部无损——若推荐真伤留存,大盘不该毫无反应。
- ② 短观察窗放大偏差:数据周期仅 6/18–6/30(13 天),能满 7 天的用户本就少且集中在实验前半段,样本进一步被压缩,随机性更强。7 留是所有留存口径中最晚成熟、最易受周期切割影响的。
- ③ 幸存者/构成偏差:推荐让更多「低意图女性用户」也点开并使用了模板(模板消费面变宽),这批本就留存倾向较低的用户被纳入创作 Tab 功能留存的分母,稀释了 7 留分子占比——即「拉新了弱用户」而非「赶走了老用户」,属良性扩面的副作用而非体验受损。
- ④ 真实体验副作用(需警惕但证据不足):若推荐排序对女性偏好匹配不佳,长期可能降低复访。当前唯一支持信号是保量组呈 次留-5.4% → 3留-9.4% → 7留-20.9% 的单调放大趋势,值得盯;但打散组趋势不单调(-2.8%→-7.2%→-20.6% 中间有起伏),且大盘无损,暂不足以定性为真副作用。
综合判断
大概率为「小样本 + 短周期」造成的统计假象,叠加良性扩面稀释(原因①②③),而非推荐真实伤害女性留存。但因保量组存在单调放大趋势(原因④),不能完全排除,需通过长期反转实验用大样本 + 长窗口最终定性。
女性留存核验方法
如何确认上述负向到底是真问题还是噪声(4 个方法,按优先级):
- ① 大盘 vs 小盘对照(最快):真副作用应在大样本口径也露头;本次女性百万级大盘留存无损、只有 4.1K 样本口径负向 → 强烈提示为噪声。
- ② 拉长观察窗:7 留仅覆盖 6/18–6/30 内满 7 天的用户,周期偏短。延长至 3–4 周看负向是否持续、置信区间是否收窄。
- ③ 看趋势一致性:保量组呈 次留-5%→3留-9%→7留-21% 的单调放大,需盯;但样本小仍要放量确认,忽正忽负则判为波动。
- ④ 提高样本量重跑:将女性子样本扩到万级以上再看显著性是否仍在——这正是长期反转实验要解决的。
03三版本横向对比与选型
🥇推荐放量
质量分+保量+打散
核心收益齐全(模板使用/生成显著)、生图入口负向最小(-2.84%)、banner 转正、大盘无损。综合最稳。
🥈收益最猛但有取舍
质量分
模板点击发送 CTR 提升最大(+6.36%),但 AI 生图入口负向也最大(-4.61%),副作用最重。
🥉较温和
质量分+新模板保量
收益幅度介于两者之间;女性创作Tab 7留(4.1K小样本)负向显著,与打散版同现,需反转实验复核。
| 维度 | 质量分 | +保量 | +打散 |
| 模板点击发送 CTR | +6.36% 显 | +5.09% 显 | +5.16% 显 |
| 模板使用/生成显著性 | 正向不显著 | 正向不显著 | ✅ 显著 |
| AI 生图入口副作用 | -4.61%(最重) | -3.09% | -2.84%(最轻) |
| banner 入口 | -2.37% | -2.44% | +0.43%(转正) |
| 大盘留存 | 无损 | 无损 | 无损 |
| 风险点 | 入口挤压重 | 女性7留负向 | 最小 |
选型结论:推荐放量 ③「质量分+新模板保量+打散」——在拿下核心转化收益(模板点击发送 CTR +5.16% 显著、人均使用/生成显著)的同时,AI 生图入口副作用最小(-2.84%)、banner 转正、大盘无损,是三版本中风险收益比最优、最稳的方案。