A/B EXPERIMENT · 下钻与选型

创作 Tab 推荐实验 · 年龄/性别下钻 & 三版本选型

实验 ID:exp_create_tab_recommendation_01 · 数据周期:2026-06-18 ~ 2026-06-30(13 天)
对照组:人工排序 | 实验组:①质量分 ②质量分+新模板保量 ③质量分+新模板保量+打散
→ 查看完整系统性分析报告

01年龄下钻分析

核心收益指标「模板点击发送 uvCTR」在几乎所有年龄段都是正向,且越是中老年群体(41 岁以上)收益越大

模板点击发送 uvCTR × 年龄(相对对照)

年龄段对照基线质量分+保量+打散
18 岁及以下0.514+8.45% +5.70% +5.28%
19-24 岁0.532+1.92%+1.04%+2.17%
25-30 岁0.531+7.38% +5.62% +5.05%
31-35 岁0.522+5.52% +2.57%+3.04%
36-40 岁0.500+3.97%+6.18% +3.83%
41-45 岁0.450+9.18% +9.10% +7.66%
46-50 岁0.430+6.81% +4.91%+5.83%
51 岁及以上0.399+8.30% +5.46% +7.76%
关键洞察:①对照组基线 CTR 随年龄下降(0.51→0.40),说明中老年用户原本更难在人工配置下找到合适模板;②推荐策略恰好在这些人群带来最大提升(41-45 岁、51+ 三版本齐显著)。推荐对「长尾/弱表达用户」的帮助最大,这是极有价值的结构性收益。

留存类下钻:极端值多为小样本噪声

年龄下钻中出现的几个「负向显著」需要谨慎剔除小样本噪声

  • DAU次留(新用户) · 51岁+ · -64%次留 · 18岁以下 · +32%7留 · 19-24岁 · -39% 等:多数出自分子分母极小的子样本(如 8/26、7/30、238/2.56K),单日波动即可造成大幅相对差异,不构成稳定结论
  • 对应大盘留存全部不显著,可佐证这些是随机波动而非策略真实伤害

建议:下钻留存结论应设置最小样本量门槛(如分母 ≥ 数千),否则易误判。

02性别下钻分析

收益在男性用户上更强更稳,女性以小幅正向为主。

模板点击发送 CTR · 男
+8.2%~+9.6%
三版本全部正向显著 ✅
模板点击发送 CTR · 女
+1.9%~+3.6%
质量分/打散显著,幅度较小
整体次留 · 男
+6.2%~+6.3%
质量分/打散正向显著 ✅
指标 / 人群质量分+保量+打散
模板点击发送 CTR · 男(基线 0.419)+9.61% +8.81% +8.18%
模板点击发送 CTR · 女(基线 0.543)+3.56% +1.86%+2.36%
整体创作 tab 次留 · 男+6.34% +2.88%+6.19%
人均模板使用次数 · 男+14.16%+12.67%+18.84%
人均模板使用次数 · 女(基线 2.98,样本≈3.15K 人)+15.05%+1.10%+11.23%
整体创作 tab 7 留 · 女(样本≈4.18K 人)-12.9%-20.9% -20.6%
解读:①男性基线 CTR 更低(0.419 vs 女 0.543),推荐带来的提升空间更大、效果更强,与年龄结论「帮助弱表达用户」一致;②男性次留同步正向显著,说明消费提升传导到了留存;③女性「创作 Tab 功能 7 留」在「+保量」「+打散」两组负向显著(-20.9% / -20.6%),质量分组不显著(-12.9%)——但该口径分母仅约 4.1K 人(358/4.18K 量级),是所有留存口径中样本最小的;而女性大盘 DAU 次留/7 留(百万级样本)三组全部无损(±0.1% 内)。大概率为小样本+短周期波动,需按下方方法复核确认。

专项:「整体创作 Tab 7 留 · 女」为何负向显著

这是本实验唯一在女性人群上出现的负向显著信号(+保量 -20.9%、+打散 -20.6%,质量分 -12.9% 不显著),有必要拆解其成因,判断是「真副作用」还是「统计假象」。

先看这条指标在各口径下的表现(女性):

留存口径 · 女样本量(分子/分母)质量分+保量+打散判定
大盘 DAU 次留≈352万/673万+0.03%+0.01%+0.03%✅ 无损
大盘 DAU 第7日留存≈83.7万/181万-0.08%+0.00%-0.06%✅ 无损
创作Tab功能 次留≈1.77K/13.75K-1.0%-5.4%-2.8%不显著
创作Tab功能 3留≈999/10.47K-0.5%-9.4%-7.2%不显著
创作Tab功能 7留≈358/4.18K-12.9%-20.9% -20.6% ⚠️ 唯一负向显著

负向的四类可能原因

  • ① 小样本统计噪声(最可能):7 留分母仅约 4.18K 人(留存分子仅 358 人),是所有口径里样本最小的。留存率本身低(8.6%),少数用户的进出就能造成 ±20% 的相对波动。对照佐证:同一批女性的大盘留存(百万级样本)三组全部无损——若推荐真伤留存,大盘不该毫无反应。
  • ② 短观察窗放大偏差:数据周期仅 6/18–6/30(13 天),能满 7 天的用户本就少且集中在实验前半段,样本进一步被压缩,随机性更强。7 留是所有留存口径中最晚成熟、最易受周期切割影响的。
  • ③ 幸存者/构成偏差:推荐让更多「低意图女性用户」也点开并使用了模板(模板消费面变宽),这批本就留存倾向较低的用户被纳入创作 Tab 功能留存的分母,稀释了 7 留分子占比——即「拉新了弱用户」而非「赶走了老用户」,属良性扩面的副作用而非体验受损。
  • ④ 真实体验副作用(需警惕但证据不足):若推荐排序对女性偏好匹配不佳,长期可能降低复访。当前唯一支持信号是保量组呈 次留-5.4% → 3留-9.4% → 7留-20.9% 的单调放大趋势,值得盯;但打散组趋势不单调(-2.8%→-7.2%→-20.6% 中间有起伏),且大盘无损,暂不足以定性为真副作用。

综合判断

大概率为「小样本 + 短周期」造成的统计假象,叠加良性扩面稀释(原因①②③),而非推荐真实伤害女性留存。但因保量组存在单调放大趋势(原因④),不能完全排除,需通过长期反转实验用大样本 + 长窗口最终定性。

女性留存核验方法

如何确认上述负向到底是真问题还是噪声(4 个方法,按优先级):

  • ① 大盘 vs 小盘对照(最快):真副作用应在大样本口径也露头;本次女性百万级大盘留存无损、只有 4.1K 样本口径负向 → 强烈提示为噪声。
  • ② 拉长观察窗:7 留仅覆盖 6/18–6/30 内满 7 天的用户,周期偏短。延长至 3–4 周看负向是否持续、置信区间是否收窄。
  • ③ 看趋势一致性:保量组呈 次留-5%→3留-9%→7留-21% 的单调放大,需盯;但样本小仍要放量确认,忽正忽负则判为波动。
  • ④ 提高样本量重跑:将女性子样本扩到万级以上再看显著性是否仍在——这正是长期反转实验要解决的。

03三版本横向对比与选型

🥇
推荐放量
质量分+保量+打散
核心收益齐全(模板使用/生成显著)、生图入口负向最小(-2.84%)、banner 转正、大盘无损。综合最稳。
🥈
收益最猛但有取舍
质量分
模板点击发送 CTR 提升最大(+6.36%),但 AI 生图入口负向也最大(-4.61%),副作用最重。
🥉
较温和
质量分+新模板保量
收益幅度介于两者之间;女性创作Tab 7留(4.1K小样本)负向显著,与打散版同现,需反转实验复核。
维度质量分+保量+打散
模板点击发送 CTR+6.36% 显+5.09% 显+5.16% 显
模板使用/生成显著性正向不显著正向不显著✅ 显著
AI 生图入口副作用-4.61%(最重)-3.09%-2.84%(最轻)
banner 入口-2.37%-2.44%+0.43%(转正)
大盘留存无损无损无损
风险点入口挤压重女性7留负向最小
选型结论:推荐放量 ③「质量分+新模板保量+打散」——在拿下核心转化收益(模板点击发送 CTR +5.16% 显著、人均使用/生成显著)的同时,AI 生图入口副作用最小(-2.84%)、banner 转正、大盘无损,是三版本中风险收益比最优、最稳的方案。
数据来源:年龄下钻表(16 指标 × 9 年龄段)、性别下钻表(16 指标 × 男/女/未知)、实验概况表。
显著性判定采用平台统计检验结果;报告已对小样本极端值做噪声甄别。周期:2026-06-18 ~ 06-30。