Tiktok求职:数据科学面试中的7个问题和答案(下)——分析结果与上线决定
Tiktok求职:数据科学面试中的7个问题和答案(下)——分析结果与上线决定
篱笆资讯
Tiktok求职:数据科学面试中的7个问题和答案(下)——分析结果与上线决定
分析结果
Novelty Effect和Primary Effect
当产品功能发生改变时,人们对它的反应会有所不同。有些人习惯了产品以前的样子,所以不喜欢最新的变化,这就是Primary Effect。但相反的,有些人可能会在新功能上线后更多地使用该产品,也即Novelty Effect。但是,这两种影响都不会持续很长时间,因为人们的行为会在一定时间后稳定下来。如果 A/B实验所验证的功能改变,在全量上线后具有较大或较小的初始效果,则可能是由于上面说的两种原因。类似的面试问题可能是:
我们对一项新功能进行了 A/B 实验,实验结果显示新功能的效果非常显著,因此决定全量上线新功能。然而,在推出该功能一周后,我们发现效果并未达到预期,原因是什么呢?
答案其实就是Novelty Effect。随着时间的推移,用户逐渐适应了新的功能,也就丧失了一开始的兴趣,因此对app的使用也逐渐恢复到正常水平。
 
那么如何解决这类问题对实验的影响呢,两个办法:
  1. 拉长实验周期。既然这两类问题都会随着时间的推移逐渐得到解决,那我们当然可以在各方能接受的范围内,拉长时间周期,来看到更接近真实影响的结果
  2. 只对新用户或者初次使用的用户做实验。这种方式就可以完全规避掉用户曾经使用过这一功能的问题
多重测试问题
A/B实验最简单的方式是两个组,实验组和对照组各一个。但在真实业务中,我们会开多个实验组,同时验证多个变量。比如最简单的,一个按钮的不同颜色。在这种情况下,我们不应该简单地使用相同的显着性水平0.05来判断实验结果是否显着,因为如果实验分组超过2个,犯错概率会提高。比如,如果我们有3个实验组与对照组进行比较,观察到至少 1 个False Positive的概率是多大(假设我们的显着性水平α为0.05)?
 
我们可以得到没有误报的概率(假设这些组是独立的),
P(FP = 0) = 0.95 * 0.95 * 0.95 = 0.857
 
然后获得至少有 1 个误报的概率
P(FP >= 1) = 1 — P(FP = 0) = 0.143
 
在有3组实验的情况下,TypeI Error的概率超过 14%。这就是“多重测试”问题,也即英文中的multiple test。面试中,可能的问法是:
我们正在对 10 种不同的页面样式进行测试,其中一个实验组p 值小于 0.05,我们应该全量这个实验组吗?
答案当然是否定的,因为多重测试问题。通常我们可以用Bonferroni Correction解决这个问题。将显著性水平0.05除以实验组数(不包含对照组)。对于面试问题,因为我们有10组实验,因此测试的显着性水平应该是 0.05 除以 10,即 0.005。基本上,只有当 p 值小于 0.005 时,我们才能称结果显著。但Bonferroni Correction的缺点是过于保守。
做出新功能上线与否的决定
在理想情况下,我们会看到实验组有显著的结果,我们可以考虑向所有用户推出该功能。但有时,我们会看到相互矛盾的结果,例如一个指标上升而另一个指标下降,因此需要我们根据实际情况做出权衡。一个可能的面试问法是:
实验结束后,我们发现点击率上升而展示次数减少。该如何判断是否要上线该功能?
这种情况下,我们需要把重点放在我们这个功能最希望带来的改变上。比如,某个功能优化,是为了最大限度地提高用户留存,还是追求更高收入?如果是追求更高收入,那么在用户留存的负向影响可以接受的前提下,就可以做出上线决定。不过上线后,建议预留长期的反转实验,来监测长期的负向影响
coffee 直连行业大牛导师,1v1模拟面试与求职指导
mentors
airplay 实战与求职精品课程
数据科学
软件工程
人工智能
金融商科
产品经理
产品设计
bookmark 2000+名企面试真题
amazon google tiktok microsoft meta