A/B测试是一种互联网常用的对比试验,在试验过程中,我们从总体中抽取一些样本进行数据统计,进而得出对总体参数的一个评估。实际上是统计学上假设检验(显著性检验)的一种应用。
首先,让我们用大白话理解一下这个什么是假设检验
统计假设检验意味着没有任何检验可以百分百确定,因为我们依靠概率进行试验。
假设检验的基本思想是“小概率事件”原理,小概率思想是指小概率事件在一次试验中基本上不会发生。
小概率事件:有一天你突然发现你的远房亲戚是亿万富豪,他还想把遗产给你。
因为是小概率事件,我们认为这基本不会发生,那么就踏踏实实工作吧。
假设检验的统计推断方法是带有某种概率性质的反证法。反证法思想是先提出检验假设,再用适当的统计方法,利用小概率原理,确定假设是否成立。
检验一个假设H0是否正确,首先假定该假设H0正确,然后根据样本对假设H0做出接受或拒绝的决策。如果样本观察值导致了“小概率事件”发生,就应拒绝假设H0,否则应接受假设H0
H0(原假设):远房亲戚是亿万富豪,他想把遗产给你
H1(备择假设):H0不对
样本观察值显示,H0发生的概率很小,是“小概率事件”
那么拒绝H0。
可以发现,原假设是想要推翻的假设,备择假设才是我们想要的结果。
将基本思想应用到A/B测试在A/B测试过程中,因为我们试验的目的是通过反证法证明测试版本和对照版本有明显的不同(更好)。
比如一个网页,用红色背景(测试版本B)要比绿色背景更好(对照版本A)。
H0:原始版本和试验版本无差异(A=B)
HI:这两个版本存在差异(A≠B)
(原假设是想要推翻的假设,备择假设才是我们想要的结果。)
假设检验的两类错误因为我们依靠概率进行试验,所以必然会出现失误。
哪怕“远房亲戚是亿万富豪,他想把遗产给你”有99.99999……999%的概率不可能发生,但是一旦0.0000000……01的可能性发生了,那就是发生了。
错误有两类:
⑴ 第一类错误:弃真错误
在原假设为真时,决定放弃原假设,称为第一类错误,其出现的概率通常记作α;A/B:2个版本无差异时候,我们错误的认为他们有差异我们会预先设定一个数比如α 是0.05,如果一件事发生的概率只有5%,那就认为是小概率,就会把它拒绝。但是,有可能真实的情况就落在这5%之中。
目标:假设要增加网站上显示的横幅广告的转化次数。为了解决这个问题,计划添加图片,查看它是否增加了转化次数。
A/B测试:对包含图像的版本(B)运行控制版本(A)的A / B测试。5天后,变体(B)的转化率惊人地提高了25%,置信度为85%,超过了对照版本。
于是,我们在横幅中实现图像。但是,一个月后,逐月转换实际上减少了。
这是因为遇到了第1类错误:从长远来看,新版本实际上没有超过控制版本。
⑵ 第二类错误(取伪错误):
在原假设不真时,决定不放弃原假设,其出现的概率通常记作βA/B:2个版本有差异时候,我们认为他们没有差异
经营一家电子商务商店,为了增加转化次数,可以在产品页面下方实施常见问题解答。
A/B测试:结果显示,您两个版本的转换速度似乎相同,因此接受假设,并保持产品页面不变。
结果,竞争对手同时实施了一个常见问题解答,转化率出现了正增长。
这是因为遇到了第2类错误:其实,新版本超过了控制版本,但没有采用。
样本量、显着性水平的选择(α)、方差等都会对第二类错误发生的概率产生影响。总结
按照假设检验的思路,对AB两个版本提出假设,H1是我们想要的假设(B和A有差异),H0是要拒绝的假设(无差异)。
第一类错误,原假设为真时,决定放弃原假设(B版本不好,但换了B版本)
第二类错误,原假设不真时,接受原假设(B版本更好,但没换B版本)
横轴:现实情况 纵轴:估计情况