对于公卫人来说,在统计学的殿堂中,P值是神圣的,有着超乎寻常的地位。然而,P值总是给我们的实验和数据分析带来一些意想不到的结果,或好或坏,令人深受P值的荼毒。
那么,我们今天就来探讨一项近几年来在学术界引起的争议问题——P值以及P值该不该废?
首先,和大家说一下,P值是什么?
P值是什么
P值是用来判定假设检验结果的一个依据,根据不同的分布类型使用分布的拒绝域来比较P值与检验水准的大小以做出对应的推断结论。
P值的意义
P值(P value)就是当原假设为真时,所得到的样本观察结果或更极端结果出现的概率。
如果P值很小,说明原假设情况的发生的概率很小,那么一旦出现了原假设的结果,根据小概率原理,我们就有理由拒绝原假设。P值越小,我们拒绝原假设的理由越充分。总之,P值越小,只能越有理由拒绝原假设。
但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来判断。
P值与Ⅰ类错误的关系
说到P值,我们就会想到Ⅰ类错误。在我们统计课本的学习中,我们认为P值和Ⅰ类错误是等价的。但是在实际的应用中,这种误解会极大地影响研究的可重复性、医疗实践中的治疗选择和实证分析中的模型规范[1]。
P值哪里存在争议(缺点)
众所周知的,P值是统计有效性的“黄金标准”。在计算机时代,即使是复杂的统计,P值也很容易计算,P值的范围在0-1之间,并且可以被人们直接的理解;大多数受过统计学训练的人可能都同意:P值低表示可能有(统计学)意义,而当P值较高时,这一点就不那么明显了。
低P值通常出现在一些临床研究出版物的结果中;这些文章经常对P值进行重复的评价,P值的含义几乎普遍被曲解,很多学者认为仅仅通过P值得出的结论是不可靠的,而且会经常夸大不利于零的证据[2]。
P值还被指责本质上具有欺骗性,因为它们将效应大小和样本量混淆成一个令人困惑的数字。另外,还需注意,P值不是客观的衡量标准,它们不具备我们认为的证据的性质。但从逻辑上讲,似乎有资格作为支持或反对任何事情的衡量标准。
举个例子:
假设一种止痛药有24小时的有效记录,而现在另一家制药商声称其新的非处方药可以持续更长时间。
一名调查员想要测试这一说法是否属实。研究人员没有从所有服用新药的患者那里收集数据(这通常是不可行的),而是决定随机调查50名患者,以收集新止痛药持续多长时间(小时)的数据。
因此,研究人员现在有了一个随机变量X,即来自50名患者样本的平均小时数。这是一个随机变量,因为50名患者是随机选择的,在进行调查和计算平均值之前,没有人知道这个变量的值是多少。
然而,每个调查都产生一个固定的数字X,它本身不是随机变量,而是随机变量X的实现或观测(以下,设X表示随机变量,X表示固定值,即X的观测)。
直观地说,如果调查得出的值(止痛药的平均持续时间)非常接近24,比如23或25,研究人员就不会相信新的止痛药更糟或更好。如果调查达到平均32小时,调查者会相信它确实持续了更长时间。
如果调查显示平均持续时间为22或26小时,很难得出结论。这种新止痛药的使用时间真的更短、更长,还是随机产生的(毕竟,只有50名患者接受了调查)?[2]
这样的话,我们难以得知,很难仅仅通过P值的大小,进行判断谁更有效。
归根到底,就是因为我们通过统计学方法算出来的P值存在不确定性,统计测试的结果确实会影响我们做出推断——即:是否认为一个经过测试的假设可能是正确的。
因此,评估统计测试结果就是判断它们对科学命题的证据支持与否。不幸的是,P值不是在该过程中使用的可靠度量。P值也不是一个假设真实性的可靠指标,无论它是零假设还是替代假设。
P值该废么?
对于P值何去何从的问题,一直争论不休,没有统一的学术界标准。引起热议的是在2019年,3位统计学家在《Nature》上发布公开信,号召专家们放弃追求“统计学意义”,这封公开信一周之内吸引了超过800名研究人员共同支持。这不禁引起作为小白的我们深思,统计学还有用么,我们还要不要继续学习统计学呢?
▲ 图片来源于网络
三位统计学家提出建议,首先要明确必须停止的事:永远不应该仅仅因为P值大于阈值(如0.05)就得出“没有差异”或“没有关联”的结论;或者,仅仅因为置信区间包含0就得出这样的结论。
然而,在我们学习统计学的过程,我们却理所当然的把P=0.05作为显著性的标准。同时,我们在开始学习统计学的时候,一直被告诫,统计学上的显著性,并不等于临床上的显著性。我们要回到具体问题具体分析上。
也就是说,统计学的结果有不确定性,然而我们没有一种方法,能够明确的进行不确定性的判断,所以说,禁止显著性检验和接受不确定性,尽管在许多情况下是合理的,但几乎没有提供一个新的方法对我们的研究来进行判断。
简而言之,我们迫切的需要正确的理解P值,需要进一步探索如何更好的进行统计分析,选择合适的指标来取代P值。让统计分析更好地理解运用于实际中。
同时,三位科学家指出,停止使用P值,并不是禁止。在某些情况下,P值仍然可以作为决策的标准。这其实与我们学习的统计学并不冲突,也就是说,避免P值的决定性标准,改变传统的非黑即白的判断,即如果仅仅侧重于统计学意义的估计和讨论是有偏见的。
总之,我们对待科学研究要抱有怀疑的态度,切莫以偏概全,要做到具体问题具体分析。不要太相信统计分析的数据结果,要结合实际情况和专业知识去判断是否具有实际意义。