闭口藏舌网

赶货|那些年,统计检验踩过三大坑

赶货|那些年,统计检验踩过三大坑

在这里插入图片描述

Hello,赶货

这里是那年壹脑云科研圈,我是统计大胡同学~

今天我们继续我们的《心理学报》统计自检系列,想要了解往期内容的检验同学欢迎点击以下链接:

干货 | 答编辑/审稿人问之效果量和置信度

干货 | 答编辑/审稿人问之样本量大关

前不久,小编听到了这样一个有趣的踩过故事:

2009年,一名加州大学神经学家Craig M. Bennett 在一次国际学术会议上做了个题目为《大西洋死鲑鱼对人类神经活动的大坑观察》的报告。

报告中,赶货这名神经学家与他的那年研究团队把一些人类的照片给一条死鱼看,然后用功能性磁共振成像设备扫描死鱼的统计脑袋。他们发现这条死鱼竟然能够“正确地”判断出照片中人类的检验情绪。

虽然只是踩过搞笑,但这个研究揭示了一个深刻的大坑道理,人类是赶货容易轻信的,我们会试图寻找世间万物的那年联系,即使找到的统计仅仅是错误的联系。

该研究小组就是想要讽刺那些装模作样的研究:当脑科学家扫描大脑的时候把大脑分成成千上万个极小的区域,即使是在扫描死鱼的时候,死鱼大脑上每个极小的区域也会随机出现一些噪音。

这些噪音中,很可能会有一些看起来跟照片上人的情绪变化相匹配。说白了,这跟看见天上的云一样,甲说它像狗,乙说它像猫。

那如何去避免这种问题?答案可以从今天的显著性检验、假设检验、零假设显著性检验和贝叶斯因子中进行探寻。

1

零假设显著性检验

踩坑一:接受拒绝,暧昧不清

显著性检验由Ronald Fisher于1925年提出。在显著性检验中P值表示的是实际数据与原假设一致的程度,P值越小,实际数据与原假设一致的可能性就越低,则越有可能拒绝原假设。

但是在这里面,没有提到备择假设,也没有涉及“接受”某个假设。例如证明结果不拒绝原假设代表没有证据证明原假设是错误的,但是没有说明原假设的正确性。

踩坑二:一刀全切,滥杀无辜

基于这个观念,Jerzy Neyman 和 Karl Pearson 提出了“假设检验”(也简称N-P假设检验),同时提出拒绝原假设的临界值,将之命名为显著性水平(significance level),通常用α表示。

Neyman认为考虑原假设的前提是需要构建一个合理的备择假设。而原假设与备择假设并不同等对待,往往研究者希望拒绝的假设作为原假设。在几年后,Neyman引入了置信水平和置信区间,作为原假设成立的前提下不拒绝原假设概率的度量。

总而言之,假设检验的思路是在控制一类错误的条件下进行的,所以设定显著性水平实际上是在设定犯一类错误的概率,在控制一类错误的情况下使得犯二类错误的概率尽量小,即统计功效尽量大。

以上两种方法存在一个矛盾的地方,也就是根据Fisher的显著性检验理论,P值为0.051或0.048在做出结论的时候权重几乎一致,而按照N-P假设检验理论,结论就相反了。

解决方法:二者结合,扬长避短

许多研究者也一致致力于去解决这个问题,在他们的努力下,零假设显著性检验(Null Hypothesis Significance Testing,NHST)的模式逐步形成,它是一种混合模式:

第一步,根据实际问题的要求,提出原假设H0及备择假设H1。如:a1, a2, a3, a4, a5,…, an是取自正态总体N(μ,σ)的一组样本, μ0为该总体的均值,μ为该样本的均值,则有原假设H0: μ=μ0,备择假设:μ≠μ0(双尾)。

第二步,根据总体分布情况及方差是否已知,选择合适的统计量。当总体方差σ2已知时,选用Z统计量;当总体方差σ2未知时,选用t统计量。

第三步,给定显著性水平α,确定相应临界值水平。显著性水平α表示假设H0为真时拒绝原假设的概率,也就是拒绝原假设所面临的风险,表明原假设为真时,检验统计量落在其拒绝区域内的概率只有α,而落入其接受区域内的可能概率是1-α。

第四步,依据假设检验的规则,由样本数据计算出检验统计量的实际值,与查表获得的临界值进行比较,视实际值落入接受区域还是拒绝区域,做出是否拒绝原假设H0的结论。

为更精确地反映判断的风险度,进而在第四步中选择采用P值作为是否拒绝原假设决策的依据。

该模式的基本思想是:事先指定显著性水平和检验功效,然后计算P值,如果P值小于事先指定的显著性水平,则拒绝原假设。

自此,建立原假设与备择假设、选定检验统计量、选择显著性水平、确定拒绝域或计算P值、做出统计判断,逐步成为标准化的假设检验步骤。NHST 模式及P值也逐渐成为诸多专业期刊的通用假设检验标准。

2

贝叶斯因子检验

踩坑三:过度依赖,发表偏倚

尽管NHST是目前社会科学研究最常用的统计推断方法,研究者通常希望得到P<0.05的结果以证明研究理论,但是这可能导致发表偏倚(publication bias)的问题。也就是说,当研究结果显示P<0.05时,论文通常会被发表;相反,P≥0.05无法拒绝原假设的论文通常不会被发表。

解决方法:贝叶斯因子检验前来助阵

这样一来,读者可能只会看到那些得到显著性结果的研究,这种筛选机制会误导读者对研究问题的认知。发表偏差问题的核心在于预先给定的显著性水平。在这个情况下,研究者们建议考虑NHST的替代方法:贝叶斯因子检验。

贝叶斯因子是反映样本信息对原假设的支持程度。关于贝叶斯因子的具体原理今天不做具体阐述,重点阐述对贝叶斯因子计算结果对应的假设成立的判断情况。

贝叶斯因子是贝叶斯假设检验指标,同样需要界定原假设H0与备择假设H1。贝叶斯因子(BF01)量化了数据在假设H0下比在假设H1下更有可能被观测到的程度,换言之,BF01衡量了H0相对于H1受到数据支持的程度。比如,BF01=5表示数据对H0的支持程度是H1的5倍。

那贝叶斯因子为多大或多小时,将接受或拒绝原假设呢?与NHST不同,贝叶斯因子是一个连续值,一般不作二分(拒绝或不拒绝)判断,而是量化假设受到数据支持的程度。

如果贝叶斯因子在1附近,则对原假设或备择假设均没有偏好,即贝叶斯因子无法决定,很可能需要更多的数据来证明哪个假设是正确的。事实上,阈值的设定是人为的,甚至是主观的。

根据贝叶斯因子的实际大小,研究者可做出H0受到数据支持的程度是H1的x倍的推断结论。不做二分判断以及抛弃使用阈值,能够使贝叶斯因子检验在一定程度上避免社会科学研究的不可重复实现的问题。

当使用贝叶斯因子对原假设和备择假设进行评估时,两个假设的地位是相等的,即并不需要像传统那样首先假设原假设为真。在贝叶斯因子的框架下,H0与H1只是两个研究者所关心的假设。

通过观测数据结合先验信息,贝叶斯因子能够得出两个假设受到数据支持的相对证据。这意味着贝叶斯因子既可以判定备择假设优于原假设,也同样可以得到原假设优于备择假设的结论。

将原假设与备择假设放在同等位置,当数据支持原假设时同样能够得到有效的结论,使得分析结果“不显著”的文章同样有可能被发表,也有助于研究的可重复性。

总结为一句话就是:P值是原假设成立的条件下出现当前观测值或更极端观测值的概率,贝叶斯因子确定的是在当前数据条件下哪个模型相对更合理。

目前已有很多软件能够实现贝叶斯因子的计算,包括R包、JASP等。这些软件均能自动设定参数,研究者仅需输入数据并指定数据分析使用的模型(如t检验、方差分析模型)和关心的研究假设,即可得到研究假设的贝叶斯因子。

尽管我们不推荐使用贝叶斯因子阈值进行假设检验,但研究者可能希望在一次数据分析时得到更明确的结论。

同时,虽然我们认为使用贝叶斯因子检验假设能够在一定程度上避免发表偏差和研究不可重复性的问题,但不同的参数设定、软件选择仍会导致不同的分析结果。

要进一步克服这些问题,预注册研究(preregistration)是当前研究者比较推荐的形式。如果预注册报告被接受,研究者将实际开展数据收集与分析工作,并报告结论,无论得到多大的贝叶斯因子,文章都会被发表。

目前,开放科学中心(Centre for Open Science)已提供研究的预注册以及众多预注册模板,也有许多的重要期刊鼓励预注册研究,如Psychological Science、《心理学报》等。

今天的分享就到此结束,关注我们,了解更多心理统计知识~

参考文献

[1] Fisher, R. A. (1992). Statistical methods for research workers. In Breakthroughs in statistics (pp. 66-70). Springer, New York, NY.

[2] Neyman, J. (1937). Outline of a theory of statistical estimation based on the classical theory of probability. Philosophical Transactions of the Royal Society of London, 231(767), 333-380.

[3] 程开明 & 李泗娥.(2019).科学研究中的P值:误解、操纵及改进. 数量经济技术经济研究(07),117-136. doi:10.13653/j.cnki.jqte.2019.07.007.

[4] 王晨霞.(2021).定量研究中的复制性研究与贝叶斯因子分析法(硕士学位论文,哈尔滨工业大学.

https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CMFDTEMP&filename=1021901094.nh

[5] 胡传鹏,孔祥祯,Eric-Jan Wagenmakers,Alexander Ly & 彭凯平.(2018).贝叶斯因子及其在JASP中的实现. 心理科学进展(06),951-965.

作者|大胡同学
排版|Uka
校对|喵君姐姐 昆昆

未经允许不得转载:闭口藏舌网 » 赶货|那些年,统计检验踩过三大坑