调查称多个领域研究者“未能理解”P值

在中国进行的一项研究表明,即便是数学和统计学领域的研究者,也误解了这个导致科研可重复性危机的原因

二月 28, 2020
Source: Getty

一项调查表明,众多中国研究者未能正确理解科学研究中常用的统计方法,其中甚至包括数学等学科的专业人士。

这项在中国进行的研究表明,约9成受访研究者和学生无法正确地解释P值和置信区间的用法,而这些是用于分析科学结果最常见的两项统计工具。

约1500名研究者参与了调查,对象涵盖本科生至博士后研究员。该研究分发给受访者一系列关于P值和置信区间的错误解释,并要求他们判断正误。

受访者中,有89%在P值相关问题上至少答错一题,而93%的人在判断置换区间的解释时答错至少一题。

错误理解这两种方法的比例并未体现出很大学科差异,甚至有85%到90%的数学和统计学专业学生也未能发现所有陈述是错误的。

即使仅看研究生和研究人员的水平区间,对这两个方法的误解率也很高。在获得博士学位的参与者中,误解P值的比例略有下降。

该调查还要求受访者在1至5的数字中选择对自己回答的确信程度。结果显示,研究人员和学生们“对他们(错误的)判断普遍充满信心”。

该论文称:“这些结果显示,研究人员普遍缺乏对这些常见统计指标的良好理解。”这可能表明,错误使用这些方法的固有“惯例”,“并不局限于心理学或社会科学,而是遍布整个科学界”。

这篇发表在《环太平洋心理学杂志》(Journal of Pacific Rim Psychology)的论文,为P值等工具的使用问题提供了更多证据。去年,曾有统计学家严正呼吁,反对把这两种工具作为证明研究“具有统计学意义”的方法。

这项新研究的共同作者,德国莱布尼茨韧性研究所(Leibniz Institute for Resilience Research)的博士后研究员胡传鹏表示,对大学生进行更好的统计推断训练将有助于解决这个问题;但是, “各层次”的学者也需要进行“持续学习”。

此外,他警告说,研究者的激励机制也必须改变。“当下的系统不太关心研究正确性,得到奖励的是那些高产的人。改变这一风气是一个长期性的目标。”

分析同时发现,那些在中国大陆以外地区获得最高学位的受访者,在解释P值时的错误率略低于其他群体。

论文称:“对这一情况唯一可能的解释是,相比中文媒体,英文媒体对科研重复性危机的探讨更多。因此,在海外学习过的学生比中国学生更熟悉这个话题。”

simon.baker@timeshighereducation.com

本文由陆子惠为泰晤士高等教育翻译。

请先注册再继续

为何要注册?

  • 注册是免费的,而且十分便捷
  • 注册成功后,您每月可免费阅读3篇文章
  • 订阅我们的邮件
注册
Please 登录 or 注册 to read this article.

Reader's comments (1)

This is completely unsurprising. I would hazard a guess that if you were to perform the same study in the US or UK you would get a similar response. We are failing our students and ourselves. In numerous serious stats reference books confidence intervals get nary a mention - a couple of pages at most. According to Robert Newcombe, the vast majority of mentions of Binomial intervals (simple choice probabilities) employ the incorrect 'Wald' interval anyway, which I think explains why many stats books have avoided them - with the Wald, the results from significance testing and confidence intervals diverge (get a different and inconsistent result). Unsurprisingly statisticians avoid confidence intervals. The correct approach involves inverting the Gaussian or Binomial function, and was pointed out by EB Wilson in 1927 (so much for impact factors). See https://corplingstats.wordpress.com/2012/03/31/binomial-distributions. I have also developed a range of new test methods from this perspective. I run a blog for corpus linguists at https://corplingstats.wordpress.com which translates this into a particular applied domain, linguistics, but colleagues may find many of the methods useful in other fields.