近日,应JDS Communications 主编Jessica McArt教授(康奈尔大学)邀请,必赢线路检测3003杨丹晨副教授与梅西大学教授、bwin必赢3003名誉教授Richard Laven 院士,合作撰写并发表题为 “Common misinterpretations of statistical significance and P-values in dairy research”的invited review论文。 该文直指指奶业科研领域长期存在的结构性统计误读及其带来的学术与实践危害,提出以“兼容效应范围(compatibility interval)”为核心的结果解释框架。论文为期刊编辑部制定统计报告标准提供了可执行依据,未来将影响乳业科学期刊的投稿与审稿规范,引导科研成果报告从“是否显著”走向“结果是否可信、解释是否充分”。

研究背景与动机
在生物与农业科学研究中,统计学是支撑科研结论可靠性的核心工具。尽管统计学与流行病学学界自1950年代起,持续对“追求 P <0.05的不良统计文化”进行系统批判;长期以来,统计显著性(statistical significance)与 P 值的误用依然是生命科学领域普遍且顽固的问题。
核心观点
(1)“显著”与“非显著”都不是差异的证据:统计推断的根本误读
将甲组“显著”、乙组“非显著”当作“组间不同”的证据,是常见也最具误导性的做法。真正需要检验的,是“差异的差异”而非两个P值是否跨越0.05这个阈值。论文通过多个乳业研究范例说明:“两组都显著”或“两组都不显著” 也不代表结果相互印证。 两个 P 值接近,只意味着它们各自与零假设的相容程度相似,无法证明两个效应在方向、大小或实际意义上相同。
更为普遍的是,这种错误逻辑在论文的讨论部分和文献综述中被不断复制。研究者常在比较“自己与他人”的研究,或“他人与他人”的结果时,以显著性标签替代系统性数据对比。跨研究之间要判断结果是否相符,必须基于效应估计值、标准误及置信区间、协方差等参数,而非对P值状态的表层比附。若原始文献未公开这些统计细节,任何基于“显著/不显著”的比较都属于方法上不可检验的推测,既损害科学可重复性,也误导后续研究方向。
(2)“无显著差异”:披着谨慎外衣的统计误导
“P > 0.05”并不等于“无差异”。将“非显著”报告为“无差异”,是在用统计不确定性冒充确定性。然而,许多研究者为以为写成 “无显著差异”更严谨,实则同样错误。作者指出这种说法让研究仍困在“过线思维”的框架中,看似谨慎,却继续助长统计显著性崇拜而忽视效应估计与不确定性本身。作者用实例说明:当样本量有限时,即使观察到差异为10% 且P > 0.05,但其95%置信区间(−7%至+22%)仍与“存在重要效应”完全兼容。正确的结论应是“数据无法排除存在实质性效应的可能”,而非“未发现显著差异”。论文强调:“除非点估计恰为零,否则任何非显著结果都仍然提供了关于差异方向与大小的信息;将其简化为‘无显著差异’,是在浪费数据所能告诉我们的全部内容。” 因此,作者强烈呼吁:科研人员应彻底摒弃“无显著差异”这一表述,将语言焦点从“显著/不显著”转向“效应估计与兼容范围”。只有当研究者拒绝以阈值语言总结结果,研究论文才真正开始走向科学。
(3)“趋势(trend)”语言:伪装成谨慎的 p-hacking
把“接近阈值”的 P 值包装成“趋势(trend toward significance)”,是论文中最常见的语言型 p-hacking,是科研人员为了避免报告“无效应”或“无差异”,通过设定第二个阈值来弱化“不显著”的尴尬。作者强调,这种做法不仅错误,而且“既非琐碎也非语义问题”。如果暗示一个略高于显著性阈值的 P 值(如 0.06)“正在趋向显著”,那么同理也应承认略低于阈值的 P 值(如 0.04)“正在趋向不显著”,否则这种逻辑本身就是自相矛盾的。但研究者只在 P 略大于 0.05 时强调“趋势”,而在 P 略小于 0.05 时立刻宣称“显著”,这充分说明“趋势”一词只是显著性崇拜的另一种表达方式,使科学结论再一次被阈值绑架。作者指出,与其依赖模糊修辞,不如诚实地报告效应估计及其置信区间,明确说明数据支持与否的不确定性范围。
给科研人员的建议
针对上述问题,论文倡导在报告和讨论结果时,从“是否显著”转向“哪些效应与数据兼容”的思维模式。论文提出的核心转向是:报告效应值 + 95% 置信区间,并以“哪些效应与数据相容”为组织原则,而非“是否小于 0.05”。同时减少“挑时点、凑阈值、造趋势”等文字把戏的空间。对时间序列与交互项的呈现,作者建议报告斜率(变化率)差异与累计效应,禁止在缺乏正式比较的前提下“逐时点贴显著标签”误导读者。
论文特别指出,置信区间若被当作P值使用——即只看是否跨过0或1,将重蹈阈值崇拜覆辙。真正的置信区间应被理解为:
1. 量化不确定性的范围:展示在统计假设下,哪些效应与数据相容;
2. 反映研究设计的功效(power):窄区间意味着高精度,宽区间意味着数据不足;
3. 连接统计与生物意义的桥梁:若区间包含生物学上重要的正负值,则结论应谨慎;
4. 支持反思而非判断:CI不是“显著/不显著”的边界,而是证据强度与研究质量的可视化表达。
作者明确指出,我们不该问‘置信区间是否跨零’,而应问‘哪些效应值仍与数据兼容’。只有在这种解释框架下,置信区间才真正实现了其功效——转移研究焦点,从‘是否显著’转向‘可信效应范围’与‘生物学相关性’。
推动期刊标准重塑
论文在“Calls to action”中明确向期刊编辑部与审稿人发出行动倡议,提出四项最低统计报告标准,建议纳入作者须知与审稿要点:
1. 报告每项分析的样本量;
2. 为所有效应估计提供标准误与95%置信区间,并说明计算方法;
3. 公开模型输出(系数与协方差矩阵)或可复现数据;
4. 在讨论中并列效应实际意义与置信区间解释,而非以P值为核心叙事;
5. 审稿人不再要求单独P值,而应考察作者对不确定性与效应范围的解释质量。