当 AI 接手学术打假 · 从一份杰青名单到造假指纹

数值核查实际覆盖

44.2%

578 / 1305 篇

1305

Nature 系论文

自动检索

187

获奖学者

据实呈现

类造假指纹

工程化检测

确认异常

案例已脱敏

1From a Name List to a Paper List

第一步 · 把一份人名名单,变成论文清单

拿到 2025 杰青名单(一批中文人名),要找全他们在 Nature 系期刊的每一篇论文——这一步看似简单,其实是第一个拦路虎。

痛点

中文名进英文文献库只剩拼音,而「Wang Wei / Li Kai」这样的拼音重名成百上千。直接搜,捞回的全是同名不同人的论文。

解法

在 OpenAlex 上做三重锚定:姓名拼音 + 依托机构 + 研究领域,三者同时命中才算;再用 ORCID 核对登记名兜底。

最终锁定 187 位有 Nature 系产出的获奖者、1305 篇论文。研究对象是公开信息,以下据实呈现(含依托学校)。

▸获奖学者名单(按论文数排序 · 可按学科筛选)

▸论文总清单(可搜索作者 / 期刊 / 年份 / DOI)

年份	作者	期刊	DOI

2Turning Intuition into a Tool

第二步 · 把打假经验,做成一个可复用的工具

打假者的核心洞察其实很朴素:人编出来的数字,不像真实测量那样自然。真实数据带着仪器噪声、随机波动;而伪造时为了省事,常用「复制一段、整体加个数、改几位小数」——这些操作会在数据里留下机器能识别的规律。下面用大白话讲清四类最可靠的「指纹」。

A两列恒差 · 整列被加了固定值

真实的两组独立测量,它们的差是会上下波动的。但如果有人把一列数据整体加上一个固定值(比如把对照组的数字 +5 当成实验组),那么两列每一行的差就会恒定不变——好比两个本该各走各路的人,却始终保持一模一样的步距,这在自然界几乎不可能。

工具怎么抓扫描每两列的逐行差,差恒定为常数就标记。

要排除的正常情况有些列本就是「派生」的(如绝对能量与相对能量,差就是参考点;基因组起止坐标差恒为 1),这是合理的,需人看列头判断。

G块级小数锁定 · 保留小数、只改整数

伪造一批数据时,有人会偷懒保留原数据的小数部分,只改前面的整数(把 3.7261 改成 8.7261)。于是一整片数据的小数位完全相同、整数却各不一样。真实测量的小数位是随机的,不会这样成片锁定。

工具怎么抓检测一块区域内小数位高度雷同、整数却有差异的模式。

要排除的正常情况「粗网格」数据(如刻度都是 0.5 整倍数的光谱峰位),两列错位对齐时小数会天然重合——要求小数足够多样才判可疑。

F同图重复块 · 一张图里复制粘贴

同一张图里,本该是不同实验条件的几条曲线,却有一整段数值跨列完全相同——很可能是把一条曲线复制粘贴、改了标签当成另一条。真实的不同实验不会逐点一字不差。

工具怎么抓在同一图的数据表里找跨列精确相同的长序列。

要排除的正常情况多条曲线共用同一条横轴(如同一波长列)、共用基线零点、或共享同一条理论拟合曲线——这些重复是合理的。

H行级重复 · 把一个样本的数据复制给另一个

表格里,本该是两个不同样本(甚至不同物种、不同病人)的整行测量,却逐位完全相同——意味着有人把一行数据直接复制给了另一行。两个独立个体的一整套测量不可能完全一致。

工具怎么抓找同表内跨不同样本标签、整行数值精确相同的行。

要排除的正常情况基因组、测序、微生物组这类「组学」大表,不同行数值雷同是计算流程的本质,不是造假——工具对这类批量重复自动抑制。

▸但工具最重要的,是这三条「克制」

机器只给「线索」,定性必须人来

每一种指纹都有完全合理的解释(派生列、共享坐标轴、组学数据)。工具只把可疑处摆出来,是不是造假,永远要人开数据、看列头、结合实验语境判断。

宁可漏报,不可乱扣帽子

阈值定得偏保守,组学等高假阳场景直接抑制。一条命中只是「待核实的候选」,不是「造假认定」。

把上千篇压成几十个候选,交给人

AI 的价值不在「判定造假」(它做不到),而在规模化地把可疑处筛出来,让有限的人力集中到真正需要判断的地方。

3What the Screening Found

第三步 · 筛查结果如何

在能下载到数据表的 578 篇中,逐条人工核实全部命中。2 处确认的客观数据异常 + 2 处存疑,其余为良性。以下案例一律脱敏,只陈述客观事实,性质的认定留给作者解释与机构调查——本工具不作预设。

案例 A生命科学 · 临床受试者参数表确认异常

受试者参数表(逾千人,按某 SNP 基因型分组)。两行记录除基因型列外,19 项临床指标逐位完全相同。

行 / 分组	性别	BMI	年龄	指标3	指标4	指标5	指标6
行 X · 组甲	F	36.9	14	10.66	5.7	1.57	69.4
行 Y · 组乙	F	36.9	14	10.66	5.7	1.57	69.4

全表逾千人中仅此 1 对跨组完全重复。

客观事实:单个 SNP 的基因型唯一,同一人不可能同时落入两个互斥分组;而这两行的全部临床指标逐位相同。这种完整记录的跨组重复,在真实采集的数据中不应出现。其成因须由作者解释、由机构调查认定——本工具不作预设。

案例 B生命科学 · 动物生理指标表确认异常

两个完全不同量纲的生理指标行(其一为体重),10 次重复值 + 均值逐位完全相同。

指标行	rep1	rep2	rep3	rep4	rep5	rep6	均值
指标甲(体重)	29.25	26.03	29.03	28.58	27.22	26.19	27.72
指标乙(异量纲)	29.25	26.03	29.03	28.58	27.22	26.19	27.72

全表仅此 1 对跨指标重复。

客观事实:体重与另一异量纲指标是两类独立测量,数值不可能逐位相同。这意味着其中一行的数据被另一行覆盖。该行数据存在错误已可确认;成因与责任须经作者解释与机构核实。

案例 C / D工具与人工均无法定性存疑

案例 C(分子生物学):两个不同标签的数据行 6 值全同。案例 D(电化学):不同样品阻抗谱列逐点雷同 + 恒差。两者均存在多种可能解释,数据表本身不足以判定。

定性需要:论文图注 / 实验设计 / 领域专家。在缺乏这些信息前,不下任何结论。

▸其余命中:全部核为良性

命中类型	核实结论
A 非整数恒差	反复捞出派生列:绝对/相对能量、基因组坐标、堆叠基线、视觉偏移、背景扣除、峰拟合
H 行级重复	组学/生信表系统性假阳:丰度 / 特征矩阵 / 系统发育树 / 测序 ID,行雷同是数据本质
F 同图重复	噪声为主:共享单调轴 / 基线零列 / 拟合曲线

?Why So Few

为什么只查出这么少?

只查出 2 处异常,是不是说明「这批论文很干净」?恰恰相反——这个数字暴露的,主要是本工具的盲区。把它和一线打假者实际抓到的造假放在一起对比,就清楚了。

▸对比:一线打假者抓到的 vs 本项目筛查的

维度	一线打假者(已查实案例)	本项目(数值筛查)
查的对象	同样是杰青 / 院长团队	2025 杰青(同一类人群)
期刊层级	Nature 及子刊	Nature 系
论文年份	近年(如某顶刊论文 2024 年发表)	2020s 为主(中位 2022)
主攻形态	图像造假(AI 图像查重 + 统计)	数值指纹(Excel 数据表)
高发领域	生命科学 / 生物医学为主	多学科(其中生命·医学 51 人)
结果	已抓实并经机构查处(免去相关职务)	数值上 2 处异常 + 2 处存疑

关键差异不在「年代」,而在造假的形态:一线打假者主攻的是图像造假(条带重复、图片拼接),用 AI 图像查重,且近年的新论文照样当场抓到、并被机构查实。而本项目这套工具只看数值数据表——图像造假恰恰是它完全碰不到的盲区。

▸所以「数值上少」的三个真实原因

▸佐证:查得越全,异常越多

把抓取覆盖率从 39% 提到 44.2% 的过程中,每扩一轮就多查出 1 个异常(案例 B 是 42.5% 轮才冒出来的)。覆盖越全、异常越多,说明当前的「少」是覆盖与形态所限,而非论文本身干净。

首轮筛查

39.0%

zip 解压救回

42.5%

外链 API 救回

44.2%

▸这批论文有多新(背景)

论文按发表年份分布 · 深色为 2020 年后 · 71% 集中于此,中位 2022 年

结论:「数值上查出得少」不能读作「这批论文都干净」。它主要说明——数值指纹只是造假的一个侧面,而图像造假(一线打假者的主战场)是本工具的盲区。两套方法是互补的,真正全面的筛查需要图像 + 数值并行。

!Limits

诚实的边界

这个项目真正想说的,不是「查出了什么」,而是:AI 可以把学术打假里最重的体力活——海量论文的第一遍筛查——规模化,让有限的人力集中到真正需要判断的地方。