公开分享版 研究对象(杰青名单、学校、论文清单)为公开信息,据实呈现;而本项目自查出的疑似异常一律脱敏,仅以代号说明,不指向具体个人、不构成学术不端指控。
AI-Assisted Research Integrity Screening

当 AI 接手
学术打假这件苦差事

一线学术打假志愿者反复说同一个困境:造假能查,但论文太多,人根本看不过来。那么——能不能让 AI 来做规模化的第一遍筛查?

本项目以「2025 年国家杰青获得者的 Nature 系论文」为试验场,走通三步:① 从人名名单自动列出论文清单 → ② 把『数值造假留指纹』的打假经验工程化成工具 → ③ 跑出可核查的筛查结果,并分析「为什么查出的这么少」。
方法启发 · 一线学术打假实践的数值指纹思路2026-06-11
数值核查实际覆盖
44.2%
578 / 1305 篇
1305
Nature 系论文
自动检索
187
获奖学者
据实呈现
4
类造假指纹
工程化检测
2
确认异常
案例已脱敏
1From a Name List to a Paper List

第一步 · 把一份人名名单,变成论文清单

拿到 2025 杰青名单(一批中文人名),要找全他们在 Nature 系期刊的每一篇论文——这一步看似简单,其实是第一个拦路虎。

痛点

中文名进英文文献库只剩拼音,而「Wang Wei / Li Kai」这样的拼音重名成百上千。直接搜,捞回的全是同名不同人的论文。

解法

在 OpenAlex 上做三重锚定:姓名拼音 + 依托机构 + 研究领域,三者同时命中才算;再用 ORCID 核对登记名兜底。

最终锁定 187 位有 Nature 系产出的获奖者、1305 篇论文。研究对象是公开信息,以下据实呈现(含依托学校)

获奖学者名单(按论文数排序 · 可按学科筛选)
论文总清单(可搜索作者 / 期刊 / 年份 / DOI)
年份作者期刊DOI
2Turning Intuition into a Tool

第二步 · 把打假经验,做成一个可复用的工具

打假者的核心洞察其实很朴素:人编出来的数字,不像真实测量那样自然。真实数据带着仪器噪声、随机波动;而伪造时为了省事,常用「复制一段、整体加个数、改几位小数」——这些操作会在数据里留下机器能识别的规律。下面用大白话讲清四类最可靠的「指纹」。

A两列恒差 · 整列被加了固定值
真实的两组独立测量,它们的差是会上下波动的。但如果有人把一列数据整体加上一个固定值(比如把对照组的数字 +5 当成实验组),那么两列每一行的差就会恒定不变——好比两个本该各走各路的人,却始终保持一模一样的步距,这在自然界几乎不可能。
工具怎么抓扫描每两列的逐行差,差恒定为常数就标记。
要排除的正常情况有些列本就是「派生」的(如绝对能量与相对能量,差就是参考点;基因组起止坐标差恒为 1),这是合理的,需人看列头判断。
G块级小数锁定 · 保留小数、只改整数
伪造一批数据时,有人会偷懒保留原数据的小数部分,只改前面的整数(把 3.7261 改成 8.7261)。于是一整片数据的小数位完全相同、整数却各不一样。真实测量的小数位是随机的,不会这样成片锁定。
工具怎么抓检测一块区域内小数位高度雷同、整数却有差异的模式。
要排除的正常情况「粗网格」数据(如刻度都是 0.5 整倍数的光谱峰位),两列错位对齐时小数会天然重合——要求小数足够多样才判可疑。
F同图重复块 · 一张图里复制粘贴
同一张图里,本该是不同实验条件的几条曲线,却有一整段数值跨列完全相同——很可能是把一条曲线复制粘贴、改了标签当成另一条。真实的不同实验不会逐点一字不差。
工具怎么抓在同一图的数据表里找跨列精确相同的长序列。
要排除的正常情况多条曲线共用同一条横轴(如同一波长列)、共用基线零点、或共享同一条理论拟合曲线——这些重复是合理的。
H行级重复 · 把一个样本的数据复制给另一个
表格里,本该是两个不同样本(甚至不同物种、不同病人)的整行测量,却逐位完全相同——意味着有人把一行数据直接复制给了另一行。两个独立个体的一整套测量不可能完全一致。
工具怎么抓找同表内跨不同样本标签、整行数值精确相同的行。
要排除的正常情况基因组、测序、微生物组这类「组学」大表,不同行数值雷同是计算流程的本质,不是造假——工具对这类批量重复自动抑制。
但工具最重要的,是这三条「克制」
01
机器只给「线索」,定性必须人来
每一种指纹都有完全合理的解释(派生列、共享坐标轴、组学数据)。工具只把可疑处摆出来,是不是造假,永远要人开数据、看列头、结合实验语境判断
02
宁可漏报,不可乱扣帽子
阈值定得偏保守,组学等高假阳场景直接抑制。一条命中只是「待核实的候选」,不是「造假认定」。
03
把上千篇压成几十个候选,交给人
AI 的价值不在「判定造假」(它做不到),而在规模化地把可疑处筛出来,让有限的人力集中到真正需要判断的地方。
3What the Screening Found

第三步 · 筛查结果如何

在能下载到数据表的 578 篇中,逐条人工核实全部命中。2 处确认的客观数据异常 + 2 处存疑,其余为良性。以下案例一律脱敏,只陈述客观事实,性质的认定留给作者解释与机构调查——本工具不作预设

案例 A生命科学 · 临床受试者参数表确认异常
受试者参数表(逾千人,按某 SNP 基因型分组)。两行记录除基因型列外,19 项临床指标逐位完全相同
行 / 分组性别BMI年龄指标3指标4指标5指标6
行 X · 组甲F36.91410.665.71.5769.4
行 Y · 组乙F36.91410.665.71.5769.4
全表逾千人中仅此 1 对跨组完全重复。
客观事实:单个 SNP 的基因型唯一,同一人不可能同时落入两个互斥分组;而这两行的全部临床指标逐位相同。这种完整记录的跨组重复,在真实采集的数据中不应出现。其成因须由作者解释、由机构调查认定——本工具不作预设。
案例 B生命科学 · 动物生理指标表确认异常
两个完全不同量纲的生理指标行(其一为体重),10 次重复值 + 均值逐位完全相同
指标行rep1rep2rep3rep4rep5rep6均值
指标甲(体重)29.2526.0329.0328.5827.2226.1927.72
指标乙(异量纲)29.2526.0329.0328.5827.2226.1927.72
全表仅此 1 对跨指标重复。
客观事实:体重与另一异量纲指标是两类独立测量,数值不可能逐位相同。这意味着其中一行的数据被另一行覆盖。该行数据存在错误已可确认;成因与责任须经作者解释与机构核实。
案例 C / D工具与人工均无法定性存疑
案例 C(分子生物学):两个不同标签的数据行 6 值全同。案例 D(电化学):不同样品阻抗谱列逐点雷同 + 恒差。两者均存在多种可能解释,数据表本身不足以判定。
定性需要:论文图注 / 实验设计 / 领域专家。在缺乏这些信息前,不下任何结论。
其余命中:全部核为良性
命中类型核实结论
A 非整数恒差反复捞出派生列:绝对/相对能量、基因组坐标、堆叠基线、视觉偏移、背景扣除、峰拟合
H 行级重复组学/生信表系统性假阳:丰度 / 特征矩阵 / 系统发育树 / 测序 ID,行雷同是数据本质
F 同图重复噪声为主:共享单调轴 / 基线零列 / 拟合曲线
?Why So Few

为什么只查出这么少?

只查出 2 处异常,是不是说明「这批论文很干净」?恰恰相反——这个数字暴露的,主要是本工具的盲区。把它和一线打假者实际抓到的造假放在一起对比,就清楚了。

对比:一线打假者抓到的 vs 本项目筛查的
维度一线打假者(已查实案例)本项目(数值筛查)
查的对象同样是杰青 / 院长团队2025 杰青(同一类人群)
期刊层级Nature 及子刊Nature 系
论文年份近年(如某顶刊论文 2024 年发表)2020s 为主(中位 2022)
主攻形态图像造假(AI 图像查重 + 统计)数值指纹(Excel 数据表)
高发领域生命科学 / 生物医学为主多学科(其中生命·医学 51 人)
结果已抓实并经机构查处(免去相关职务)数值上 2 处异常 + 2 处存疑

关键差异不在「年代」,而在造假的形态:一线打假者主攻的是图像造假(条带重复、图片拼接),用 AI 图像查重,且近年的新论文照样当场抓到、并被机构查实。而本项目这套工具只看数值数据表——图像造假恰恰是它完全碰不到的盲区

所以「数值上少」的三个真实原因
  • 形态盲区(最主要):生物医学造假的主战场是图像(western blot 条带复制、图片 PS),而本工具只查数值表。数值上干净,不代表图像上干净——后者本工具根本没看。
  • 覆盖只有 44.2%:能下载到结构化数据表的论文不到一半;老论文、纯 PDF 补充材料、理论文没有数据表,够不着。
  • 定性永远要人:机器只给线索,即使数值命中也要人结合实验语境、由机构调查才能认定。
佐证:查得越全,异常越多

把抓取覆盖率从 39% 提到 44.2% 的过程中,每扩一轮就多查出 1 个异常(案例 B 是 42.5% 轮才冒出来的)。覆盖越全、异常越多,说明当前的「少」是覆盖与形态所限,而非论文本身干净。

首轮筛查
39.0%
zip 解压救回
42.5%
外链 API 救回
44.2%
这批论文有多新(背景)
论文按发表年份分布 · 深色为 2020 年后 · 71% 集中于此,中位 2022 年

结论:「数值上查出得少」不能读作「这批论文都干净」。它主要说明——数值指纹只是造假的一个侧面,而图像造假(一线打假者的主战场)是本工具的盲区。两套方法是互补的,真正全面的筛查需要图像 + 数值并行。

!Limits

诚实的边界

  • 碰不到图像造假:本工具只查数值表;图像 PS/拼接是生物医学造假主力,需图像取证(ORB 特征匹配已起步,是下一步)。
  • 碰不到的其它类型:填充型、末位型、选择性剔除离群点——与正常数据同形。
  • 定性永远要人:机器只给线索,是否「不端」须由人结合实验语境、作者解释与机构调查认定。

这个项目真正想说的,不是「查出了什么」,而是:AI 可以把学术打假里最重的体力活——海量论文的第一遍筛查——规模化,让有限的人力集中到真正需要判断的地方。