公开分享版
研究对象(杰青名单、学校、论文清单)为公开信息,据实呈现;而本项目自查出的疑似异常一律脱敏,仅以代号说明,不指向具体个人、不构成学术不端指控。
数值核查实际覆盖
44.2%
578 / 1305 篇
1From a Name List to a Paper List
第一步 · 把一份人名名单,变成论文清单
拿到 2025 杰青名单(一批中文人名),要找全他们在 Nature 系期刊的每一篇论文——这一步看似简单,其实是第一个拦路虎。
痛点
中文名进英文文献库只剩拼音,而「Wang Wei / Li Kai」这样的拼音重名成百上千。直接搜,捞回的全是同名不同人的论文。
解法
在 OpenAlex 上做三重锚定:姓名拼音 + 依托机构 + 研究领域,三者同时命中才算;再用 ORCID 核对登记名兜底。
最终锁定 187 位有 Nature 系产出的获奖者、1305 篇论文。研究对象是公开信息,以下据实呈现(含依托学校)。
▸获奖学者名单(按论文数排序 · 可按学科筛选)
▸论文总清单(可搜索作者 / 期刊 / 年份 / DOI)
2Turning Intuition into a Tool
第二步 · 把打假经验,做成一个可复用的工具
打假者的核心洞察其实很朴素:人编出来的数字,不像真实测量那样自然。真实数据带着仪器噪声、随机波动;而伪造时为了省事,常用「复制一段、整体加个数、改几位小数」——这些操作会在数据里留下机器能识别的规律。下面用大白话讲清四类最可靠的「指纹」。
A两列恒差 · 整列被加了固定值
真实的两组独立测量,它们的差是会上下波动的。但如果有人把一列数据整体加上一个固定值(比如把对照组的数字 +5 当成实验组),那么两列每一行的差就会恒定不变——好比两个本该各走各路的人,却始终保持一模一样的步距,这在自然界几乎不可能。
G块级小数锁定 · 保留小数、只改整数
伪造一批数据时,有人会偷懒保留原数据的小数部分,只改前面的整数(把 3.7261 改成 8.7261)。于是一整片数据的小数位完全相同、整数却各不一样。真实测量的小数位是随机的,不会这样成片锁定。
F同图重复块 · 一张图里复制粘贴
同一张图里,本该是不同实验条件的几条曲线,却有一整段数值跨列完全相同——很可能是把一条曲线复制粘贴、改了标签当成另一条。真实的不同实验不会逐点一字不差。
H行级重复 · 把一个样本的数据复制给另一个
表格里,本该是两个不同样本(甚至不同物种、不同病人)的整行测量,却逐位完全相同——意味着有人把一行数据直接复制给了另一行。两个独立个体的一整套测量不可能完全一致。
▸但工具最重要的,是这三条「克制」
01机器只给「线索」,定性必须人来
每一种指纹都有完全合理的解释(派生列、共享坐标轴、组学数据)。工具只把可疑处摆出来,是不是造假,永远要人开数据、看列头、结合实验语境判断。
02宁可漏报,不可乱扣帽子
阈值定得偏保守,组学等高假阳场景直接抑制。一条命中只是「待核实的候选」,不是「造假认定」。
03把上千篇压成几十个候选,交给人
AI 的价值不在「判定造假」(它做不到),而在规模化地把可疑处筛出来,让有限的人力集中到真正需要判断的地方。
3What the Screening Found
第三步 · 筛查结果如何
在能下载到数据表的 578 篇中,逐条人工核实全部命中。2 处确认的客观数据异常 + 2 处存疑,其余为良性。以下案例一律脱敏,只陈述客观事实,性质的认定留给作者解释与机构调查——本工具不作预设。
案例 A生命科学 · 临床受试者参数表确认异常
受试者参数表(逾千人,按某 SNP 基因型分组)。两行记录除基因型列外,19 项临床指标逐位完全相同。
| 行 / 分组 | 性别 | BMI | 年龄 | 指标3 | 指标4 | 指标5 | 指标6 |
| 行 X · 组甲 | F | 36.9 | 14 | 10.66 | 5.7 | 1.57 | 69.4 |
| 行 Y · 组乙 | F | 36.9 | 14 | 10.66 | 5.7 | 1.57 | 69.4 |
全表逾千人中仅此 1 对跨组完全重复。
客观事实:单个 SNP 的基因型唯一,同一人不可能同时落入两个互斥分组;而这两行的全部临床指标逐位相同。这种完整记录的跨组重复,在真实采集的数据中不应出现。其成因须由作者解释、由机构调查认定——本工具不作预设。
案例 B生命科学 · 动物生理指标表确认异常
两个完全不同量纲的生理指标行(其一为体重),10 次重复值 + 均值逐位完全相同。
| 指标行 | rep1 | rep2 | rep3 | rep4 | rep5 | rep6 | 均值 |
| 指标甲(体重) | 29.25 | 26.03 | 29.03 | 28.58 | 27.22 | 26.19 | 27.72 |
| 指标乙(异量纲) | 29.25 | 26.03 | 29.03 | 28.58 | 27.22 | 26.19 | 27.72 |
全表仅此 1 对跨指标重复。
客观事实:体重与另一异量纲指标是两类独立测量,数值不可能逐位相同。这意味着其中一行的数据被另一行覆盖。该行数据存在错误已可确认;成因与责任须经作者解释与机构核实。
案例 C / D工具与人工均无法定性存疑
案例 C(分子生物学):两个不同标签的数据行 6 值全同。案例 D(电化学):不同样品阻抗谱列逐点雷同 + 恒差。两者均存在多种可能解释,数据表本身不足以判定。
定性需要:论文图注 / 实验设计 / 领域专家。在缺乏这些信息前,不下任何结论。
▸其余命中:全部核为良性
| 命中类型 | 核实结论 |
| A 非整数恒差 | 反复捞出派生列:绝对/相对能量、基因组坐标、堆叠基线、视觉偏移、背景扣除、峰拟合 |
| H 行级重复 | 组学/生信表系统性假阳:丰度 / 特征矩阵 / 系统发育树 / 测序 ID,行雷同是数据本质 |
| F 同图重复 | 噪声为主:共享单调轴 / 基线零列 / 拟合曲线 |
?Why So Few
为什么只查出这么少?
只查出 2 处异常,是不是说明「这批论文很干净」?恰恰相反——这个数字暴露的,主要是本工具的盲区。把它和一线打假者实际抓到的造假放在一起对比,就清楚了。
▸对比:一线打假者抓到的 vs 本项目筛查的
| 维度 | 一线打假者(已查实案例) | 本项目(数值筛查) |
| 查的对象 | 同样是杰青 / 院长团队 | 2025 杰青(同一类人群) |
| 期刊层级 | Nature 及子刊 | Nature 系 |
| 论文年份 | 近年(如某顶刊论文 2024 年发表) | 2020s 为主(中位 2022) |
| 主攻形态 | 图像造假(AI 图像查重 + 统计) | 数值指纹(Excel 数据表) |
| 高发领域 | 生命科学 / 生物医学为主 | 多学科(其中生命·医学 51 人) |
| 结果 | 已抓实并经机构查处(免去相关职务) | 数值上 2 处异常 + 2 处存疑 |
关键差异不在「年代」,而在造假的形态:一线打假者主攻的是图像造假(条带重复、图片拼接),用 AI 图像查重,且近年的新论文照样当场抓到、并被机构查实。而本项目这套工具只看数值数据表——图像造假恰恰是它完全碰不到的盲区。
▸所以「数值上少」的三个真实原因
- 形态盲区(最主要):生物医学造假的主战场是图像(western blot 条带复制、图片 PS),而本工具只查数值表。数值上干净,不代表图像上干净——后者本工具根本没看。
- 覆盖只有 44.2%:能下载到结构化数据表的论文不到一半;老论文、纯 PDF 补充材料、理论文没有数据表,够不着。
- 定性永远要人:机器只给线索,即使数值命中也要人结合实验语境、由机构调查才能认定。
▸佐证:查得越全,异常越多
把抓取覆盖率从 39% 提到 44.2% 的过程中,每扩一轮就多查出 1 个异常(案例 B 是 42.5% 轮才冒出来的)。覆盖越全、异常越多,说明当前的「少」是覆盖与形态所限,而非论文本身干净。
▸这批论文有多新(背景)
论文按发表年份分布 · 深色为 2020 年后 · 71% 集中于此,中位 2022 年
结论:「数值上查出得少」不能读作「这批论文都干净」。它主要说明——数值指纹只是造假的一个侧面,而图像造假(一线打假者的主战场)是本工具的盲区。两套方法是互补的,真正全面的筛查需要图像 + 数值并行。
!Limits
诚实的边界
- 碰不到图像造假:本工具只查数值表;图像 PS/拼接是生物医学造假主力,需图像取证(ORB 特征匹配已起步,是下一步)。
- 碰不到的其它类型:填充型、末位型、选择性剔除离群点——与正常数据同形。
- 定性永远要人:机器只给线索,是否「不端」须由人结合实验语境、作者解释与机构调查认定。
这个项目真正想说的,不是「查出了什么」,而是:AI 可以把学术打假里最重的体力活——海量论文的第一遍筛查——规模化,让有限的人力集中到真正需要判断的地方。