争议爆发,因为21%的国际人工智能会议稿件评审被发现是由人工智能生成的。
如果研究人员怀疑自己的稿件已经通过人工智能(AI)同行评审,他们可以做些什么?数十位学者在社交媒体上对提交给明年国际学习表现会议(ICLR)组织者的手稿和同行评审提出了担忧。ICLR是一年一度的机器学习专家聚会。他们指出了幻觉引用和对工作内容冗长模糊的反馈。

格雷厄姆·诺伊比格是宾夕法尼亚州匹兹堡卡内基梅隆大学的人工智能研究员之一,他收到的同行评审似乎是用大型语言模型(LLM)制作的。他说,这些报告“内容非常冗长,包含大量要点”,并要求分析,这些分析并非“审稿人在典型人工智能或机器学习论文中要求的标准统计分析”。
但诺伊比格需要帮助证明这些报告是人工智能生成的。于是,他在X(前身为Twitter)发帖,并悬赏任何能扫描所有会议投稿及其同行评审以获取AI生成文本的人。第二天,他收到了纽约Pangram Labs首席执行官Max Spero的回复,该公司开发检测AI生成文本的工具。Pangam筛查了2026年ICLR提交的全部19,490篇研究和75,800份同行评审,该会议将于四月在巴西里约热内卢举行。Neubig和另外11,000多名人工智能研究人员将参加。
Pangram的分析显示,约21%的ICLR同行评审完全由人工智能生成,超过一半包含AI使用的迹象。这些发现由Pangram实验室发布在网上。斯佩罗说:“人们很怀疑,但没有确凿证据。”“在12小时的时间里,我们编写了一些代码,解析了这些论文提交中的所有文本内容,”他补充道。
会议组织者表示,他们将使用自动化工具评估投稿和同行评审是否违反了关于提交和同行评审中使用人工智能的政策。康奈尔大学计算机科学家、ICLR 2026高级项目主席Bharath Hariharan表示,这是会议首次大规模面对这一问题。“经历了这一切......这样我们才会更信任。”
Pangram团队使用了自有工具,该工具预测文本是由大型语言模型生成还是编辑。Pangram的分析显示,有15,899份同行评审完全由AI生成。但报告还发现许多提交会议的手稿疑似存在AI生成文本:199份(1%)被认定为完全AI生成;61%的投稿大多是人工撰写;但9%的文本超过50%由AI生成。全格拉姆在预印本中描述了该模型1.
对于许多提交给ICLR的同行评审研究者来说,潘格拉姆分析证实了他们的怀疑。哥本哈根大学计算机科学家Desmond Elliott表示,他收到的三篇评论中,有一篇似乎没有抓住“论文的重点”。他的博士生负责这项工作,怀疑该综述是由大型语言模型生成的,因为文中提到了手稿中的数值结果错误且包含奇异表达。
当Pangram发布研究结果时,Elliott补充道:“我做的第一件事就是输入我们论文的标题,因为我想知道学生的直觉是否正确。”Elliott表示,Pangram的分析指出,这份可疑的同行评审被标记为完全由人工智能生成的,给了该手稿最低的评分,使其“处于接受与拒绝的边缘”。“这让人非常沮丧。”
ICLR 2026团队允许作者和审稿人使用AI工具润色文本、生成实验代码或分析结果,但要求披露这些用途。它还禁止使用可能违反手稿保密或产生伪造内容的人工智能。
会议组织者将利用全字母句分析及其他自动化工具评估投稿和评论是否违反了这些政策,并对违反政策的作者和评审进行处罚。
Hariharan表示,负责监督同行评审过程的研究人员“将被要求标记低质量评价,而不仅仅是由大型语言模型生成的评价”。他补充说,“拒绝办公桌审稿人的门槛会很高。鉴于这些自动化工具可能存在误报,我们不会完全依赖这些。”
一些作者因同行评审中存在虚假声明而撤回了他们的ICLR投稿。还有人在思考如何回应他们收到的同行评审。“作为一名科学家,我在这个行业待得够久了,我知道当我们提交工作到会议时,我会收到一些低质量的评价,”Elliott说。但他补充说,那些疑似AI生成的评论往往包含“大量内容”。其中一些“相关且值得回应,但其他部分则说不通”。
ICLR 2026的情况凸显了同行评审者面临的日益增长压力,以跟上快速增长的领域步伐。Neubig说:“目前在人工智能和机器学习领域,我们面临评审危机,因为过去五年该领域呈指数级增长。”
哈里哈兰表示,每位ICLR审稿人平均在两周内需要审阅五篇论文。“这是非常重大的负担。这远高于过去所做的。”他说正在讨论如何管理这些问题。“社区里的每个人都知道,我们现在处于一个比以前更多的志愿服务体制下。”
勇编撰自论文"EditLens: Quantifying the Extent of AI Editing in Text".arXiv.2025相关信息,文中配图若未特别标注出处,均来源于自绘或公开图库。