摘要与分析
背景
同行评审是科学进步的基石,但随着提交数量的增加,这一系统承受着巨大压力。为了缓解这个问题,研究人员尝试利用大型语言模型(LLMs)辅助审稿过程。
研究发现
上海交通大学的研究团队通过实验揭示了使用LLM进行辅助审稿存在重大风险,并指出我们可能尚未准备好广泛采用此类技术。
1. 明显操纵
- 具体方法:作者在论文中嵌入细微的操控内容,例如在文章末尾添加几乎不可见的文字指令,指导LLMs强调论文的优点并弱化其缺点。
- 影响:实验表明这种明显操纵可以显著提高LLM评分,将平均分从5.34提升至7.99。同时,被操纵后的结果与人类审稿的一致性降低,可靠性大幅下降。
2. 隐蔽操纵
- 具体方法:作者通过主动披露论文中的细微缺陷引导LLMs重复这些缺点。
- 影响:相比于人类审稿员,LLMs更容易受到此方法的影响,是4.5倍更可能重申作者指出的局限性。这使作者在答辩阶段能更轻松地回应评论,获得不公平优势。
3. 内在缺陷
- 错觉问题:即使没有实际内容,LLMs也能生成流畅的审稿意见。
- 偏好长篇幅论文:LLM系统倾向于给较长的论文更高评分,可能存在基于文章长度的偏见。
- 作者偏向性:单盲评审中,来自知名机构或著名学者的作品更可能获得正面评价。
实验验证
研究人员使用不同版本的LLMs(包括Llama-3.1-70B-Instruct, DeepSeek-V2.5, 和Qwen-2.5-72B-Instruct)进行了实验,结果表明所有模型都面临隐式操控和错觉问题。尽管最强的模型GPT-4在一致性上表现较好但仍存在这些问题。
结论与建议
研究者强调当前LLMs的稳健性不足,不足以替代人类审稿员进行学术评价,并推荐暂停使用LLMs进行同行评审。同时,期刊和会议组织应实施检测工具和问责机制以识别并应对作者的恶意操控行为及审稿人使用LLM代替人类判断的情况。
辅助工具观点
研究者认为LLMs可以作为辅助工具提供额外反馈和见解给审稿员,但绝不能替代人的判断。他们鼓励学术界继续探索如何使LLM支持的评审系统更稳健和安全,以最大化其潜力并减轻风险。