AI-NEWS · 2024年 12月 13日

上海AI实验室推出新模型REEF防“爆吧”行为

在AI时代,大型语言模型的知识产权保护

在人工智能(AI)时代,大型语言模型(LLMs)如同武术秘籍一般需要大量的计算能力和数据进行训练。开源模型的发布类似于武学大师公开分享其秘籍,但这些开放源代码通常附带许可证(如Apache 2.0和LLaMA2社区许可),以保护知识产权。

“壳模型”威胁

然而,随着这种技术的发展,也存在“壳模型”的问题,即某些开发者声称自己训练了新的语言模型,实际上只是重新包装或微调已有的基础模型。这种方法类似于私下学习他人的武术技能并宣称这些技能为自己所有。为防止此类事件发生,模型拥有者和第三方机构迫切需要一种识别“壳”模型的方法。

模型指纹法

目前的模型指纹方法主要分为两类:

  1. 注入指纹:通过添加水印等方法,在训练或微调过程中加入人工触发器,使模型在特定条件下生成特定内容以识别其来源。然而这种做法会增加训练成本、影响性能,并且可能被移除。
  2. 固有指纹:根据模型自身的特征进行识别,包括权重和特征表示。通过计算模型权重的相似度或统计分析模型生成文本的方法来确定源模型。但这些方法存在不够稳健的问题。

REEF新方法

上海人工智能实验室等机构的研究人员提出了一种新的模型指纹法——REEF(基于特征表示的指纹)。

  • 工作原理:REEF利用LLMs的强大特征建模能力,提取不同层中的特征进行识别。通过比较两个模型在同一样本上的中心核对齐(CKA)相似度来判断其来源。高相似性意味着嫌疑模型很可能来自受害者模型。
  • 优势
    • 不需要额外训练,不影响模型性能且无需增加训练成本。
    • 强大的稳健性:能够抵抗多种后续操作如权重修剪、微调、合并、重新排列和缩放变换。
    • 理论保证:研究者证明了CKA对于权重安排和尺度变化的不变性。
    • 实验结果表明,REEF在识别“壳”模型方面显著优于现有方法。

结语

REEF的出现为保护LLMs的知识产权提供了一个新工具,并有助于打击未经授权使用或复制模型等不道德行为。这一技术的发展有望促进AI领域的健康发展与公平竞争。

论文链接: Copyright AIbase Base 2024, 点击查看原文

Source:https://www.aibase.com/news/13921