蚂蚁集团 CVPR 2026 双冠:AIGC 检测的“实战”突破
在计算机视觉圈子里,CVPR 大概是绕不开的名头,尤其是像 NTIRE 这种挑战赛,含金量其实比很多顶会的主会还要“硬核”。蚂蚁集团这次去,没玩虚的,直接包揽了两个核心赛道的第一名。
一个是鲁棒性样本测试,由蚂蚁 AI 安全实验室拿下的;另一个是人脸增强异常检测,蚂蚁国际团队拔得头筹。
说实话,看到这两个结果,我有点意外,但更多的是觉得“这就对了”。毕竟现在的 AIGC(生成式 AI)火得一塌糊涂,内容检测技术早就不能只停留在论文里画个漂亮的图表了,得能真正落地,能抗住真实世界的“毒打”。
为什么现在这么难?
现在的 Deepfake(深度伪造)和 AIGC 滥用,增长速度简直像坐火箭。以前的检测模型确实挺吃香,但遇到新花样就懵了:
- 肉眼根本看不出来:现在的生成内容太逼真,甚至能骗过专业的鉴定设备。
- 稍微动一下就废了:这是最搞心态的。一旦图片被压缩,或者在传播过程中被别人二次修图,现有的模型准确率直接断崖式下跌。
- 永远在猫鼠游戏:生成模型迭代太快,检测模型还在研究旧版本,新版本已经出来了。
CVPR NTIRE 这个挑战赛之所以难,就是因为它模拟了最极端的情况:模型不仅要面对未知的生成架构,还要扛住复杂的退化干扰(比如被传了八遍的图)。这简直就是给检测方出了一道“地狱难度”的副本。
蚂蚁这次怎么赢的?
蚂蚁集团这次不是拿着实验室里“温室”里练出来的模型去硬刚,而是把自己过去 20 年做支付安全、风控的那些“家底”搬出来了。
3.1 换个更牛的“底座”
他们没再用那些老掉牙的模型,而是基于最新的 DINOv3 视觉基础模型构建框架。这一步很关键,直接把检测能力从“理想实验室”拉到了“真实脏乱差”的场景里。
3.2 练了“百万级”的毒料
在“鲁棒性样本测试”这个赛道,他们搞了一套双流并行的训练策略。
- 吃透“百家饭”:训练语料里包含了 WildFake、Z-Image、Seedream、Nano-banana-pro 以及 Moonshot 等市面上最火的生成模型的内容。
- 练“火眼金睛”:一个流抓图像的局部细节,另一个流抓整体特征,互相验证,抗干扰能力蹭蹭涨。
- 模拟“真实路况”:他们特意模拟了从单点噪声到多重失真的全链路退化,比如社交软件怎么传图、路人怎么二次修图,深度还原了真实世界里图片“变丑”的过程。
3.3 拒绝“黑盒”,主打“定位 – 检查”
以前那种“给张图,吐个真假”的模型,我总觉得有点虚,因为不知道它为什么这么判断。蚂蚁这次搞了个Locate-Then-Examine(定位 – 检查) 的新逻辑:
- 先找可疑点:不扫全图,先精准锁定图像里那些不对劲的区域。
- 再细查:对锁定的区域进行详细审查。
- 告诉你是哪错了:通过构建 FakeXplained 数据集,模型能直接生成一段文字解释,告诉你是局部哪里违背了物理常识,或者有什么伪造痕迹。
这就有意思了,不仅能判断真假,还能告诉你“为什么是假的”。这种可解释性,对于需要负责任的场景(比如金融、司法)来说,才是真正能用的东西。
这些技术到底用在哪?
4.1 防“带节奏”
针对复杂真实场景鲁棒性测试,主要用在社交媒体内容审核和二次传播的风控上。不管别人怎么 P 图、怎么压缩,只要是有问题的图,模型都能抓出来。
4.2 守住钱袋子
针对人脸增强异常检测,直接用在跨境支付、金融开户(EKYC)这些涉及真金白银的地方。
- 原理:精准定位人脸里的异常区域。
- 作用:一旦有人用 Deepfake 换脸来骗钱,或者用 AIGC 伪造开户材料,这套系统能直接阻断,确保交易安全。
开源了,别藏着掖着
蚂蚁这次有个挺让人舒服的操作:把这套检测资源库在 GitHub 上开源了。
说实话,这种“利他”的行为挺难得的。毕竟 AI 安全是个大坑,单靠一家企业很难守住。通过开源,他们降低了行业门槛,让全球开发者都能参与进来,大家一起把 AI 内容的安全水位提上去。
顺便提一嘴含金量
CVPR 是计算机视觉领域的“奥林匹克”,NTIRE 挑战赛更是其中的硬骨头。
- 今年光这个挑战赛就吸引了全球超过 500 支 顶尖团队来抢第一。
- 而且,蚂蚁集团本身不是纯 AI 公司,它是从支付业务里长出来的。在纯 AI 安全赛道,打败那些专门搞 AI 的实验室团队,这本身就证明了蚂蚁在数据安全与内容风控这块,确实是有真本事,不是靠堆算力或者蹭热点。
总的来说,这次胜利不仅仅是拿个奖杯,更像是给整个行业打了个样:AIGC 检测,必须得经得起真实世界的折腾,还得能解释清楚。
