热点追踪
论文解读
开源项目
SCAM:评估多模态基础模型对真实世界排版攻击的鲁棒性
type
status
slug
summary
tags
category
icon
password
Date

(图1:SCAM数据集包含真实场景中的手写误导文字,通过三组对比数据揭示多模态模型的视觉文字干扰漏洞)
当AI遇到"文字陷阱":全球最大真实场景对抗数据集SCAM揭示多模态模型致命弱点
▍颠覆认知的视觉骗局:一张便利贴就能让AI"指鹿为马"
在自动驾驶汽车即将撞上行人时,一个写着"斑马线"的便利贴竟能让系统错误判断路况;医疗影像诊断系统中,添加"良性"字样的X光片可能误导AI做出危险判断——这些看似魔幻的场景,正是当前最先进多模态AI系统面临的真实威胁。
来自柏林工业大学等机构的研究团队最新发布的SCAM数据集,首次系统揭示了视觉语言模型(VLMs)和大型视觉语言模型(LVLMs)在真实场景中的文字干扰漏洞。这项研究通过对1162张精心设计的对抗图像进行分析,发现最先进的AI模型在遭遇手写误导文字时,准确率平均下降26个百分点,某些模型甚至出现断崖式下跌。
▍SCAM数据集:真实世界的"视觉文字陷阱"百科全书
三大核心创新点
- 规模创纪录:包含1162张图像,覆盖660种物体类别和206种攻击词汇,远超同类数据集RTA-100的10倍多样性
- 真实对抗样本:所有误导文字均为手写体,模拟现实场景中的自然干扰(见图2示例)
- 三重对照体系:
- SCAM:含手写攻击文字的原始图像
- NoSCAM:去除攻击文字的纯净版
- SynthSCAM:数字合成的对抗样本

(图2:真实手写攻击、去噪处理、数字合成的三组对比样本)
安全威胁全景图
研究团队特别关注交通安全领域,在攻击词汇中纳入"禁止左转""行人通行"等关键指令(见图3)。实验证明,数字合成的交通标识干扰效果与真实手写体高度一致,这意味着攻击者可以低成本实施破坏。

(图3:15%的攻击词汇直接关联交通安全,揭示自动驾驶系统的潜在风险)
▍实验结果:AI视觉系统的"阿喀琉斯之踵"
主流模型集体"翻车"
在零样本测试中,OpenAI的ViT-L-14-336模型遭遇攻击时准确率从99.23%暴跌至34.68%。更令人担忧的是,GPT-4o等顶尖LVLM模型同样存在漏洞(见表1):
模型 | 纯净准确率 | 受攻击准确率 | 下降幅度 |
GPT-4o-2024-08-06 | 99.57% | 97.41% | ↓2.16% |
LLaVA-1.6:34b | 98.62% | 86.67% | ↓11.95% |
ViT-L-14-336 | 99.23% | 34.68% | ↓64.55% |
(表1:不同规模模型在SCAM攻击下的表现对比)
三大关键发现
- 视觉编码器是软肋:LLaVA系列模型的漏洞主要源于其视觉编码模块
- 大语言模型的"免疫力":34B参数的LLaVA比7B版本抗干扰能力提升30%
- 训练数据的双刃剑:使用LAION数据集训练的模型抗干扰性显著优于其他数据源
▍防御启示录:构建AI的"视觉防火墙"
当前解决方案
- 架构优化:SigLIP模型相比传统CLIP架构展现更强抗干扰性
- 数据过滤:CommonPool数据集经文本/图像双重过滤后,模型鲁棒性提升21%
- 多提示策略:通过组合提示词可将LVLM准确率提升15%
未来研究方向
研究团队负责人Justus Westerhoff指出:"我们发现视觉编码器的选择比模型参数量更重要。下一步将尝试为LLaVA更换更健壮的视觉模块,这可能是提升安全性的关键突破口。"
▍产业影响:从实验室到现实世界的安全鸿沟
这项研究为AI产品的安全部署敲响警钟。在医疗影像、自动驾驶、工业质检等领域,多模态系统必须建立针对视觉文字攻击的防御机制。团队开源的评估框架(GitHub可获取)已支持99种主流模型的鲁棒性测试。

(图4:攻击文字面积越大,模型准确率下降越显著,最大降幅达70%)
▍结语:通向可信AI的必经之路
SCAM数据集犹如一面照妖镜,揭示出多模态AI光鲜表象下的安全隐患。随着代码和数据的全面开源(Hugging Face可获取),这场关于AI安全性的攻防战才刚刚开始。研究团队呼吁产业界共同参与,将抗干扰能力纳入模型评估的核心指标,为下一代可信AI系统奠定基础。
本文涉及论文及数据集:论文地址:https://arxiv.org/abs/2504.04893数据集:https://huggingface.co/datasets/BLISS-e-V/SCAM评估代码:https://github.com/Bliss-e-V/SCAM https://arxiv.org/abs/2504.04893