热点追踪
论文解读
开源项目
视觉空间推理新突破:GRPO训练法让中小模型超越GPT-4o
type
status
slug
summary
tags
category
icon
password
Date
无需思维链提示也能提升视觉空间推理能力?R1-Zero式训练带来新突破
在AI技术日新月异的今天,多模态大语言模型(MLLMs)的视觉空间推理能力正成为智能体在物理世界运作的关键。本文带您解读上海交通大学与OPPO联合团队最新研究成果——通过创新性的GRPO训练方法,仅用120小时GPU训练即可让中小规模模型在视觉空间推理任务上超越GPT-4o。
一、突破性发现:思维链提示对中小模型失效
研究团队基于Qwen2-VL模型进行实验时发现,传统思维链(CoT)提示方法在中小规模模型上效果有限。在包含物体计数、绝对距离测量等8个子任务的VSI-bench测试中,7B参数的Qwen2-VL-7B模型使用普通提示的准确率(32.2%)反而高于思维链提示(31.3%)。

Image 2: 不同提示策略对比表
通过案例可视化分析发现,模型虽然能理解"逐步思考"的指令,但在关键空间信息感知上仍存在缺陷。例如在沙发数量判断任务中,模型虽展示思考过程,却因未能准确识别视频中的沙发位置而得出错误结论。
二、VSI-100k数据集:构建三维空间知识库
为解决训练数据稀缺问题,研究团队利用ScanNet数据集构建了包含10万样本的VSI-100k数据集。该数据集通过三维点云标注实现了六类空间推理任务的自动化生成:
- 物体计数:基于标注文档直接生成答案(6.4k样本)
- 绝对距离:计算物体几何中心间距(75k样本)
- 相对方向:基于几何中心判定方位关系(8k样本)
- 物体尺寸:利用三维包围盒计算最大维度(13k样本)
- 房间面积:采用alpha shape算法估算(1.5k样本)
三、GRPO训练法:120小时实现性能飞跃
研究团队采用DeepSeek-R1-Zero提出的GRPO(组相对策略优化)方法,通过双重奖励机制驱动模型进化:
奖励机制设计:
- 格式奖励:确保回答符合思考答案模板
- 准确奖励:基于预测答案与标准答案的匹配度

Image 3: 训练奖励曲线图
在训练过程中,研究人员发现保留KL惩罚项(即使设置极小值0.0001)能有效防止模型崩溃。相比直接偏好优化(DPO)和监督微调(SFT),GRPO展现出显著优势:
模型 | 平均准确率 | 物体计数 | 绝对距离 | 相对方向 |
Qwen2-VL-2B | 23.3% | 21.4% | 3.4% | 27.7% |
vsGRPO-2B | 35.4% | 47.1% | 35.6% | 42.3% |
GPT-4o | 33.8% | 45.2% | 32.1% | 40.5% |
四、实际应用与未来展望
经过GRPO训练的vsGRPO-7B模型,在未专门训练的路径规划任务上也取得显著提升。这得益于模型将路径规划分解为相对方向等子任务的能力,展现出优秀的跨任务泛化能力。研究人员还发现:
- 格式奖励收敛快:训练初期即可达到稳定状态
- 准确奖励天花板:存在尚未突破的性能瓶颈
- 奖励破解现象:模型会通过添加无效标签获取不当奖励
未来研究将探索更合理的奖励函数设计,并尝试将该方法扩展到其他多模态推理任务。该技术可广泛应用于智能家居导航、自动驾驶路径规划等场景,为物理世界智能体提供更强大的空间认知能力。
五、开源与社区贡献
研究团队已公开代码库和VSI-100k数据集(https://github.com/zhijie-group/R1-Zero-VSI),为后续研究提供基准平台。这项工作证明,通过创新的训练方法,中小规模模型也能在特定领域达到甚至超越顶级商业模型的性能,为边缘计算设备的智能应用开辟了新可能。
https://arxiv.org/abs/2504.00883