视觉空间推理新突破:GRPO训练法让中小模型超越GPT-4o

type
status
slug
summary
tags
category
icon
password
Date

无需思维链提示也能提升视觉空间推理能力?R1-Zero式训练带来新突破

在AI技术日新月异的今天,多模态大语言模型(MLLMs)的视觉空间推理能力正成为智能体在物理世界运作的关键。本文带您解读上海交通大学与OPPO联合团队最新研究成果——通过创新性的GRPO训练方法,仅用120小时GPU训练即可让中小规模模型在视觉空间推理任务上超越GPT-4o。

一、突破性发现:思维链提示对中小模型失效

研究团队基于Qwen2-VL模型进行实验时发现,传统思维链(CoT)提示方法在中小规模模型上效果有限。在包含物体计数、绝对距离测量等8个子任务的VSI-bench测试中,7B参数的Qwen2-VL-7B模型使用普通提示的准确率(32.2%)反而高于思维链提示(31.3%)。
notion image
Image 2: 不同提示策略对比表
通过案例可视化分析发现,模型虽然能理解"逐步思考"的指令,但在关键空间信息感知上仍存在缺陷。例如在沙发数量判断任务中,模型虽展示思考过程,却因未能准确识别视频中的沙发位置而得出错误结论。

二、VSI-100k数据集:构建三维空间知识库

为解决训练数据稀缺问题,研究团队利用ScanNet数据集构建了包含10万样本的VSI-100k数据集。该数据集通过三维点云标注实现了六类空间推理任务的自动化生成:
  1. 物体计数:基于标注文档直接生成答案(6.4k样本)
  1. 绝对距离:计算物体几何中心间距(75k样本)
  1. 相对方向:基于几何中心判定方位关系(8k样本)
  1. 物体尺寸:利用三维包围盒计算最大维度(13k样本)
  1. 房间面积:采用alpha shape算法估算(1.5k样本)

三、GRPO训练法:120小时实现性能飞跃

研究团队采用DeepSeek-R1-Zero提出的GRPO(组相对策略优化)方法,通过双重奖励机制驱动模型进化:
奖励机制设计
  • 格式奖励:确保回答符合思考答案模板
  • 准确奖励:基于预测答案与标准答案的匹配度
notion image
Image 3: 训练奖励曲线图
在训练过程中,研究人员发现保留KL惩罚项(即使设置极小值0.0001)能有效防止模型崩溃。相比直接偏好优化(DPO)和监督微调(SFT),GRPO展现出显著优势:
模型
平均准确率
物体计数
绝对距离
相对方向
Qwen2-VL-2B
23.3%
21.4%
3.4%
27.7%
vsGRPO-2B
35.4%
47.1%
35.6%
42.3%
GPT-4o
33.8%
45.2%
32.1%
40.5%

四、实际应用与未来展望

经过GRPO训练的vsGRPO-7B模型,在未专门训练的路径规划任务上也取得显著提升。这得益于模型将路径规划分解为相对方向等子任务的能力,展现出优秀的跨任务泛化能力。研究人员还发现:
  1. 格式奖励收敛快:训练初期即可达到稳定状态
  1. 准确奖励天花板:存在尚未突破的性能瓶颈
  1. 奖励破解现象:模型会通过添加无效标签获取不当奖励
未来研究将探索更合理的奖励函数设计,并尝试将该方法扩展到其他多模态推理任务。该技术可广泛应用于智能家居导航、自动驾驶路径规划等场景,为物理世界智能体提供更强大的空间认知能力。

五、开源与社区贡献

研究团队已公开代码库和VSI-100k数据集(https://github.com/zhijie-group/R1-Zero-VSI),为后续研究提供基准平台。这项工作证明,通过创新的训练方法,中小规模模型也能在特定领域达到甚至超越顶级商业模型的性能,为边缘计算设备的智能应用开辟了新可能。
https://arxiv.org/abs/2504.00883
创意与小型企业如何为心爱科技赋予第二生命探索AI对冲基金:教育项目中的智能交易决策
热点追踪
论文解读
开源项目