在这里插入图片描述

📖标题:VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
🌐来源:arXiv, 2507.13348

🌟摘要

大型语言模型 (LLM) 推理能力的最新进展表明,使用组相对策略优化 (GRPO) 算法进行强化学习 (RL) 训练允许模型使用更多的思考/推理标记来生成更好的响应。然而,LLM 只能生成有限数量的标记,同时保持对先前生成的标记的关注。这种限制,也称为LLM的上下文大小,是LLM推理的瓶颈,具有任意数量的令牌。为了超越上下文大小的限制,LLM必须采用模块化思维策略对多个回合进行推理。在这项工作中,我们提出了 MOTIF:通过强化微调的模块化思考——一种多轮生成思维标记的 RL 训练方法,有效地允许模型考虑额外的上下文大小。我们通过参数高效的微调在GSM8K数据集上训练开源模型Qwen2.5-3B-Instruct,并在MATH500和AIME2024基准上测试了其准确性。我们的实验表明,在各自的基准测试中,与普通基于 GRPO 的训练相比,我们的分别提高了 3.8% 和 3.3%。此外,这种改进仅使用 15% 的样本来实现,从而证明了 MOTIF 的样本效率。我们的代码和模型分别在 https://github.com/purbeshmitra/MOTIFhttps://huggingface.co/purbeshmitra/MOTIF 获得。

🛎️文章简介

🔸研究问题:如何在视觉语言模型中提高效率,同时保持性能,使得模型智能地判断何时需要高分辨率图像以回答问题?
🔸主要贡献:论文提出VisionThink,采用强化学习和LLM作为评判者的策略,实现了视觉语言模型的智能高效化。

📝重点思路

🔸设计了一种平衡的奖励函数,以防止模型总是需要高分辨率图像或总是使用低分辨率图像。
🔸提出LLM-as-Judge策略,通过大语言模型引导和评估强化学习的训练过程。
🔸实施动态视觉token压缩,根据每个样本内容智能决定是否请求原始高分辨率图像。
🔸对传统的规则基础强化学习算法进行了扩展,使其适用于一般视觉问答任务。

🔎分析总结

🔸实验表明,VisionThink在多个一般视觉问答基准上实现了性能提升,例如MathVerse和MMVet分别提高了3.7%和8.9%。
🔸VisionThink在需要精细文本识别的OCR相关基准上表现显著优于之前的高效视觉语言模型,展示了其在处理细节敏感场景中的优势。
🔸通过对比,VisionThink在使用压缩token时,能够在实际应用中更高效地处理视觉信息,减少计算负担,同时保持高准确率。
🔸为现实世界中的使用场景提供了更高的灵活性,模型能够根据问题的复杂性和样本需求主动请求高分辨率图像。

💡个人观点

论文的创新点在于引入了LLM作为评判者并结合强化学习的策略,使得视觉语言模型不仅提高了处理效率,还在保持或提升性能的基础上,成功应对了多样复杂的视觉问答任务。

🧩附录

在这里插入图片描述
在这里插入图片描述

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐