所有分类
  • 所有分类
  • AI工具
  • AI提示词
  • 课程资源

MMEureka–上海AILab联合上交大等推出的多模态推理模型

MMEureka–上海AILab联合上交大等推出的多模态推理模型 - AI办公工具

AI工具百科:

MMEureka是什么

MMEureka 是上海人工智能实验室、上海创智学院、上海交通大学和香港大学的研究人员共同开发的多模态推理模型。模型通过基于规则的大规模强化学习(RL),将单模态推理中的关键特性(如稳定的回答长度增长、准确率奖励以及视觉顿悟时刻)扩展到多模态场景。

MMEureka 推出两个核心模型:MMEureka8B 和 MMEurekaZero38B,分别基于 InternVL2.5Instruct8B 和 InternVL2.5Pretrained38B。

仅使用 54K 图文数据进行规则型强化学习训练,平均性能便超过了使用 1M 数据的 MPO 模型。MMEurekaZero38B 仅使用 8K 图文数学推理数据,在自建的 K12 基准测试上超越指令模型 8.2%,在 MathVerse 上表现相当。

 

MMEureka的主要功能

多模态推理能力:将大规模基于规则的强化学习(RL)扩展到多模态推理领域,能处理文本和视觉信息。

复现关键特性:在多模态空间中复现了文本 RL 系统(如 DeepSeekR1)的关键特性,包括准确率奖励和响应长度的稳步提升,以及反思行为的涌现。

数据高效性:仅使用 54K 图文数据进行规则型 RL 训练,平均性能超过了使用 1M 数据的 MPO 模型,整体基准准确率与使用 12M 数据进行 CoT SFT 训练的模型相当。

MMEureka的技术原理

基于规则的大规模强化学习框架:MMEureka 基于 OpenRLHF 开发了高效可扩展的多模态大规模强化学习框架,支持 InternVL 等多种模型和 RL 算法。使模型能在多模态环境中进行有效的训练,成功复现了 DeepSeekR1 的关键特性,如准确率奖励和响应长度的稳步提升。

数据过滤与稳定训练:研究团队发现,数据选择对于稳定 RL 训练至关重要。基于难度的数据过滤策略对 RL 训练的稳定性起到了关键作用。

视觉顿悟时刻(Visual ahamoment):MMEureka 在训练过程中展现出类似 DeepSeekR1 的视觉顿悟时刻。具体表现为模型学会反思和回溯,会重新审视图像中的关键信息。

极简的强化学习设计:极简的 RL 设计在 MMEureka 中被证明是有效的。在 instruct 模型上实验时,添加 KL 散度会限制模型探索,导致无法观测到响应长度的提高。 MMEureka 采用简单的奖励函数(如准确性奖励和格式奖励),通过难度基础的数据过滤策略进行稳定训练。

高效的数据利用:MMEureka 展现出极高的数据效率。仅使用 54K 图文数据进行规则型强化学习训练,平均性能就超过了使用 1M 数据的 MPO 模型。MMEurekaZero 仅使用 8K 图文数学推理数据(指令模型的 0.05%),在自建的 K12 基准测试上超越指令模型 8.2%,在 MathVerse 上表现相当。表明在多模态推理领域,简单的规则型强化学习设计可以显著提升训练效果,在数据量较少的情况下也能达到与大规模训练相当的性能。

MMEureka的项目地址

Github仓库:https://github.com/ModalMinds/MMEUREKA
arXiv技术论文:https://arxiv.org/pdf/2503.07365

MMEureka的应用场景

教育领域:MMEureka 能通过强大的推理能力和反思机制,帮助学生更好地理解和解决复杂的数学问题。

增强现实(AR)和虚拟现实(VR):在 AR 和 VR 场景下,通过结合视觉和语言信息,MMEureka 可以为用户提供更加沉浸式和交互式的体验。

数据分析和决策支持:MMEureka 的多模态推理能力使其在数据分析和决策支持方面具有显著优势。能处理复杂的图文数据,帮助用户从大量信息中提取关键信息并做出更明智的决策。

自动化和智能助手:MMEureka 可以作为智能助手的核心技术,为用户提供更智能、更自然的交互体验。

游戏和娱乐:在游戏和娱乐领域,MMEureka 的多模态推理能力可以用于开发更加智能的非玩家角色(NPC)和交互式剧情。

0
加入AI学习第一站,精选2025年,AI工具、提示词、变现教程。 【戳我查看 】资料目录 【戳我登录】获取资料
显示验证码
没有账号?注册  忘记密码?