所有分类
  • 所有分类
  • AI工具
  • AI提示词
  • 课程资源

CosmosReason1–NVIDIA推出的系列多模态大语言模型

热门教程(视频)

CosmosReason1–NVIDIA推出的系列多模态大语言模型 - AI办公工具

AI工具百科:

CosmosReason1是什么

CosmosReason1 是NVIDIA推出的系列多模态大语言模型,模型能生成基于物理现实的响应。CosmosReason1 包含两个模型:CosmosReason17B 和 CosmosReason156B。

模型基于视觉预训练、通用SFT、物理AI SFT和强化学习四个阶段的训练,结合视频输入和文本提示,能输出具有长推理链的响应,在物理常识和具身推理基准测试中表现出色,显著优于其他同类模型。模型定义了物理常识和具身推理的本体论,构建相应的基准测试,评估多模态LLMs的物理AI推理能力。

CosmosReason1的主要功能

物理常识理解:理解物理世界的基本知识,如空间、时间和基础物理定律,判断事件的合理性。

具身推理:基于物理常识,为具身代理(如机器人、自动驾驶车辆)生成合理的决策和行动规划。

长链思考:基于长链思考(chainofthought reasoning)生成详细的推理过程,提升决策的透明度和可解释性。

多模态输入处理:支持视频输入,结合视觉信息和语言指令进行推理,生成自然语言响应。

CosmosReason1的技术原理

层次化本体论:定义物理常识的层次化本体论,涵盖空间、时间和基础物理三个主要类别,进一步细分为16个子类别。

二维本体论:为具身推理设计二维本体论,涵盖五种具身代理的四种关键推理能力。

多模态架构:基于解码器仅多模态架构,输入视频基于视觉编码器处理后,与文本标记嵌入对齐,输入到LLM中。

模型四个训练阶段:
视觉预训练:对视觉和文本模态进行对齐。

通用监督微调(SFT):提升模型在通用视觉语言任务中的表现。

物理AI SFT:用专门的数据增强物理常识和具身推理能力。

物理AI强化学习(RL):基于规则化奖励进一步优化模型的推理能力。

强化学习:设计基于多选题的规则化奖励机制,基于强化学习提升模型在物理常识和具身推理任务中的表现。

CosmosReason1的项目地址

项目官网:https://research.nvidia.com/labs/dir/cosmosreason1/
GitHub仓库:https://github.com/nvidiacosmos/cosmosreason1
HuggingFace模型库:https://huggingface.co/collections/nvidia/cosmosreason1
arXiv技术论文:https://arxiv.org/pdf/2503.15558

CosmosReason1的应用场景

机器人操作:帮助机器人理解任务目标,生成操作计划,完成抓取、组装等复杂动作。

自动驾驶:处理道路视频,预测交通动态,生成安全驾驶决策,如避让和变道。

智能监控:实时监测视频中的异常行为,如人员跌倒或设备故障,及时发出警报。

虚拟现实(VR)/增强现实(AR):根据虚拟环境输入,生成交互响应,提升用户沉浸感。

教育与培训:基于视频讲解物理现象或操作流程,辅助教学和职业技能培训。

0
加入AI学习第一站,精选2025年,AI工具、提示词、变现教程。 【戳我查看 】资料目录 【戳我登录】获取资料
显示验证码
没有账号?注册  忘记密码?