所有分类
  • 所有分类
  • AI工具
  • AI提示词
  • 课程资源

WorldMem–南洋理工联合北大和上海AILab推出的世界生成模型

热门教程(视频)

WorldMem–南洋理工联合北大和上海AILab推出的世界生成模型 - AI办公工具

AI工具百科:

WorldMem是什么

WorldMem 是南洋理工大学、北京大学和上海 AI Lab 推出的创新 AI 世界生成模型。模型基于引入记忆机制,解决传统世界生成模型在长时序下缺乏一致性的关键问题。

在WorldMem中,智能体在多样化场景中自由探索,生成的世界在视角和位置变化后能保持几何一致性。WorldMem 支持时间一致性建模,模拟动态变化(如物体对环境的影响)。

模型在 Minecraft 数据集上进行大规模训练,在真实场景中验证有效性。WorldMem 为构建真实、持久、交互式的虚拟世界提供新的技术路径。

WorldMem的主要功能

保持一致性:在长时间生成中,让虚拟世界保持一致。

模拟动态变化:模拟时间推移带来的变化,比如物体对环境的影响(如灯光融化积雪)。

支持交互:用户在虚拟世界中放置物体或进行操作,交互被记录影响后续生成。

多样化场景生成:支持在多种虚拟场景(如平原、沙漠、冰原等)中自由探索。

适用于真实场景:在真实世界数据集上验证生成一致性的能力。

WorldMem的技术原理

条件生成模块:基于条件扩散变换器(Conditional Diffusion Transformer)构建,结合 Diffusion Forcing 训练策略,支持自回归式长时生成。用外部动作信号(如移动、视角控制、物体放置等)引导第一人称视角的生成。

记忆读写模块:记忆库存储生成过程中的关键历史信息,每个记忆单元包含图像帧及其对应的状态(如视角位姿和时间戳)。记忆检索用贪心匹配算法,基于视野重叠和时间差异计算相似度,高效筛选出与当前场景最相关的记忆单元。

记忆融合模块:将当前帧与记忆帧的状态嵌入(位姿 + 时间)结合,基于注意力计算提取与当前场景最相关的记忆信息,生成融合特征引导当前帧的生成。用 Plücker 坐标表示位姿,基于 MLP 映射时间戳,引入相对嵌入机制,提升模型的空间理解和细节保持能力。

WorldMem的项目地址

项目官网:https://xizaoqu.github.io/worldmem/
GitHub仓库:https://github.com/xizaoqu/WorldMem
arXiv技术论文:https://arxiv.org/pdf/2504.12369
在线体验Demo:https://huggingface.co/spaces/yslan/worldmem

WorldMem的应用场景

虚拟游戏:生成长期一致的虚拟游戏世界,支持自由探索和环境交互。

VR/AR:创建持久且动态变化的虚拟环境,提升沉浸感。

自动驾驶:模拟真实交通场景,用在自动驾驶系统的测试。

建筑设计:生成虚拟建筑环境,辅助设计方案评估。

教育:创建互动教学环境,支持学生进行实验和探索。

0
加入AI学习第一站,精选2025年,AI工具、提示词、变现教程。 【戳我查看 】资料目录 【戳我登录】获取资料
显示验证码
没有账号?注册  忘记密码?