
当整个科技行业还在为大语言模型的参数和能力狂欢时,顶级AI学者李飞飞用一篇万字长文,为我们揭示了AI下一个十年的真正航向。她明确指出,AI的未来不在于构建更大的语言模型,而在于一项更根本、更接近真实世界的能力——空间智能。
这不仅是对当前AI技术局限性的一次深刻反思,更是为人工智能从“对话工具”进化为“行动伙伴”指明了道路。
为什么说AI正从“纸上谈兵”走向现实世界?
目前以大语言模型为代表的AI,尽管在文本创作、知识问答上表现惊人,但李飞飞一针见血地指出,它们是“黑暗中的文字匠”。它们能为你写一首关于咖啡的诗,却无法判断你伸手去拿咖啡杯时,手指与杯沿的精确距离。
这种对物理世界常识的缺失,是当前AI的“死穴”。它导致AI被困在由文本和二维图像构成的“扁平世界”里,无法真正理解和融入我们生活的三维空间。这也是为什么自主机器人依旧步履蹒跚,而我们期待的沉浸式元宇宙体验迟迟未能到来的根本原因。
因此,AI的下一次飞跃,关键在于打破这层认知隔膜,发展出强大的**空间智能**,让机器真正“看见”并“理解”世界。
李飞飞的“北极星”:什么是空间智能?
空间智能,简而言之,就是AI理解、推理并与三维物理世界互动的能力。它远比语言的起源更早,是人类认知能力的基石。从古希腊学者测量地球周长,到现代建筑师设计摩天大楼,都离不开空间智能的支撑。
对于AI而言,这意味着它需要掌握几何、物理和动态规则,能像科学家一样严谨推理,像艺术家一样自由想象,更能像救援人员一样在复杂环境中敏捷行动。哲学家维特根斯坦曾说:“我语言的极限,意味着我世界的极限。”李飞飞则认为,对AI而言,世界远不止于文字。
这正是她心中的“北极星”——构建能够连接想象、感知与行动的AI,让机器超越语言的边界,走向更广阔的真实世界。
超越语言模型:世界模型的三大支柱
要实现空间智能,我们需要一种全新的、远比大模型更宏大的技术范式——**世界模型**(World Models)。它不是简单地预测下一个词,而是理解、模拟并预测整个世界如何演变。
李飞飞指出,一个有效的**世界模型**必须具备三大核心能力:首先是生成性,能创造出遵循物理定律、在空间上保持一致的虚拟世界;其次是多模态性,能处理图像、视频、文本、动作等多种输入输出;最后是交互性,能够根据输入的动作预测世界的变化,从而打通感知与行动的闭环。
然而,构建**世界模型**的难度远超语言模型。它需要全新的训练任务、能提取深度空间信息的海量数据,以及能处理3D甚至4D信息的新型模型架构。这正是李飞飞创立的World Labs正在攻克的决定性挑战。
从创意到科学:空间智能的应用路线图
空间智能的落地并非一蹴而就,它将分阶段深刻地改变我们的生活和工作。在近期,它的力量正首先赋能创意产业。例如,利用**ai建模**和**ai动画制作**技术,创作者可以快速构建宏大而真实的3D虚拟世界,极大地提升电影、游戏和建筑设计的效率与想象力。
中期来看,空间智能将引爆**机器人**领域。当机器人具备了对环境的精准感知和交互能力,它们将不再是流水线上的机械臂,而是能与人类协同工作的智能助手。无论是家庭服务还是工业生产,具备具身智能的**机器人**将成为现实。
从长远看,其最具变革性的应用将出现在科学、医疗和教育领域。在药物研发、材料科学、医疗诊断以及沉浸式教育等方面,空间智能将帮助人类突破目前的认知极限。李飞飞强调,这一切的最终目标始终是增强人类的能力,而非取代人类,让AI成为深化人类关怀与创造力的强大伙伴。#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
爱范儿 |原文链接 ·查看评论 ·新浪微博

