当人工智能在文本生成、图像创作和视频制作领域掀起变革浪潮时,科学家们却将目光投向了更深层的挑战——如何让机器真正理解物理世界。美国国家工程院、国家医学院和艺术与科学院三院院士李飞飞近日在社交平台发布万字长文《从语言到世界:空间智能是AI的下一个前沿》,引发学术界与产业界的热烈讨论。她直言,当前以大语言模型和图像分类器为主导的技术范式已触及天花板,具备空间感知能力的AI将成为突破瓶颈的关键。
当前AI的"能说会道"与"笨手笨脚"形成鲜明对比。社交平台上,用户用豆包生成的照片常出现荒诞场景:沙漠中的骆驼大如猛犸象,兔子与长颈鹿的脖子长度混淆。OpenAI的文生视频模型Sora更闹出国际笑话——其发布的蚂蚁视频中,这种六足昆虫竟被画成四条腿。这一失误让两位人工智能领域顶尖学者罕见达成共识:meta首席AI科学家杨立昆揶揄"蚂蚁有六条腿",纽约大学教授加里·马库斯则警告"今天搞错蚂蚁,明天就可能算错月球轨道"。升级后的Sora2虽提升了画面流畅度,但男子挥舞棍子的流苏仍会时隐时现,暴露出物理规律理解的缺陷。
西湖大学空间智能实验室负责人刘沛东指出,现有AI系统的核心短板在于缺乏对物理世界的常识性认知。语言模型处理的是人造符号系统,而真实世界遵循物理定律,二者存在本质差异。他以"买咖啡"的指令为例:"这需要机器自主分解任务、规划路径并应对突发状况,但当前系统连'球滚出可能意味着有儿童追逐'这样的因果推理都难以完成。"这种局限直接导致自动驾驶汽车在复杂路况下的安全隐患,以及扫地机器人因误判障碍物而将猫粪涂抹满地的尴尬场景。
空间智能的概念源于教育心理学领域。上世纪80年代,霍华德·加德纳在多元智能理论中将其定义为对空间信息的感知、操作能力,涵盖三维思维、图形敏感等维度。这种能力在人类文明进程中屡建奇功:埃拉托色尼通过日影测量地球周长,哈格里夫斯发明珍妮纺纱机革新纺织业,沃森与克里克破解DNA结构之谜。当科学家将这一概念引入AI领域时,他们希望机器能像人类婴儿般,从观察世界中自然发展出空间认知能力。
产业界已展开激烈角逐。2025年拉斯维加斯消费电子展上,英伟达推出Cosmos世界模型,可生成物理感知视频;群核科技开源的SpatialLM空间语言模型登上AI开源社区热榜第二;谷歌DeepMind发布的Genie 3支持实时交互,为游戏开发和教育领域带来新可能;李飞飞参与创立的World Lab更推出首款多模态产品Marble,用户可通过文本、照片或3D图纸生成可编辑的虚拟环境。这些突破背后,是科学家们对"世界模型"的共同追求——这种模拟物理规则的内部系统,能让AI像人类一样直觉预判咖啡杯坠落轨迹,而非依赖复杂计算。
但技术突破仍面临重重障碍。真实世界的复杂性远超现有数学模型的处理能力,地球内部构造等难以观测的数据限制着模型精度,暗物质等未解物理现象更让建模缺乏实验支撑。群核科技首席科学家周子寒坦言:"当前空间智能技术多停留在图像理解层面,李飞飞提出的范式若能突破,将在自动驾驶、机器人、虚拟现实等领域引发变革。"这场关于物理世界理解权的竞赛,或许才刚刚拉开帷幕。















