具身智能领域正经历一场从狂热到冷静的深刻转变。曾经被寄予厚望的VLA(视觉-语言-动作)模型,如今在实验室演示中频繁暴露出“认知缺陷”——当工程师要求机械臂抓取苹果时,机械臂却精准地握住马克杯;在需要精细力控的螺丝拧紧任务中,模型却将螺丝刀直插电机。这些令人尴尬的场景,让行业开始重新审视技术路线的可行性。
两年前,VLA技术曾掀起资本狂潮。谷歌DeepMind发布的RT-2模型论文,直接推动二级市场将具身智能商业化预期提前三年;国内某独角兽企业凭借VLA概念估值飙升,被媒体冠以“通用机器人奇点”的称号。然而,当技术从实验室走向真实场景,其局限性迅速显现——模型能识别“苹果是红色圆形物体”,却无法理解“10牛顿外力会导致苹果形变滚落”;能通过剪辑视频学习“杯子掉落会摔碎”,却无法捕捉“指尖打滑导致坠落”的临界瞬间。这种基于表面关联的“伪物理”认知,使得模型在面对反光物体、透明容器或动态场景时,表现如同“缸中大脑”。
行业开始将希望寄托于“世界模型”的融合。不同于简单套用物理仿真引擎的“补丁式”方案,真正的融合需要让模型具备物理世界的“直觉”。就像人类接钥匙时无需精确计算轨迹,而是依靠内化的物理模型驱动肌肉记忆,未来的VLA应能在决策前预演物理变化,并反向约束动作生成。李飞飞团队近期的研究提供了新思路:通过强制模型预测下一帧深度图、物体分割图及接触力分布,迫使其构建三维因果物理表征。当模型能准确预测“特定角度推瓶会导致0.5秒后倾倒”时,抓取动作的精准度将显著提升。
技术路线的共识背后,一场关于数据的“沉默战争”正在打响。某头部人形机器人公司数据采集负责人透露,其团队雇佣退休工程师进行遥操作,但因手部颤抖导致数据可用率不足10%;而要训练模型泡咖啡,需获取水壶重量变化、蒸汽温度分布等互联网无法提供的物理交互数据。特斯拉Optimus团队的优势在此凸显——通过迁移汽车自动驾驶的“影子模式”,其工厂数据形成自我迭代的飞轮,而多数国内企业仍依赖“人海战术”进行低效采集。这种差异直接决定了技术壁垒的转移:未来竞争将聚焦于数据工厂的规模与效率,而非模型架构本身。
当前,行业已形成清晰的分层竞争格局。底层由OpenAI、谷歌DeepMind等构建“物理世界基础模型”的巨头占据,提供理解基本物理规律的VLA基座;中层则是拥有高效私有数据工厂的机器人企业,通过场景数据微调形成超级专家模型;缺乏数据能力的公司则可能沦为技术分销商,或在低技术要求的巡检领域内卷。正如Physical Intelligence疯狂签约制造业企业并非为服务费,而是为获取真实物理交互数据——这场战争的胜负,将取决于数据工厂里工人动作的标准化程度、传感器噪音的过滤效果,以及失败操作的记录完整性。
















