VLA的未来：不拥抱世界模型或将被淘汰，数据工厂成关键战场-手机产品-虎科技

VLA的未来：不拥抱世界模型或将被淘汰，数据工厂成关键战场

时间：2026-06-02 13:12 来源：天脉网作者：顾青青

具身智能领域正经历一场从狂热到冷静的深刻转变。曾经被寄予厚望的VLA（视觉-语言-动作）模型，如今在实验室演示中频繁暴露出“认知缺陷”——当工程师要求机械臂抓取苹果时，机械臂却精准地握住马克杯；在需要精细力控的螺丝拧紧任务中，模型却将螺丝刀直插电机。这些令人尴尬的场景，让行业开始重新审视技术路线的可行性。

两年前，VLA技术曾掀起资本狂潮。谷歌DeepMind发布的RT-2模型论文，直接推动二级市场将具身智能商业化预期提前三年；国内某独角兽企业凭借VLA概念估值飙升，被媒体冠以“通用机器人奇点”的称号。然而，当技术从实验室走向真实场景，其局限性迅速显现——模型能识别“苹果是红色圆形物体”，却无法理解“10牛顿外力会导致苹果形变滚落”；能通过剪辑视频学习“杯子掉落会摔碎”，却无法捕捉“指尖打滑导致坠落”的临界瞬间。这种基于表面关联的“伪物理”认知，使得模型在面对反光物体、透明容器或动态场景时，表现如同“缸中大脑”。

行业开始将希望寄托于“世界模型”的融合。不同于简单套用物理仿真引擎的“补丁式”方案，真正的融合需要让模型具备物理世界的“直觉”。就像人类接钥匙时无需精确计算轨迹，而是依靠内化的物理模型驱动肌肉记忆，未来的VLA应能在决策前预演物理变化，并反向约束动作生成。李飞飞团队近期的研究提供了新思路：通过强制模型预测下一帧深度图、物体分割图及接触力分布，迫使其构建三维因果物理表征。当模型能准确预测“特定角度推瓶会导致0.5秒后倾倒”时，抓取动作的精准度将显著提升。

技术路线的共识背后，一场关于数据的“沉默战争”正在打响。某头部人形机器人公司数据采集负责人透露，其团队雇佣退休工程师进行遥操作，但因手部颤抖导致数据可用率不足10%；而要训练模型泡咖啡，需获取水壶重量变化、蒸汽温度分布等互联网无法提供的物理交互数据。特斯拉Optimus团队的优势在此凸显——通过迁移汽车自动驾驶的“影子模式”，其工厂数据形成自我迭代的飞轮，而多数国内企业仍依赖“人海战术”进行低效采集。这种差异直接决定了技术壁垒的转移：未来竞争将聚焦于数据工厂的规模与效率，而非模型架构本身。

当前，行业已形成清晰的分层竞争格局。底层由OpenAI、谷歌DeepMind等构建“物理世界基础模型”的巨头占据，提供理解基本物理规律的VLA基座；中层则是拥有高效私有数据工厂的机器人企业，通过场景数据微调形成超级专家模型；缺乏数据能力的公司则可能沦为技术分销商，或在低技术要求的巡检领域内卷。正如Physical Intelligence疯狂签约制造业企业并非为服务费，而是为获取真实物理交互数据——这场战争的胜负，将取决于数据工厂里工人动作的标准化程度、传感器噪音的过滤效果，以及失败操作的记录完整性。

更多>同类内容

VLA的未来：不拥抱世界模型或将被淘汰，数	科大讯飞发布AI眼镜，携手全球顶尖伙伴共启
欧莱雅硬刚盒马：高端美妆与新零售渠道之争	扫地机器人怎么选？热门品牌对比+高性价比