在机器人技术领域,传统强化学习训练方式长期面临数据需求巨大的挑战。以一个简单的搬运动作为例,传统强化学习需要近万条数据样本才能让机器人学会控制身体。这种依赖海量仿真和真实测试的“题海战术”,对数据的体量和质量都提出了近乎苛刻的要求。
近日,深圳一家名为揽月动力的具身智能公司提出了一套创新解决方案,为行业带来了新的思路。该公司专注于强交互、复杂操作机器人的研发,其训练框架显著降低了对训练样本的需求。简单动作仅需几十条训练样本,复杂动作通过拆解后,训练样本需求可压缩至原来的十分之一到二十分之一。
揽月动力成立于2024年,创始团队核心成员兼具工程、商业与产业背景。首席科学家王雪峰博士现任北京大学先进制造与机器人学院助理教授,在机器人控制与非线性动力学领域成果丰硕,发表国际期刊论文30余篇,并获IEEE/ASME会议最佳论文奖。2025年11月,该公司完成数千万元天使轮融资,投资方包括银河通用机器人、泸州老窖金舵资本、建银国际(上市公司金力永磁合作基金)、L2F光源创业者基金。
传统强化学习陷入数据困境,根源在于两个关键问题。一方面,操作任务的状态空间维度极高,环境参数的微小变化都会使已有数据失效,每个场景和参数变化几乎都需要独立采集数据。另一方面,力控数据在操作任务中至关重要,但采集成本极高。力作为物理交互的核心变量,是“隐性变量”,获取真实力反馈只能依靠六维力传感器和精密伺服系统,成本远超视频和仿真采集。
揽月动力给出的破局之法是约化模型(Reduced-Order Model)。该模型将机器人复杂的多体运动系统降阶降维,把高维变量如关节、连杆、惯量、接触力、驱动力矩等,转化为更基础的物理参数,包括加速度、减速度、角度、力矩、重心变化等。通过数学方式抽取关键特征,建立低阶动力学方程,让机器人掌握“解题公式”,而非单纯“背题”。在实际应用中,揽月动力先用约化模型建立动作的物理框架,使机器人掌握动作大方向,再用强化学习校正姿态偏差、精度损失和场景差异等,从而大幅减少了对训练数据的需求。在大负载人形轮足机器人场景下,同等工业动作训练标准下,揽月动力所需训练数据较行业均值降低60%-75%,整体算力消耗减少55%-70%。
约化模型的另一大优势是实现“高频力控”。大模型在数字世界表现强劲,但在物理世界存在明显局限。首先是延迟问题,主流大模型推理时延动辄百毫秒到秒级,对于需要快速反应的物理操作远远不够。例如机器人抓取易碎工件时,从手指传感器感知到滑移到系统做出反应的时间窗口只有几毫秒,大模型可能还未完成推理,工件就已掉落。其次是闭环问题,大模型是开环系统,缺乏真正的物理反馈,而物理世界的操作是连续校正的过程。大模型缺失物理表征,不理解物体受力时的压力分布、形变方向等信息,且其“幻觉”在物理世界可能引发严重后果,如工件报废、设备损坏甚至安全事故。
约化模型则让机器人“边动边校正”。在工业现场,它将每一次接触、受力和姿态偏差映射到底层物理参数,配合关节传感器实时调整力矩输出,这种自校正能力是大模型无法提供的。揽月动力的约化模型中层全身控制输出频率可达1000Hz,机器人每秒能进行上千次力学计算与动作修正,实现高频力控,使机器人在搬运、推门、上下料、码垛等工业任务中保持动作稳定。
约化模型在世界模型与机器人本体之间也发挥着关键作用。世界模型旨在让机器人理解世界变化并预测下一步状态,但其生成的虚拟数据不一定符合真实物理。约化模型作为“物理翻译器”,将世界模型生成的数据映射到可对照、可验证的物理参数体系,过滤掉不合理数据,保留合理数据,再进入小脑控制和机器人预训练。
在机器人形态选择上,揽月动力也有独特考量。纯轮式机器人稳定、负载强,但在复杂工厂环境中主动姿态能力不足;全尺寸双足人形机器人热度高,但能耗高、稳定性差、控制复杂,工业应用面临挑战。揽月动力选择双轮足形态,它结合了纯轮式和双足的优点,相比纯轮式能主动调整重心,姿态控制能力更强;相比双足能耗更低,稳定性更强,量产难度更可控。
揽月动力的L1系列机器人面向工业搬运、码垛、上下料、物流分拣等高重复性力控任务,负载能力从25kg级向更高负载版本迭代,目标是以更低成本、更强稳定性进入真实工厂。其落地路径围绕工业和物流两条主线展开,在制造业场景,已围绕汽车零部件、磁材加工等推进样机验证和产线替代,任务包括弹簧箱搬运、码垛、上下料、磁铁块上料等;在物流场景,机器人进入仓库验证,面向分拣、搬运等高重复性岗位替代。这些场景对动作的稳定性、负载能力、连续作业和投资回报率有明确要求,而约化模型驱动的实时校正能力,正是机器人复现人类手感、力反馈和肌肉记忆的关键。















