一、引言:从“死记硬背”到“举一反三”工业机器人正走出围栏,从执行单一任务的机械臂进化为理解复杂指令的具身智能体。然而,一个根本性的困境始终存在:机器人的操作技能大多需要通过大量示范数据习得。在自然语言处理领域,大模型通过阅读海量语料掌握了语言表达能力;在计算机视觉领域,模型通过浏览数十亿图像学会了识别万物。但在机器人领域,物理世界中打翻一杯水可能意味着数万元的硬件损坏,让机器人在真实环境中“试错”操作的高昂成本,使其在数据规模和多样性上远无法与大语言模型相提并论。这一数据“鸿沟”催生了机器人领域最前沿的研究方向之一:用极少的训练样本让机器人学会新技能。近年来,多模态大模型的飞速发展为这一难题提供了全新的解法和前所未有的机遇。
二、技术基础:多模态大模型如何读取“视觉-语言-动作”
2.1 从视觉-语言模型到具身智能
视觉-语言模型(Vision-Language Model, VLM)经历了从“看图说话”到“看懂场景并为行动推理”的深刻进化。今天的VLM不仅能够描述图像内容,更能理解物体间的空间关系、工具的可用性(可供性,Affordance)以及行动的因果链。
将这种理解力延伸到机器人控制领域,催生了视觉-语言-动作(Vision-Language-Action, VLA)模型这一新兴架构。VLA模型的核心思路是:让机器人像人类一样,先通过视觉和语言感知任务,再输出相应的动作指令。VLA模型建立在VLM预训练的强大先验之上,但存在一个关键瓶颈——机器人动作数据的稀缺。VLM可以从几十亿张图片学习到什么是“杯子”,但机器人必须从相对有限的轨迹数据中学习如何“抓取”那个杯子。
2.2 VLA-R1:为机器人注入“思维链”
2025年,GigaAI、中科院自动化所和清华大学联合推出的VLA-R1模型,在VLA能力边界上实现了显著突破。其核心创新在于赋予机器人“思维链”(Chain-of-Thought, CoT)——即在发出动作之前先进行逻辑推理。
研究团队构建了VLA-CoT-13K数据集,包含1.3万条标注数据,每一条都提供了清晰的“思维链”:场景应该如何被分析、指令应如何理解、相关物体及其属性如何识别、空间关系如何判断,最后才是行动方案。在此基础上,VLA-R1通过三个可验证的奖励信号进行强化学习:区域对齐奖励评估预测的操作区域与最佳抓取区域的匹配度;轨迹一致性奖励评判动作轨迹的合理性和流畅度;输出格式奖励确保规范输出。该模型在真实场景中的执行成功率达到75%。
Gemini Robotics 1.5更进一步,引入了“先思考再行动”机制,能够生成内部推理过程并用自然语言解释思考步骤。在长程任务实验中,该机制将失败率从44.5%降低到22%。
三、小样本学习的突破性进展
3.1 ControlVLA:10次示范撬动新技能
在少样本操作领域,ControlVLA无疑是2025年最具影响力的成果之一。其核心洞察非常深刻:通用的VLA模型已经积累了大量操作先验知识,学习新任务的关键不是“重新学习”,而是“精准适配”——就像一名熟读兵法的统帅面对新战场时,不需要从头学兵法,只需要调整战术部署。
ControlVLA采用ControlNet风格的架构,将预训练VLA模型与以目标物体为中心的表示通过零初始化的投影层连接。在微调过程中,这些投影层逐步适应新任务,而不破坏模型原有的泛化能力。实验结果显示,在倒水、叠衣服、长序列物品收纳等6项不同任务中,ControlVLA在仅使用10-20次人类示范的情况下实现76.7%的成功率,传统方法需要超过100次示范才能达到可比的成功率。
3.2 FAM-1:3-5条样本实现97%成功率
如果说ControlVLA展示了“看10遍就会”的能力,那么中科第五纪发布的FAM-1模型则把这一极限推进到了更令人震撼的程度。该模型仅需3-5条机器人数据/任务即可完成精准具身操作学习,成功率高达97%,全面超越现有最先进方法。
FAM-1的核心架构BridgeVLA实现了两大技术创新:一是挖掘VLM隐含的知识,从海量图像-文本数据中提取多维操作知识;二是利用三维热力图对齐VLM与VLA的输入输出,以极少量样本实现强大泛化。
3.3 零样本操作的曙光:NovaFlow
NovaFlow走出了一条截然不同的路径:让机器人“看视频自学”。其思想极具启发性——视频生成模型已经学习到世界如何运作的丰富物理知识,为何不让机器人直接从生成的视频中提取“可执行3D对象流”?这种以物体为中心的表征与执行平台无关,无论是人手还是机械臂,其底层控制逻辑是一致的。实验结果表明,NovaFlow在所有零样本方法中表现最佳,甚至优于使用10个和30个示范数据训练的模仿学习策略。
四、泛化机制:跨任务、跨空间、跨本体的“三重跃迁”
4.1 跨任务泛化
考拉悠然的BLM-1.0大模型在统一框架内实现了“空间无界-任务无界-本体无界”三大能力,代表了具身智能泛化的最高追求。在任务泛化层面,BLM-1.0能够在多种任务之间建立语义对齐关系,实现知识和策略的共享与转移,理解任务中的因果结构。
GeneralVLA进一步提出了分层VLA架构,其中高层模块微调以感知图像关键点可供性,中层模块执行任务理解并输出三维路径,低层控制策略精确执行。该方法无需任何真实机器人数据采集或人类示范,成功生成了14种不同任务的有效轨迹,显著优于VoxPoser等方法。
4.2 跨空间泛化
空间泛化意味着机器人不应被困在实验室环境。BLM-1.0将数字空间中获得的知识迁移至物理世界,打通了语言与现实的表示鸿沟。Harvard大学的Large Video Planner通过生成视觉动作计划的方式从根本上改变了泛化路径——给定起始图像和文本指令,模型生成展示任务完成过程的视频,再转换为可执行动作。
4.3 跨本体泛化
不同机器人平台的控制接口差异极大,传统方法通常需要为新平台重新训练或微调。Gemini Robotics 1.5展示的能力令人振奋:在ALOHA 2机器人上学习的任务技能,可以直接在Apollo人形机器人或Franka双臂机器人上执行,无需重新训练。BLM-1.0通过对不同本体的潜在行为模式进行对齐,实现了单一模型控制多种硬件的目标。
五、推动工业落地——从技术可能到工程可行
小样本学习和跨本体泛化的进步正在催生工业机器人落地方式的根本转变,但也面临三大挑战:仿真到现实(Sim-to-Real)的鸿沟、长期任务(Long-Horizon)的稳定性挑战、Safety-Critical场景的可靠性要求。
VLA-R1在思维链中纳入可供性约束的显式推理,GeneralVLA通过真实世界无需示范生成高质量示范,这些进展正为工业落地铺平道路。See, Plan, Rewind框架引入了基于里程碑的进度感知机制——“看见-规划-回溯”闭环使模型能够检测到进展停滞时回退到可恢复状态,在不增加训练数据和辅助模型的情况下实现稳健的误差校正。展望未来,多模态大模型驱动的工业机器人将从固定工位的精确操作器进化为跨工位、跨产线的柔性智能体,成为真正意义上的“通用问题解决者”。