在人工智能与机器人交叉领域,VLA 特指 Vision-Language-Action,即 视觉-语言-动作模型。这是一种将计算机视觉、自然语言理解与机器人动作生成深度融合的端到端学习范式,被视为通往通用具身智能的关键技术路径。
VLA 模型以预训练的大规模视觉-语言模型(VLM,如 PaLI-X、LLaVA 等)为骨干,将机器人动作视为一种新的模态。通过把连续动作离散化为“动作 token”,并嵌入到已有的文本、图像 token 空间中,模型能够直接以自然语言指令与视觉观测作为输入,输出可执行的机器人动作指令(如末端位姿轨迹、关节角度序列或灵巧手抓取参数)。
模态统一:利用预训练 VLM 的 tokenizer,将视觉和语言统一到同一个语义空间。在此之上,增加一个“动作 tokenizer”,将机器人专家轨迹中的连续动作(如末端 6D 位姿增量、关节力矩)离散化为一系列离散 token。
联合训练:在互联网规模的图文数据与机器人操作数据上进行微调或协同训练。损失函数同时考虑文本生成和动作预测,使模型既能进行常识推理,又能输出物理世界的操控指令。
推理生成:给定一个 RGB 图像观测和指令“把蓝色的积木放到黄色的托盘上”,模型自回归地解码出动作 token 序列,再由反离散化模块转换为连续运动指令发送给机器人控制器。
首个真正意义上的 VLA 模型。基于视觉-语言模型 PaLI-X 或 PaLM-E,将 Web 知识迁移到机器人控制,展现出符号理解、复杂推理和基础指令跟随的涌现泛化能力。相关论文标题直接定义为 “Vision-Language-Action Models Transfer Web Knowledge to Robotic Control”。
基于 Llama 2 语言模型与 SigLIP 视觉编码器的 7B 参数 VLA,在 97 万条真实机器人操作轨迹上训练。完全开源,将 VLA 能力推向开放研究,支持微调适配多种具身形态。
通用机器人策略基础模型,同样遵循视觉-语言-动作多模态框架,支持多机器人、多任务、多传感器配置,可通过语言指令或目标图像指定任务。
互联网知识迁移:由于背靠大语言模型和 VLM,VLA 拥有符号理解、基本物理常识和语义关联能力。例如,对于未见过的“把临期食品放到红色回收筐里”,模型可以推断“临期食品”与“回收”的语义关系,而不需要针对该短语预训练。
零样本/少样本泛化:能处理训练中不曾出现的物体、颜色、空间关系组合,甚至新动词。
端到端控制:跳过了传统的“感知→规划→控制”模块级联,直接从像素和指令生成底层动作,减少了结构化感知误差的累积。
VLA 模型本质上是一种机器人基础模型(Robotics Foundation Model) 的实现方案。它将物理动作空间对齐到语言-视觉语义流形中,使得机器人不再只是执行预编程轨迹,而是能“理解并回应”开放的语义指令。这代表着从 “写代码控制” 到 “说人话指挥” 的范式跃迁,是当前具身智能领域最活跃的前沿方向之一。
动作精度与实时性:动作 token 化会引入量化误差,高精度灵巧操作(如插拔精密元件)仍困难;大模型推理延迟亦难以满足 kHz 级伺服控制需求。
安全与价值对齐:直接从语言映射到动作,缺乏形式化安全约束层,可能产生危险行为。
数据规模化:高质量、多模态的机器人操作数据获取成本极高,远不及互联网图文数据规模。仿真到真实(Sim-to-Real)的迁移与数据高效利用仍是核心瓶颈。
注:在极少场合,VLA 也可能被解读为 “Visual-Language-Action” 的同义变体,或与早期 “VLA(Very Large Array)” 射电望远镜缩写冲突,但在当前人工智能与机器人文献中,只要上下文涉及具身智能、大模型与机器人控制,VLA 专指视觉-语言-动作模型。
99
65
61
60
54
54
46
43
34
30
善点 SHANDOT · 智能具身机器人行业应用前沿动态解决方案提供商