SHANDOT

VLA(视觉-语言-动作模型)

来源: | 作者:SHANDOT | 发布时间 :2026-05-16 | 53 次浏览: | 🔊 点击朗读正文 ❚❚ | 分享到:
VLA 特指 Vision-Language-Action,即 视觉-语言-动作模型。这是一种将计算机视觉、自然语言理解与机器人动作生成深度融合的端到端学习范式,被视为通往通用具身智能的关键技术路径。引用RT-2论文(“RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control”),以及OpenVLA等

在人工智能与机器人交叉领域,VLA 特指 Vision-Language-Action,即 视觉-语言-动作模型。这是一种将计算机视觉、自然语言理解与机器人动作生成深度融合的端到端学习范式,被视为通往通用具身智能的关键技术路径。

1、核心定义

VLA 模型以预训练的大规模视觉-语言模型(VLM,如 PaLI-X、LLaVA 等)为骨干,将机器人动作视为一种新的模态。通过把连续动作离散化为“动作 token”,并嵌入到已有的文本、图像 token 空间中,模型能够直接以自然语言指令与视觉观测作为输入,输出可执行的机器人动作指令(如末端位姿轨迹、关节角度序列或灵巧手抓取参数)。


2、工作原理

  1. 模态统一:利用预训练 VLM 的 tokenizer,将视觉和语言统一到同一个语义空间。在此之上,增加一个“动作 tokenizer”,将机器人专家轨迹中的连续动作(如末端 6D 位姿增量、关节力矩)离散化为一系列离散 token。

  2. 联合训练:在互联网规模的图文数据与机器人操作数据上进行微调或协同训练。损失函数同时考虑文本生成和动作预测,使模型既能进行常识推理,又能输出物理世界的操控指令。

  3. 推理生成:给定一个 RGB 图像观测和指令“把蓝色的积木放到黄色的托盘上”,模型自回归地解码出动作 token 序列,再由反离散化模块转换为连续运动指令发送给机器人控制器。


3、里程碑工作

RT-2(谷歌 DeepMind,2023年7月)

首个真正意义上的 VLA 模型。基于视觉-语言模型 PaLI-X 或 PaLM-E,将 Web 知识迁移到机器人控制,展现出符号理解、复杂推理和基础指令跟随的涌现泛化能力。相关论文标题直接定义为 “Vision-Language-Action Models Transfer Web Knowledge to Robotic Control”。


OpenVLA(开源社区,2024年)

基于 Llama 2 语言模型与 SigLIP 视觉编码器的 7B 参数 VLA,在 97 万条真实机器人操作轨迹上训练。完全开源,将 VLA 能力推向开放研究,支持微调适配多种具身形态。


Octo(加州大学伯克利分校等,2023年)

通用机器人策略基础模型,同样遵循视觉-语言-动作多模态框架,支持多机器人、多任务、多传感器配置,可通过语言指令或目标图像指定任务。


4、关键特性

  • 互联网知识迁移:由于背靠大语言模型和 VLM,VLA 拥有符号理解、基本物理常识和语义关联能力。例如,对于未见过的“把临期食品放到红色回收筐里”,模型可以推断“临期食品”与“回收”的语义关系,而不需要针对该短语预训练。

  • 零样本/少样本泛化:能处理训练中不曾出现的物体、颜色、空间关系组合,甚至新动词。

  • 端到端控制:跳过了传统的“感知→规划→控制”模块级联,直接从像素和指令生成底层动作,减少了结构化感知误差的累积。


5、与具身智能的关系

VLA 模型本质上是一种机器人基础模型(Robotics Foundation Model) 的实现方案。它将物理动作空间对齐到语言-视觉语义流形中,使得机器人不再只是执行预编程轨迹,而是能“理解并回应”开放的语义指令。这代表着从 “写代码控制” 到 “说人话指挥” 的范式跃迁,是当前具身智能领域最活跃的前沿方向之一。


6、挑战与局限

  • 动作精度与实时性:动作 token 化会引入量化误差,高精度灵巧操作(如插拔精密元件)仍困难;大模型推理延迟亦难以满足 kHz 级伺服控制需求。

  • 安全与价值对齐:直接从语言映射到动作,缺乏形式化安全约束层,可能产生危险行为。

  • 数据规模化:高质量、多模态的机器人操作数据获取成本极高,远不及互联网图文数据规模。仿真到真实(Sim-to-Real)的迁移与数据高效利用仍是核心瓶颈。


注:在极少场合,VLA 也可能被解读为 “Visual-Language-Action” 的同义变体,或与早期 “VLA(Very Large Array)” 射电望远镜缩写冲突,但在当前人工智能与机器人文献中,只要上下文涉及具身智能、大模型与机器人控制,VLA 专指视觉-语言-动作模型。


热门词条