VLA（视觉-语言-动作模型）

来源: | 作者:SHANDOT | 发布时间 :2026-05-16 | 103 次浏览: | 🔊 点击朗读正文 ❚❚ ▶ | 分享到:

VLA 特指 Vision-Language-Action，即视觉-语言-动作模型。这是一种将计算机视觉、自然语言理解与机器人动作生成深度融合的端到端学习范式，被视为通往通用具身智能的关键技术路径。引用RT-2论文（“RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control”），以及OpenVLA等

在人工智能与机器人交叉领域，VLA 特指 Vision-Language-Action，即视觉-语言-动作模型。这是一种将计算机视觉、自然语言理解与机器人动作生成深度融合的端到端学习范式，被视为通往通用具身智能的关键技术路径。

1、核心定义

VLA 模型以预训练的大规模视觉-语言模型（VLM，如 PaLI-X、LLaVA 等）为骨干，将机器人动作视为一种新的模态。通过把连续动作离散化为“动作 token”，并嵌入到已有的文本、图像 token 空间中，模型能够直接以自然语言指令与视觉观测作为输入，输出可执行的机器人动作指令（如末端位姿轨迹、关节角度序列或灵巧手抓取参数）。

2、工作原理

模态统一：利用预训练 VLM 的 tokenizer，将视觉和语言统一到同一个语义空间。在此之上，增加一个“动作 tokenizer”，将机器人专家轨迹中的连续动作（如末端 6D 位姿增量、关节力矩）离散化为一系列离散 token。
联合训练：在互联网规模的图文数据与机器人操作数据上进行微调或协同训练。损失函数同时考虑文本生成和动作预测，使模型既能进行常识推理，又能输出物理世界的操控指令。
推理生成：给定一个 RGB 图像观测和指令“把蓝色的积木放到黄色的托盘上”，模型自回归地解码出动作 token 序列，再由反离散化模块转换为连续运动指令发送给机器人控制器。

3、里程碑工作

RT-2（谷歌 DeepMind，2023年7月）

首个真正意义上的 VLA 模型。基于视觉-语言模型 PaLI-X 或 PaLM-E，将 Web 知识迁移到机器人控制，展现出符号理解、复杂推理和基础指令跟随的涌现泛化能力。相关论文标题直接定义为 “Vision-Language-Action Models Transfer Web Knowledge to Robotic Control”。

OpenVLA（开源社区，2024年）

基于 Llama 2 语言模型与 SigLIP 视觉编码器的 7B 参数 VLA，在 97 万条真实机器人操作轨迹上训练。完全开源，将 VLA 能力推向开放研究，支持微调适配多种具身形态。

Octo（加州大学伯克利分校等，2023年）

通用机器人策略基础模型，同样遵循视觉-语言-动作多模态框架，支持多机器人、多任务、多传感器配置，可通过语言指令或目标图像指定任务。

4、关键特性

互联网知识迁移：由于背靠大语言模型和 VLM，VLA 拥有符号理解、基本物理常识和语义关联能力。例如，对于未见过的“把临期食品放到红色回收筐里”，模型可以推断“临期食品”与“回收”的语义关系，而不需要针对该短语预训练。
零样本/少样本泛化：能处理训练中不曾出现的物体、颜色、空间关系组合，甚至新动词。
端到端控制：跳过了传统的“感知→规划→控制”模块级联，直接从像素和指令生成底层动作，减少了结构化感知误差的累积。

5、与具身智能的关系

VLA 模型本质上是一种机器人基础模型（Robotics Foundation Model）的实现方案。它将物理动作空间对齐到语言-视觉语义流形中，使得机器人不再只是执行预编程轨迹，而是能“理解并回应”开放的语义指令。这代表着从 “写代码控制” 到 “说人话指挥” 的范式跃迁，是当前具身智能领域最活跃的前沿方向之一。

6、挑战与局限

动作精度与实时性：动作 token 化会引入量化误差，高精度灵巧操作（如插拔精密元件）仍困难；大模型推理延迟亦难以满足 kHz 级伺服控制需求。
安全与价值对齐：直接从语言映射到动作，缺乏形式化安全约束层，可能产生危险行为。
数据规模化：高质量、多模态的机器人操作数据获取成本极高，远不及互联网图文数据规模。仿真到真实（Sim-to-Real）的迁移与数据高效利用仍是核心瓶颈。

注：在极少场合，VLA 也可能被解读为 “Visual-Language-Action” 的同义变体，或与早期 “VLA（Very Large Array）” 射电望远镜缩写冲突，但在当前人工智能与机器人文献中，只要上下文涉及具身智能、大模型与机器人控制，VLA 专指视觉-语言-动作模型。

上一篇： VLM（视觉-语言模型）

下一篇： DOF（自由度）

热门词条