VLM 以大规模图文配对数据训练,学习将视觉信号和文本语义映射到统一的表征空间,从而支持图像描述、视觉问答、图文检索等多模态任务。本质上,它赋予了机器“看图说话”和“按文索图”的能力,并为更高级的具身推理与动作生成提供语义基座。
现代 VLM 通常由三个关键模块构成:
视觉编码器:将图像转为视觉 token。常用 ViT(Vision Transformer)或 SigLIP(Sigmoid Loss for Language Image Pre-Training)等,把图像切块后投影到嵌入序列。
语言模型:以自回归或双向 Transformer(如 LLaMA、PaLM)处理文本 token,并负责跨模态融合与文本生成。
跨模态连接器:在视觉编码器和语言模型之间架桥。常见方案包括:
可学习查询向量(Q-Former):如 BLIP-2 使用一组可学习的 query token 从冻结的视觉编码器中提取信息,压缩后送入冻结的语言模型。
线性投影/MLP:如 LLaVA 直接将视觉 token 经过一个线性层投影到语言模型的词嵌入空间。
交叉注意力:如 Flamingo 在语言模型层间插入交叉注意力,动态融合视觉特征。
训练通常包含预训练(大量嘈杂图文对,学习对齐)和指令微调(高质量视觉指令数据,提升指令遵循能力)两个阶段。
| 模型 | 关键贡献 |
| CLIP(OpenAI, 2021) | 双塔架构,通过对比学习实现图文匹配,证明了大规模弱监督图文预训练的零样本迁移能力,成为大多数 VLM 的视觉编码器基础。 |
| Flamingo(DeepMind, 2022) | 用 Perceiver Resampler 压缩视频/图像特征,通过交叉注意力注入冻结语言模型,支持少样本多模态对话与视频理解。 |
| BLIP-2(Salesforce, 2023) | 提出 Q-Former,以可学习查询高效桥接冻结的视觉编码器与冻结的 LLM,极大降低训练成本。 |
| LLaVA(威斯康星/微软, 2023) | 采用简洁线性投影连接视觉和语言,利用 GPT-4 生成多模态指令数据,开源推动多模态对话。 |
| PaLI-X(Google, 2023) | 参数规模达 55B,在多语言图像描述、视觉问答、OCR 等任务上达成 SOTA,亦是 VLA 模型 RT-2 的核心视觉-语言骨干。 |
| GPT-4V / GPT-4o(OpenAI, 2023/2024) | 商业级多模态大模型,展示极强的视觉推理、图表理解、具身规划等能力,但技术细节未完全公开。 |
VLM 是 VLA(视觉-语言-动作模型)的直接上游基座。VLA 模型将 VLM 扩展出一个“动作模态”,其典型构建方式为:
VLA = VLM + 动作分词器 + 机器人数据微调
例如,谷歌的 RT-2 正是以 PaLI-X 或 PaLM-E(一种 VLM)为骨干,通过将连续动作离散化为 token 并混入图文 token 流中联合训练而获得。因此,VLM 的视觉-语言语义理解能力,直接决定了 VLA 在开放场景下对语言指令和视觉场景的推理泛化水平。
即便不直接扩展到动作输出,VLM 本身也可作为机器人的语义感知器与任务规划器:
场景理解:识别物体、属性、空间关系、人类意图,为传统运动规划提供高层次状态。
任务分解:将“收拾干净这间屋子”这样的高层指令,分解为“打开柜门→拾取袜子→放入抽屉”的子任务序列。
人机交互:以自然语言反馈解释当前环境状态与动作理由,增强透明度和信任。
幻觉:VLM 可能生成与图像内容不符的描述,直接误导下游决策。
细粒度与空间推理:在需要精确定位、计数、空间关系判断的任务中仍易出错。
计算成本:参数规模巨大,难以部署到边缘端机器人。
动态环境:视频理解与实时交互还远未成熟,多数 VLM 仍限于静态图像。
99
65
61
60
54
53
46
43
34
30
善点 SHANDOT · 智能具身机器人行业应用前沿动态解决方案提供商