VLM（视觉-语言模型）

来源: | 作者:SHANDOT | 发布时间 :2026-05-16 | 83 次浏览: | 🔊 点击朗读正文 ❚❚ ▶ | 分享到:

在人工智能领域，VLM 是 Vision-Language Model（视觉-语言模型）的缩写。这是一种能够联合理解视觉信息（图像、视频）与自然语言的多模态基础模型，是当前具身智能、多模态交互和通用人工智能研究的核心组件。本内容均基于已公开发表的顶级论文（如 CLIP、BLIP-2、LLaVA、PaLI-X 等）与业界共识。

一、核心定义

VLM 以大规模图文配对数据训练，学习将视觉信号和文本语义映射到统一的表征空间，从而支持图像描述、视觉问答、图文检索等多模态任务。本质上，它赋予了机器“看图说话”和“按文索图”的能力，并为更高级的具身推理与动作生成提供语义基座。

二、工作原理

现代 VLM 通常由三个关键模块构成：

视觉编码器：将图像转为视觉 token。常用 ViT（Vision Transformer）或 SigLIP（Sigmoid Loss for Language Image Pre-Training）等，把图像切块后投影到嵌入序列。
语言模型：以自回归或双向 Transformer（如 LLaMA、PaLM）处理文本 token，并负责跨模态融合与文本生成。
跨模态连接器：在视觉编码器和语言模型之间架桥。常见方案包括：

可学习查询向量（Q-Former）：如 BLIP-2 使用一组可学习的 query token 从冻结的视觉编码器中提取信息，压缩后送入冻结的语言模型。
线性投影/MLP：如 LLaVA 直接将视觉 token 经过一个线性层投影到语言模型的词嵌入空间。
交叉注意力：如 Flamingo 在语言模型层间插入交叉注意力，动态融合视觉特征。

训练通常包含预训练（大量嘈杂图文对，学习对齐）和指令微调（高质量视觉指令数据，提升指令遵循能力）两个阶段。

三、里程碑工作

模型	关键贡献
CLIP（OpenAI, 2021）	双塔架构，通过对比学习实现图文匹配，证明了大规模弱监督图文预训练的零样本迁移能力，成为大多数 VLM 的视觉编码器基础。
Flamingo（DeepMind, 2022）	用 Perceiver Resampler 压缩视频/图像特征，通过交叉注意力注入冻结语言模型，支持少样本多模态对话与视频理解。
BLIP-2（Salesforce, 2023）	提出 Q-Former，以可学习查询高效桥接冻结的视觉编码器与冻结的 LLM，极大降低训练成本。
LLaVA（威斯康星/微软, 2023）	采用简洁线性投影连接视觉和语言，利用 GPT-4 生成多模态指令数据，开源推动多模态对话。
PaLI-X（Google, 2023）	参数规模达 55B，在多语言图像描述、视觉问答、OCR 等任务上达成 SOTA，亦是 VLA 模型 RT-2 的核心视觉-语言骨干。
GPT-4V / GPT-4o（OpenAI, 2023/2024）	商业级多模态大模型，展示极强的视觉推理、图表理解、具身规划等能力，但技术细节未完全公开。

四、与 VLA 的关系

VLM 是 VLA（视觉-语言-动作模型）的直接上游基座。VLA 模型将 VLM 扩展出一个“动作模态”，其典型构建方式为：

VLA = VLM + 动作分词器 + 机器人数据微调

例如，谷歌的 RT-2 正是以 PaLI-X 或 PaLM-E（一种 VLM）为骨干，通过将连续动作离散化为 token 并混入图文 token 流中联合训练而获得。因此，VLM 的视觉-语言语义理解能力，直接决定了 VLA 在开放场景下对语言指令和视觉场景的推理泛化水平。

五、在具身智能中的价值

即便不直接扩展到动作输出，VLM 本身也可作为机器人的语义感知器与任务规划器：

场景理解：识别物体、属性、空间关系、人类意图，为传统运动规划提供高层次状态。

任务分解：将“收拾干净这间屋子”这样的高层指令，分解为“打开柜门→拾取袜子→放入抽屉”的子任务序列。

人机交互：以自然语言反馈解释当前环境状态与动作理由，增强透明度和信任。

六、挑战

幻觉：VLM 可能生成与图像内容不符的描述，直接误导下游决策。

细粒度与空间推理：在需要精确定位、计数、空间关系判断的任务中仍易出错。

计算成本：参数规模巨大，难以部署到边缘端机器人。

动态环境：视频理解与实时交互还远未成熟，多数 VLM 仍限于静态图像。

上一篇： UWB（超宽带）

下一篇： VLA（视觉-语言-动作模型）

热门词条