RGB相机是机器人视觉系统中最基础、最核心的感知硬件。它通过模拟人眼对红(Red)、绿(Green)、蓝(Blue)三原色的响应,将外部环境的光信号转化为数字系统可处理的标准彩色图像数据,从而赋予机器“看”的能力。在具身智能与大模型中,它是连接物理世界与语义世界的首要入口。
RGB 相机的核心是一个光电转换与色彩重建系统,由以下关键部件协同工作:
光学镜头:将环境光线聚焦到图像传感器上,其视场角与景深直接决定了机器人的有效观察范围。
图像传感器(CMOS / CCD):将光子转换为电信号。每个像素本质上只记录光强,不记录色彩。
拜耳滤色片(Bayer Filter):覆盖在传感器像素之上,使每个像素只能透过红、绿、蓝中的一种光,形成马赛克般的原始数据。
图像信号处理器:通过去马赛克算法,为每个像素插值重建出缺失的另外两种颜色,生成完整的 RGB 三通道图像。同时,ISP 还负责自动白平衡、自动曝光和伽马校正,使相机在不同光照下均能输出与人眼感知一致的色彩。
这一过程最终产出的,是数字世界中一张标准格式的彩色图像。
在人工智能和计算机视觉系统中,一张 RGB 图像被表示为一个 三维张量,形状为 H × W × 3(或通道优先格式 3 × H × W),其中 H 为图像高度,W 为宽度,3 个通道分别存储该像素的红、绿、蓝亮度值。
色彩模型:RGB 是一种加色法混色模型,红、绿、蓝三原色光以不同强度混合,可重现约 1678 万种颜色(每通道 8 位时)。三通道全亮为白,全灭为黑。这与人类视网膜中三种视锥细胞的感光原理一致。
通用输入:几乎所有的视觉基础模型——从卷积神经网络到 Vision Transformer,从 CLIP 到 SigLIP——都是在海量的互联网 RGB 图像上预训练完成的。这一事实使得 RGB 数据天然地连接着庞大的开放世界语义知识库,为 VLM、VLA 等模型提供了丰富的常识推理基础。
在机器人与具身智能系统中,RGB 相机不再只是记录画面的工具,而是承担着以下关键任务:
视觉编码器的前端:手腕(腕部相机)或头部相机捕捉的 RGB 图像,被切分为图像块后线性投影为视觉 token,输入 ViT、SigLIP 等视觉骨干网络。这是 VLA 模型工作流的第一步:指令 + RGB 观测 → 语义理解 → 动作指令。
语义理解的基石:物体的类别、属性(颜色、纹理)、操作状态以及场景中的文字、符号等精细语义,几乎完全依赖 RGB 信息。这是深度图或点云难以独立完成的任务。
视觉伺服与闭环控制:在传统方法中,RGB 图像可直接作为视觉伺服的反馈,通过比较当前特征与期望特征,实时驱动机械臂运动直至精准对齐。
稠密预测的源头:通过单目深度估计模型,可直接从 RGB 图像中推断出每个像素的深度,为无专用深度传感器的系统提供粗糙但可用的 3D 几何信息,辅助抓取规划与导航。
尽管 RGB 相机提供了媲美人眼的丰富纹理与语义,但其被动成像原理决定了若干根本性局限,这些正是当前机器人操作失败的主要感知源头:
| 局限 | 说明 | 对机器人的直接影响 |
| 2D 投影,无绝对尺度 | 单帧图像是 3D 世界的二维投影,丢失了距离信息。 | 导致物体尺寸、6D 姿态估计存在固有模糊性,抓取点预测偏差。 |
| 对光照极其敏感 | 被动传感器依赖外部光源,过曝、暗光、阴影会剧烈改变像素值。 | ISP 自动调节可能导致色彩失真、纹理丢失,引发 VLA 模型的感知失败。 |
| 弱纹理与透明物体失效 | 白墙、透明玻璃、无纹理金属件缺乏像素梯度。 | 基于特征点匹配的 SLAM 与姿态估计算法完全失败,无法定位。 |
| 运动模糊与卷帘快门畸变 | 快速运动时,传统 CMOS 的逐行读出方式导致图像扭曲、拖影。 | 高速操作任务中,实时感知信号失真,影响控制精度。 |
为弥补上述不足,现代具身系统的一个明确趋势是从“纯 RGB 感知”走向“多模态物理感知”。RGB 相机提供密集语义,而其他传感器补全物理几何与动态信息:
RGB-D 相机:增加 Depth 通道,形成 (H × W × 4) 输入,为每个像素提供对齐的深度值,直接解决 3D 几何缺失问题,已成为机器人操作的标准配置之一。
事件相机:不受卷帘快门限制,具有微秒级响应和高动态范围,能捕捉高速运动与极端光照下的运动信息,弥补 RGB 相机的动态感知盲区。
触觉与力觉传感器:在抓取与接触瞬间,提供 RGB 相机无法感知的力、滑动、材质纹理等关键物理量,构成“视-触”联合感知的完整闭环。
97
65
61
60
53
53
46
43
33
30
善点 SHANDOT · 智能具身机器人行业应用前沿动态解决方案提供商