📷 计算机视觉 (CV)

1. 什么是计算机视觉?

计算机视觉是人工智能(AI)的一个分支,旨在使计算机和系统能够从图像、视频和其他视觉输入中提取有意义的信息。

如果说 AI 是让计算机“思考”,那么计算机视觉就是让计算机“看见并理解”。它不仅仅是捕捉图像,更是通过算法模拟人类视觉系统的复杂功能,从而实现对客观世界的识别、跟踪和测量。


2. 核心工作原理

计算机看世界的方式与人类完全不同。人类看到的是物体和场景,而计算机看到的是一串数字(像素值)

  1. 图像获取:通过摄像头或传感器捕捉光信号并转化为数字矩阵。
  2. 预处理:对图像进行降噪、增强、缩放,以确保后续算法能高效处理。
  3. 特征提取:识别图像中的关键点、边缘、纹理或颜色分布。
  4. 模型推理:利用深度学习(如卷积神经网络 CNN)或大模型(如 Transformer)对提取的特征进行分类或匹配。
  5. 输出结果:得出结论(例如:“这是一辆汽车”或“前方有障碍物”)。

3. 常见任务类型

计算机视觉涵盖了多种不同的技术路径,下表列出了最核心的几类任务:

任务类型描述典型应用
图像分类 (Classification)识别图像中“是什么”。识照片中的动物、植物。
目标检测 (Object Detection)识别图像中“是什么”以及“在哪里”。自动驾驶识别行人和红绿灯。
图像分割 (Segmentation)将图像精确到像素级的分类,勾勒出轮廓。医疗影像中分割出肿瘤区域。
人脸识别 (Face Recognition)识别和验证特定身份的人脸。手机解锁、安防系统。
姿态估计 (Pose Estimation)识别并跟踪人体关节的运动。健身 App、动作捕捉。
生成与编辑 (GenAI)根据提示词或参考图生成/修改视觉内容。AI 绘画、视频生成。

4. 应用领域

计算机视觉早已走出实验室,渗透到了我们生活的方方面面:

  • 自动驾驶:通过车载摄像头识别车道线、交通标志和其他车辆,是实现 Level 4/5 自动驾驶的核心。
  • 医疗保健:辅助医生分析 X 光、CT 或 MRI 切片,能够比肉眼更快、更精准地发现微小病灶。
  • 零售安防:无人超市的“拿了就走”技术、商场的人流量统计。
  • 工业自动化:在生产线上检测产品缺陷(如零件划痕、组装错误),效率远超人工检测。
  • 智能手机:人像模式的背景虚化、扫描文档、AR 滤镜等。

5. 现状与未来趋势

从“识别”到“理解”

早期的计算机视觉依赖于手工设计的特征,而现在的深度学习(特别是 CNN)彻底改变了这一领域。目前的趋势是多模态大模型(Vision-Language Models),计算机不仅能看图,还能像人类一样用语言描述图片内容,甚至进行逻辑推理。

生成式视觉 (Generative Vision)

随着 Veo 和 Nano Banana 2 等模型的出现,计算机视觉不再仅仅是“观察”,还可以“创造”。这意味着我们正从单纯的视觉分析转向视觉生成的新阶段。