📷 计算机视觉 (CV)

1. 什么是计算机视觉？

计算机视觉是人工智能（AI）的一个分支，旨在使计算机和系统能够从图像、视频和其他视觉输入中提取有意义的信息。

如果说 AI 是让计算机“思考”，那么计算机视觉就是让计算机“看见并理解”。它不仅仅是捕捉图像，更是通过算法模拟人类视觉系统的复杂功能，从而实现对客观世界的识别、跟踪和测量。

2. 核心工作原理

计算机看世界的方式与人类完全不同。人类看到的是物体和场景，而计算机看到的是一串数字（像素值）。

图像获取：通过摄像头或传感器捕捉光信号并转化为数字矩阵。
预处理：对图像进行降噪、增强、缩放，以确保后续算法能高效处理。
特征提取：识别图像中的关键点、边缘、纹理或颜色分布。
模型推理：利用深度学习（如卷积神经网络 CNN）或大模型（如 Transformer）对提取的特征进行分类或匹配。
输出结果：得出结论（例如：“这是一辆汽车”或“前方有障碍物”）。

3. 常见任务类型

计算机视觉涵盖了多种不同的技术路径，下表列出了最核心的几类任务：

任务类型	描述	典型应用
图像分类 (Classification)	识别图像中“是什么”。	识照片中的动物、植物。
目标检测 (Object Detection)	识别图像中“是什么”以及“在哪里”。	自动驾驶识别行人和红绿灯。
图像分割 (Segmentation)	将图像精确到像素级的分类，勾勒出轮廓。	医疗影像中分割出肿瘤区域。
人脸识别 (Face Recognition)	识别和验证特定身份的人脸。	手机解锁、安防系统。
姿态估计 (Pose Estimation)	识别并跟踪人体关节的运动。	健身 App、动作捕捉。
生成与编辑 (GenAI)	根据提示词或参考图生成/修改视觉内容。	AI 绘画、视频生成。

4. 应用领域

计算机视觉早已走出实验室，渗透到了我们生活的方方面面：

自动驾驶：通过车载摄像头识别车道线、交通标志和其他车辆，是实现 Level 4/5 自动驾驶的核心。
医疗保健：辅助医生分析 X 光、CT 或 MRI 切片，能够比肉眼更快、更精准地发现微小病灶。
零售安防：无人超市的“拿了就走”技术、商场的人流量统计。
工业自动化：在生产线上检测产品缺陷（如零件划痕、组装错误），效率远超人工检测。
智能手机：人像模式的背景虚化、扫描文档、AR 滤镜等。

5. 现状与未来趋势

从“识别”到“理解”

早期的计算机视觉依赖于手工设计的特征，而现在的深度学习（特别是 CNN）彻底改变了这一领域。目前的趋势是多模态大模型（Vision-Language Models），计算机不仅能看图，还能像人类一样用语言描述图片内容，甚至进行逻辑推理。

生成式视觉 (Generative Vision)

随着 Veo 和 Nano Banana 2 等模型的出现，计算机视觉不再仅仅是“观察”，还可以“创造”。这意味着我们正从单纯的视觉分析转向视觉生成的新阶段。