🚀 从 CNN 到 Vision Transformer
一、 前言:从“数字矩阵”到“感知智能”
在计算机的世界里,图像并非色彩斑斓的风景,而是由成千上万个 0 到 255 之间的数字组成的矩阵。图像识别(Image Recognition) 的核心使命,就是构建一套数学模型,将这些冰冷的数字转化为人类可理解的语义标签。
从 2012 年 AlexNet 的惊世一跳,到如今能够“指哪打哪”的 SAM 模型,图像识别已经从单纯的分类任务,演变成了一个包含检测、分割、甚至跨模态理解的庞大技术家族。
二、 概述:图像识别的三大核心任务
为了让机器像人一样观察,研究者们定义了三个层层递进的任务:
- 图像分类 (Classification):解决“图里有什么”的问题。给整张图打标签(如:猫、狗)。
- 目标检测 (Object Detection):解决“东西在哪”的问题。用框(Bounding Box)标出物体位置。
- 图像分割 (Segmentation):解决“边界在哪”的问题。像素级地描绘物体的轮廓。
三、 深度讲解:图像识别的四个纪元与代表网络
1. 启蒙与爆发:卷积神经网络 (CNN) 的统治
这一纪元的功臣是 AlexNet 和 VGGNet。它们确立了 CNN 的基本范式:通过一层层的卷积核去“卷”图像。
- 初层:识别线条和直角。
- 深层:识别出复杂的纹理和器官形状。
- 意义:VGGNet 告诉我们,模型越深,提取特征的能力就越强。
2. 架构完善:工业界的“稳健底座”
随着网络变深,训练变得极其困难。ResNet (残差网络) 的出现解决了这个难题。它引入了“捷径”连接,让信号可以无损地传向更深层。
- 地位:ResNet 是目前工业界使用最广泛的特征提取器(Backbone),无论是做文字检测还是人脸识别,它都是首选的稳健方案。
- 检测双雄:Faster R-CNN 追求极致精度,而 YOLO 追求极致速度。
3. 注意力革命:学会“划重点”
在处理复杂场景时,模型不应该对整张图平均用力。EfficientNet 通过数学自动寻找最均衡的模型配置,而 ViT (Vision Transformer) 则是降维打击。
- ViT 的原理:它把图像切成一个个小块(Patches),像读文章一样去“读”图像,利用自注意力机制让图像中的每个部分互相建立联系。
在 2026 年,计算机视觉已经完成了从“卷积算子”向“序列建模”的转型。
核心本质:归纳偏置 (Inductive Bias) 的取舍
- CNN (卷积神经网络):内置了平移不变性和局部性。这是一种强假设(偏见),让它在小数据集上表现极佳,但也限制了它理解长距离像素关联的能力。
- Transformer:抛弃了预设的偏见。它通过 自注意力机制 (Self-Attention) 让每个像素(或 Patch)去“询问”全图其他所有像素:“你和我有关系吗?”
自注意力公式:
公式解构:
Q (Query):你想找什么?
K (Key):这里有什么?
V (Value):具体的特征信息是什么?
sm (Softmax):一种归一化操作,确保权重的总和为 1。
注:其中 是缩放因子,防止梯度消失。这种机制赋予了 ViT 极强的非线性建模能力。
4. 通用智能:大模型与多模态
现在的图像识别不再局限于死板的分类。
- CLIP:它将图像和文字联系在一起。你搜索“夕阳下的奔跑”,它能从海量图片中找出来,因为它理解文字与图像的对应关系。
- SAM (Segment Anything):这是分割领域的“ChatGPT”,它具备了通用性,不需要针对特定物体训练,点击任何物体都能瞬间提取出完美轮廓。
四、 图像识别的技术类型与应用
图像识别不仅是学术名词,它在不同领域表现为不同的产品形态:
五、 结语:未来的方向
图像识别正从“特定场景专用”向“通用人工智能”迈进。未来的识别系统将不再需要海量的标注数据,而是通过观察世界自我进化。
掌握 ResNet (稳健性)、YOLO (实时性) 和 Transformer (前瞻性) 这三驾马车,就足以应对 90% 以上的商业视觉需求。

