🏛️ 第一纪元:深度学习的启蒙与爆发 (2012 - 2014)

特征: 卷积神经网络(CNN)取代人工特征(SIFT/HOG),统治图像分类。

年份模型核心任务工业突破与意义
2012AlexNet图像分类开山鼻祖:首次在大规模数据集上证明了深度学习的威力。引入了 GPU 加速和 Dropout。
2013ZFNet图像分类可视化:通过反卷积看清了模型每一层到底在学习什么特征(如边缘、纹理)。
2014VGGNet图像分类标准化:证明了“小卷积核(3x3)+ 深层次”是提取特征最有效、最简单的范式。
2014GoogLeNet图像分类并行化:引入 Inception 结构,尝试在同一层用不同大小的感受野看图像,提升参数效率。

🏗️ 第二纪元:架构完善与多任务落地 (2015 - 2017)

特征: 残差结构解决了训练瓶颈,模型开始走向检测、分割与轻量化。

年份模型核心任务工业突破与意义
2015ResNet通用 Backbone里程碑:提出残差连接,让训练上百层的深层网络成为可能,是目前工业界最稳的底座。
2015YOLO (v1)目标检测实时性:将检测任务看作回归问题,开启了工业级实时物体检测的新时代。
2015Faster R-CNN目标检测精度标杆:提出 RPN 网络,在安防、医疗影像等对精度要求极高的场景至今仍有应用。
2017MobileNet轻量化分类算力降维:为手机和嵌入式开发,让 AI 摆脱昂贵的显卡,在终端也能跑。
2017Mask R-CNN实例分割精细化:不仅知道这里有个人(框),还能把每个人的轮廓勾勒出来(掩码)。

⚡ 第三纪元:注意力机制与高效进化 (2018 - 2020)

特征: 模型开始学会“划重点”,并向着更小、更快、更强的方向迭代。

年份模型核心任务工业突破与意义
2018DeepLabV3+语义分割细节处理:通过空洞卷积处理多尺度物体,广泛应用于无人驾驶道路线识别。
2019EfficientNet自动化调优性能平衡:利用 NAS 自动寻找深度、宽度和分辨率的最佳比例,刷榜神器。
2020YOLOv5目标检测工程化巅峰:极易部署与调优,成为目前国内工作室、小企业装机量最高的检测模型。
2020ViT (Vision Transformer)图像分类范式转移:首次证明 Transformer 能在 CV 领域干掉 CNN,开启了“万物皆序列”的时代。

🌌 第四纪元:大模型与通用智能 (2021 - 2026)

特征: 多模态融合,模型具备了强大的泛化能力和零样本(Zero-shot)识别能力。

年份模型核心任务工业突破与意义
2021CLIP跨模态理解图文联想:让模型具备了“理解”文字描述的能力,是目前 AI 绘图(Stable Diffusion)的底层核心。
2021Swin Transformer密集预测局部注意力:解决了 ViT 计算量大的问题,在检测和分割任务上表现极其优异。
2023SAM (Segment Anything)图像分割通用分割:不需要重新训练,给个点就能扣出图,大幅降低了数据标注的成本。
2024-2026YOLOv10 / InternVL实时检测 / 多模态端到端智能:YOLO 去除了冗余操作速度更快;多模态大模型(VLM)让机器人能“看图说话”。