📚 计算机视觉全栈实战教程 — 大纲总览

本教程基于 2026 年最新技术趋势，系统讲解从传统图像处理到深度学习视觉模型的完整流程。

🎯 学习路径

第一阶段：图像处理基石（传统 CV 篇）

掌握数字图像的本质，理解无需深度学习的经典算法。

章节	标题	核心内容
01	CV 概览与数字图像基础	RGB/HSV 颜色空间、像素矩阵、位深度
02	OpenCV 快速入门	图像读取、绘制、几何变换
03	图像增强与滤波	高斯模糊、中值滤波、直方图均衡化
04	边缘检测与轮廓提取	Canny 算子、霍夫变换
05	特征匹配实战	SIFT/ORB 算法、图像拼接

第二阶段：深度学习视觉基础（CNN 篇）

掌握卷积神经网络，开启自动特征提取时代。

章节	标题	核心内容
06	从全连接到卷积	为什么 CV 需要卷积层
07	卷积核、步长与池化	感受野、参数共享
08	经典 CNN 架构剖析	LeNet、AlexNet、ResNet 演进
09	手写数字识别 (MNIST) 实战	PyTorch 图像分类模型
10	数据增强 (Data Augmentation)	翻转、裁剪、遮挡提升泛化性

第三阶段：核心视觉任务（进阶篇）

解决工业界最常见的分类、检测与分割问题。

章节	标题	核心内容
11	迁移学习 (Transfer Learning)	预训练模型快速适配
12	目标检测理论	边界框、锚框、IOU 计算
13	YOLO 家族实战	YOLOv5 到最新实时检测
14	语义分割 (Semantic Segmentation)	U-Net 架构、像素级理解
15	关键点检测 (Keypoints)	人脸 68 点、人体姿态估计

第四阶段：视觉新范式（Transformer 篇）

掌握目前最前沿的"Attention"视觉架构。

章节	标题	核心内容
16	Vision Transformer (ViT) 详解	图像切片、Patch Embedding
17	Swin Transformer	滑动窗口、层级式特征
18	MAE (Masked Autoencoders)	视觉预训练黑科技
19	Vision-Language 多模态	CLIP 模型、图文对齐
20	3D 视觉基础	点云、深度估计、立体视觉

第五阶段：工业落地与部署（实战篇）

让算法跑在各种设备上。

章节	标题	核心内容
21	模型轻量化	MobileNet、量化、剪枝
22	推理加速框架	ONNX Runtime、TensorRT
23	Web 视觉应用	FastAPI + 图片风格转换
24	边缘计算初探	树莓派、手机端部署
25	实时视频处理	OpenCV + 多线程优化

第六阶段：顶级综合项目实战

完成具备商业价值的完整项目。

章节	标题	核心内容
26	实战项目一：智能人脸考勤系统	MTCNN + ArcFace 人脸识别
27	实战项目二：工业缺陷检测	异常检测、流水线检测
28	实战项目三：自动驾驶感知	多任务学习、车道线+车辆识别

📊 技术栈

工具	用途
OpenCV	传统图像处理
PyTorch	深度学习框架
Torchvision	预训练模型库
YOLO	实时目标检测
Hugging Face Transformers	Vision Transformer 模型
ONNX Runtime	模型推理加速
FastAPI	Web 应用框架
TensorRT	NVIDIA 推理优化

🚀 快速开始

# 安装核心依赖
pip install opencv-python torch torchvision pytorch-lightning

# 第一个 CV 程序：读取并显示图像
# 详见 02-OpenCV快速入门.md

想要解锁更多 AI 实战黑科技？搜索「道满 Python AI」(https://www.daomanpy.com/)，海量免费教程随你练！