BERT 家族:双向编码器的威力、Masked LM 与下游微调
📂 所属阶段:第四阶段 — 预训练模型与迁移学习(应用篇)
🔗 相关章节:Transformer 完整架构 · Hugging Face 实战
1. BERT 的核心创新
1.1 BERT vs GPT 的区别
1.2 预训练任务
2. BERT 的下游任务
3. BERT 变体
4. ALBERT 的参数共享
5. 小结
💡 记住:BERT 的核心贡献是证明了"预训练+微调"范式的有效性,以及双向 Transformer 的强大表示能力。
🔗 扩展阅读

