二月 04, 2026

DeepSeek R1

历史梳理

Transformer

Transformer 模型虽然整体结构看着复杂,但如果从数学公式的功能来分类,其实可以非常清晰地划分为四大类

如果把一个单词向量通过 Transformer 的过程比作**“刚入职员工的成长史”**,这四类公式的关系如下:

  1. 位置编码 (准备)注入灵魂
  • 入职登记。给你发工牌(位置信息),确定你在公司的工位(顺序)。
  • (数据传给 Attention)
  1. 注意力机制 (交互)理解上下文
  • 开会讨论。你去和其他部门同事(其他 Token)沟通,了解大家都在干什么。你的脑子里装进了项目背景(上下文语义)。
  • (数据传给 Add & Norm)
  1. 残差与归一化 (稳定)层归一化
  • 休息调整。确保你没有因为开会太多而迷失自我(保留原始信息),并调整心态(归一化),准备下一项工作。
  • (数据传给 FFN)
  1. 前馈网络 (变换)前馈神经网络
  • 独立思考。回到工位,消化刚才开会的内容,结合自己的专业技能(权重矩阵),产出具体的方案。
  • (数据再次经过 Add & Norm,进入下一层)

一句话总结前后关系:
“准备公式”搭建舞台,“交互公式”负责收集情报,变换公式负责消化情报,而稳定公式贯穿全程,确保这套流程能循环 N 次而不崩塌。