二月 04, 2026

DeepSeek R1

历史梳理

Transformer

Transformer 模型虽然整体结构看着复杂，但如果从数学公式的功能来分类，其实可以非常清晰地划分为四大类。

如果把一个单词向量通过 Transformer 的过程比作**“刚入职员工的成长史”**，这四类公式的关系如下：

位置编码 (准备)：注入灵魂

入职登记。给你发工牌（位置信息），确定你在公司的工位（顺序）。
(数据传给 Attention)

注意力机制 (交互)：理解上下文

开会讨论。你去和其他部门同事（其他 Token）沟通，了解大家都在干什么。你的脑子里装进了项目背景（上下文语义）。
(数据传给 Add & Norm)

残差与归一化 (稳定)：层归一化

休息调整。确保你没有因为开会太多而迷失自我（保留原始信息），并调整心态（归一化），准备下一项工作。
(数据传给 FFN)

前馈网络 (变换)：前馈神经网络

独立思考。回到工位，消化刚才开会的内容，结合自己的专业技能（权重矩阵），产出具体的方案。
(数据再次经过 Add & Norm，进入下一层)

一句话总结前后关系：
“准备公式”搭建舞台，“交互公式”负责收集情报，变换公式负责消化情报，而稳定公式贯穿全程，确保这套流程能循环 N 次而不崩塌。

查看评论

1. DeepSeek R1
1. 1.1. 历史梳理
  1. 1.1.1. Transformer