二月 04, 2026
DeepSeek R1
历史梳理
Transformer
Transformer 模型虽然整体结构看着复杂,但如果从数学公式的功能来分类,其实可以非常清晰地划分为四大类。
如果把一个单词向量通过 Transformer 的过程比作**“刚入职员工的成长史”**,这四类公式的关系如下:
- 位置编码 (准备):注入灵魂
- 入职登记。给你发工牌(位置信息),确定你在公司的工位(顺序)。
- (数据传给 Attention)
- 注意力机制 (交互):理解上下文
- 开会讨论。你去和其他部门同事(其他 Token)沟通,了解大家都在干什么。你的脑子里装进了项目背景(上下文语义)。
- (数据传给 Add & Norm)
- 残差与归一化 (稳定):层归一化
- 休息调整。确保你没有因为开会太多而迷失自我(保留原始信息),并调整心态(归一化),准备下一项工作。
- (数据传给 FFN)
- 前馈网络 (变换):前馈神经网络
- 独立思考。回到工位,消化刚才开会的内容,结合自己的专业技能(权重矩阵),产出具体的方案。
- (数据再次经过 Add & Norm,进入下一层)
一句话总结前后关系:
“准备公式”搭建舞台,“交互公式”负责收集情报,变换公式负责消化情报,而稳定公式贯穿全程,确保这套流程能循环 N 次而不崩塌。
查看评论