attention 解析

📅 发布于：2026年02月05日

这里才是正文…

缩放点积注意力

$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$

这是一个极简的数值例子，模拟 Transformer 内部在处理两个单词时，是如何通过 “缩放点积注意力” (Scaled Dot-Product Attention) 计算出结果的。

在真实模型中，$Q, K, V$ 是通过输入向量乘以权重矩阵 $W^Q, W^K, W^V$ 得到的。这里我们直接给出结果向量：

Query ($Q$): 代表 “Thinking” 去查询别人的意图。
- $q_1 = [1, 2]$
Keys ($K$): 代表 “Thinking” 和 “Machines” 供别人查询的标签。
- $k_1$ (Thinking) $= [1, 2]$
- $k_2$ (Machines) $= [0, 1]$
Values ($V$): 代表这两个词实际包含的信息内容。
- $v_1$ (Thinking) $= [10, 20]$
- $v_2$ (Machines) $= [30, 40]$

拿着 $q_1$ 去和所有的 $k$ 进行点积，看看 “Thinking” 和这句话里的每个词有多相关。

与自己点积 ($q_1 \cdot k_1$):
$$1 \times 1 + 2 \times 2 = 1 + 4 = \mathbf{5}$$
与 “Machines” 点积 ($q_1 \cdot k_2$):
$$1 \times 0 + 2 \times 1 = 0 + 2 = \mathbf{2}$$

当前结果向量： $[5, 2]$

💡 解读：分数越高，代表相关性越高。Thinking 关注自己 5 分，关注 Machines 2 分。

公式要求除以 $\sqrt{d_k}$。因为我们设定 $d_k=4$ (为简化演示，此处假设根号后为2)，所以 $\sqrt{d_k}=2$。

$$
[5, 2] \div 2 = [\mathbf{2.5}, \mathbf{1.0}]
$$

当前结果向量： $[2.5, 1.0]$

💡 解读：这一步是为了防止数值过大，导致下一步 Softmax 梯度消失。

我们需要把分数变成百分比（权重），让它们的和为 1。公式如下：

$$
\text{softmax}(x_i) = \frac{e^{x_i}}{\sum e^{x_j}}
$$

计算过程：

计算权重：

当前注意力权重： $[0.82, 0.18]$

💡 解读：这意味着在理解 “Thinking” 这个词时，模型决定保留 82% 的“本意”，并混入 18% 的 “Machines” 的含义。

最后，用计算出的权重，去混合 $V$ (实际内容)。

$$
\text{Output} = 0.82 \times v_1 + 0.18 \times v_2
$$

代入数据 ($v_1=[10, 20], v_2=[30, 40]$)：

$$
\text{Attention Output} = [\mathbf{13.6}, \mathbf{23.6}]
$$

你可以看到，新的向量不再仅仅是 “Thinking” 自己了。它向 “Machines” ($[30, 40]$) 的方向偏移了一点点。

这就是 Attention 的本质：它让 “Thinking” 这个词，吸收了 “Machines” 的一部分语义，变成了一个包含了上下文信息的“混合体”。

🎨 调色盘比喻

本来 $V_1$ 是纯红色，$V_2$ 是纯蓝色。

Attention 告诉我们：取 82% 的红，加 18% 的蓝。

最后输出的颜色：带一点点紫色调的红色。