数学基础
/
Feb 09, 2026
Step 8 08. 注意力机制与 Transformer:AI 的“聚焦”
<!-- Title: 08. 注意力机制与 Transformer:AI 的“聚焦” -->
<!-- Series: 深度学习数学基础 (ID: 10) -->
<!-- Author: admin -->
# 注意力机制与 Transformer:AI 的“聚焦”
## 1. 鸡尾酒会效应
在嘈杂的鸡尾酒会上,你可以选择性地忽略背景噪音,**聚焦**于和你对话的人。
这就是**注意力 (Attention)**。
在 RNN 中,机器必须把一整句话的所有信息压缩成一个固定长度的向量 $h_T$。这太难了。
Attention 机制允许模型在解码时,**回头看**输入序列的任意位置,并给予不同的关注度。
## 2. Self-Attention:Q, K, V
Transformer 的核心是 **Self-Attention**。
它把每个词拆解为三个向量:
* **Query (Q)**: 查询。我在找什么?
* **Key (K)**: 索引。我有什么特征?
* **Value (V)**: 值。我的具体内容是什么?
**计算公式**:
$$ \text{Attention}(Q, K, V) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}}) V $$
1. $QK^T$: 计算相似度([线性代数篇](articles/233.md)提到的点积)。
2. $\text{softmax}$: 归一化为概率([概率论篇](articles/247.md))。
3. $\times V$: 根据关注度对内容进行加权求和。
## 3. 为什么 Transformer 能并行?
RNN 必须等 $t-1$ 算完才能算 $t$(串行)。
Transformer 抛弃了循环,直接利用**矩阵乘法**,一次性计算所有词之间的 Attention。
这完美契合了 GPU 的[并行计算能力](articles/233.md)。
## 4. 结语
从 2017 年的 "Attention Is All You Need" 开始,Transformer 统治了 AI 世界。
BERT, GPT, LLaMA, Stable Diffusion... 它们的心脏都是这个公式。
它不仅是数学上的胜利,更是**工程学**(并行计算)对**生物学**(模拟人脑循环)的一次降维打击。
P
潘卫
南京市沉思波网络科技有限责任公司创始人、CEO
您的观点 (可选)
🎁 注册账号,同步您的个性化学习路径